一文读懂:李彦宏掌舵下的百度AI如何开花结果?


    2018年7月4日,北京国家会议中心,这是百度转型AI战略以来举办的第二次百度AI开发者大会,相比第一届,技术配方和味道愈发纯正,而且今年的重点不再是树旗造势,更多的是技术成果解读和商业化探讨。
    在过去的一段时间内,很多人有这样的质疑?第一,陆奇亲自操刀帮百度理顺了AI航道后淡然离场,对百度的影响大不大?之前大刀阔斧设定好的目标路线还能否被继续保持?第二,百度总是说自己是AI公司,AI主要业务的真实情况怎么样?如何去做商业转化和技术变现?
    因此,李彦宏特意用一场AI开发者大会交了一份长长的答卷,用答卷去证明陆奇离开,百度并无大碍,并且自己能够带领一众技术高管把AI战略进行的有声有色,无人驾驶车量产、AI开放平台和芯片、智能小程序上线······一步一个亮点,步步为营形成技术体系和商业生态的闭环。
    AI全栈技术布局:多模态深度语义理解+“昆仑”芯片
    百度高级副总裁、AI技术平台体系(AIG)总负责人王海峰详解了百度大脑3.0,从芯片到深度学习框架,百度大脑形成了技术、平台和生态的AI全栈技术布局。
    发布会上,李彦宏播放了一段电话录音,一位即将参加开发者大会的嘉宾与百度智能客服进行了几轮对话,一问一答非常自然,随后揭晓,录音中的这位客服并不是人,而是AI,它背后便是百度大脑的自然语言理解、语音识别与合成技术。
    王海峰指出,百度AI能力的核心是百度大脑,而百度大脑3.0是百度AI能力的集大成者。8年前,基于多年的搜索技术积累,百度开始布局AI,2016年9月正式发布“百度大脑”,如今,百度大脑的能力从1.0进阶到3.0。百度大脑1.0完成基础能力搭建和核心技术初步开放,2.0形成了完整的技术体系,开放60多项AI核心能力,3.0的核心是“多模态深度语义理解”,同时开放110多项AI能力,覆盖算法层、感知层、认知层、平台层。
    百度大脑3.0提出了“多模态深度语义理解”,“多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。王海峰表示,“多模态深度语义理解不仅能让机器听清、看清,更能理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。”
    数据语义化技术可以将大千世界中多元、异构和多模态的三元空间大数据,形成包含千亿节点、万亿关系的庞大数据语义网络,从中总结规律、提炼知识、发现价值,助力经济和社会发展。比如在新能源充电桩智能运维中,结合百度的大数据、深度学习等技术进行设备监测、故障诊断等,可以显著提升效率,节约成本。而多元语义知识方面,百度已经构建了包含数亿实体、数千亿级事实的庞大知识图谱。除了基础的由实体、属性、关系构成的实体图谱,我们还针对不同的应用场景和知识形态,构建了关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱。所有这些知识,构成了百度大脑的基础。
    视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。视觉语义化技术应用于世界杯视频解析,能够全面识别视频中的球员、裁判、球、以及球门、球场线等人、物和场景,可以捕捉射门、进球、角球、任意球、换人等事件。基于这些语义化知识,既可以完成机器人自动解说,也可以进行精彩片段集锦、以及各种数据统计分析等。而在实际生活的超市购物场景中,百度的视觉语义化技术通过识别人物、动作、物品并关联时间序列,将数字化的视频转化为结构化的语义知识,既能实现顾客在无人超市购物的完整体验,还可以帮助商店经营者分析和优化商店经营。
    语音语义一体化和自然语言理解技术能让机器准确识别并理解人说的话,实现更自然的人机对话。王海峰现场对着百度地图说出了一长串绕口令般的导航需求,百度地图语音智能助手完美识别并给出最佳路线,李彦宏开场播放的智能客服给参会者打电话的片段,其背后也是这些领先的AI技术在支撑。王海峰介绍,百度高噪声环境Hand-free语音识别准确率已提升了10个百分点,语音语义一体化技术使得远场语音识别准确率提升了10个百分点;在语音合成方面,WaveNet+拼接的情感语音合成技术,使得流畅度和自然度也大幅提升。
    王海峰以对话理解和阅读理解为例,为大家介绍了领先的百度自然语言理解技术。百度的对话理解技术已经积累多年,通过研发最新的深层注意力匹配模型,比已知的最好结果又提升了4.1%。在阅读理解技术上,百度大脑已经阅读了千亿量级的文章,相当于6万个中国国家图书馆的藏书,并由此积累了亿级实体、千亿事实的知识。“通过持续获取和积累知识,百度大脑的理解能力不断升级,智能水平显著提升,进而能够更好地服务用户。”王海峰说到。
    百度大脑3.0提出“多模态深度语义理解”,背后有一套百度自主研发的深度学习框架PaddlePaddle,目前也迭代到3.0版本,包括完整的核心框架以及AIStudio、AutoDL、EasyDL等可以让开发者便捷获取百度AI能力的平台。
    PaddlePaddle3.0核心框架对服务器版本以及移动端版本进行了全面优化,可以灵活适用于广泛的开发需求。AutoDL能更高效自动搜索神经网络结构,开发者无需特殊硬件设备可以快速得到高质量模型;EasyDL可以帮助开发者零算法基础训练业务定制模型,操作可视化,无需懂深度学习;AI studio具有云端集成、简单易用、运行高效和资源免费的特点,是集成“数据、算法、算力”的PaddlePaddle实训平台,一站式满足使用者学习、技术进阶、学术研究需求。
    百度大脑3.0首次将芯片纳入技术体系,它使百度大脑具备了软硬一体化能力,旨在带动百度大脑算力实现倍级增长。百度自主研发了一款云端全功能AI芯片“昆仑”在会上首次公开亮相。“AI芯片将与百度自主研发的PaddlePaddle深度学习框架深度结合,推动AI技术生态快速发展。”王海峰表示。
    “昆仑”定位是云端全功能AI芯片,采用了14nm三星工艺,具备260Tops性能,512GB/s内存带宽,100+瓦特功耗设计,针对语音、NLP、图像等进行了专门优化,同等性能下成本降低10倍,支持多个深度学习框架。
    与谷歌做TPU的选择一样,百度自己做AI芯片有一定必然性,从2011年起,为了深度学习运算的需要,百度开始基于FPGA研发AI加速器,同期开始使用GPU,在过去几年中,百度对FPGA和GPU都进行了大规模部署。AI应用的爆发,对算力的要求越来越高,基于传统芯片的AI运算加速,已经不能满足需求。在大规模AI运算的实践探索中,百度研发出了一款专门用于AI大规模运算的芯片“昆仑”,据说它的运算能力比最新基于FPGA的AI加速器,性能提升了近30倍。
    王海峰表示,百度大脑每天调用次数超过4千亿次,调用的人中既有AI工程师,也有零“AI”基础的初入门者,还有来自各行各业希望用AI创新业务、为业务转型升级的企业。这些开发者和合作伙伴虽然身份不同、目标不同,但都能从百度找到了最适合的AI接入方式。
    百度AI智能小程序,深耕移动端掘金
    百度副总裁、百度APP&信息流业务体系总负责人沈抖发布百度智能小程序,一边是日益成熟的AI产业,一边是逐渐火爆的小程序热潮,智能小程序是百度AI在移动端深挖潜能的关键纽带,与搜索+信息流进一步串联起来。
    据介绍,百度智能小程序将在今年12月全面开源,不仅可以全面接入百度大脑的AI能力,还要为用户和开发者打造一个开放、智能化的移动生态,目前包括携程、苏宁易购、唯品会、同程、春雨医生、爱奇艺、优信二手车、查违章等在内的近百家企业成为首批加入智能小程序生态的合作伙伴,并将陆续推出各自的智能小程序。
    百度智能小程序的开放性体现在两个层面。首先,开发者只要简单修改几行代码,就可以将自己在其他平台开发的小程序接入百度智能小程序,百度智能小程序无缝运行在百度系App(百度App、百度贴吧、百度网盘等)以及外部合作App(哔哩哔哩、58同城等)上,实现一端开发,多端可运行。其次,百度还将开放全域千亿流量扶持开发者,帮助他们快速沉淀精准用户。值得注意的是,百度流量与其他平台不同的是,百度流量中天然存在大量与资讯、服务、工具等相关的需求,尤其是在百度信息流中,用户看到的内容都是根据兴趣匹配推荐的,这些内容可以激发用户各类需求,非常适合开发者去挖掘。
    沈抖强调:“如今,AI已不再是‘锦上添花’,而是必备的技能。百度将开放AI能力,让开发者重回业务理解与创意的赛道,专注于自己的业务逻辑。”据悉,来自百度大脑3.0的AI能力将全部开放给智能小程序开发者,这些能力包括语音、视觉、自然语言处理、知识图谱、增强现实以及情景感知等类别,其中部分能力甚至已经封装好,开发者直接调用即可。
    同时,得益于百度的AI技术,百度智能小程序可以基于大数据、意图识别、兴趣识别等技术精准匹配各类智能小程序用户,从而缩短用户转化途径,为开发者和合作伙伴进一步提升商业效益。官方举了几个案例,接入百度智能小程序后,“查违章智能小程序”全网的DAU在50天内增长了370%,火车票智能小程序订单转化率在20天内提升了44%,同时百度贴吧小程序上线以来,用户人均使用时长增加了30%以上。
    
    
    1  2  下一页>