盘点2019年百度十大AI技术创新：智能时代已经触手可及

2024.05.06 砍柴网

    对于AI而言，即将过去的2019年是一个硕果累累的年份。一方面，它正在以可见的速度走到我们的身边、渗透到各行各业中；另一方面，AI技术本身也一直处于高速更迭换代的过程中，支撑着各种落地应用成为现实。技术的进化与多元的应用场景相得益彰、相互促进，“智能时代”几乎已经触手可及。
    作为国内人工智能领域的领头者，百度一直在积极同步推动AI技术创新和产业智能化。2019年，百度AI技术多年积累和业务实践的集大成——百度大脑，在算法突破和计算架构升级的基础上，实现AI算法、计算架构与应用场景的融合创新，成为“软硬一体的AI大生产平台”，打通了人工智能产业化应用落地相关的全部流程，实现了AI技术的标准化、自动化、模块化。由此，企业和开发者不用重复“造轮子”，能直接将AI应用在各个产业场景中，促进产业智能化。百度也率先在业内提出“人工智能进入工业化大生产阶段”。

    做行业的引领者，需要锐意创新的勇气。对百度而言，还有二十年如一日推动技术进步所积淀的实力与底气。那么，在这个大跨步向“智能时代”迈步的一年中，百度在推动AI技术进步方面又给我们带来了哪些惊喜？让我们走近看一看。
    1、竞逐人工智能皇冠上的明珠：知识增强的语义理解框架ERNIE超越谷歌BERT
    自然语言处理关乎智能体如何理解人类的语言与文字、并在理解的基础上进行人机智能交互，被称为“人工智能皇冠上的明珠”，其重要性显而易见。今年，在自然语言处理技术方面，百度打造了可持续学习的知识增强语义理解框架ERNIE，通过建模海量数据中的实体概念等先验知识，学习真实世界的语义关系。这种融合知识的语义建模大幅增强了模型的语义表示能力，在共计16个中英文自然语言处理任务上效果超越了谷歌BERT和XLNet。近日，ERNIE更是在自然语言处理领域权威数据集GLUE中荣登榜首，并刷新该榜单历史，超越了微软MT-DNN-SMART, 谷歌T5、ALBERT等一众国际顶级预训练模型。在全球各国探寻AI关键技术的道路上，百度ERNIE代表中国AI科技占据了举足轻重的一席之地。

    2、方言、中英混合，通通不是问题：SMLTA加持，语音识别准确率提升15%-20%
    语音识别方面，百度提出流式多级的截断注意力模型 SMLTA，这是国际上首次实现局部注意力建模超越整句的注意力模型，也是国际上首次实现在线语音大规模使用注意力模型。SMLTA在大幅提升识别速度的同时，也提高了识别准确率。在输入法有效产品相对准确率提升15%，音箱有效产品相对准确率提升20%。借助SMLTA，百度输入法实现了业界普遍认为较难实现的中英文混说识别，在完全不影响中文语音输入准确率的情况下，能进行高精准的中英文混合语音识输入。除此之外，方言与方言、方言与普通话的混合语音输入也完全不在话下。

    3、仅需20句话就能录制你的专属声音：语音合成Meitron让AI体验个性化起来
    你可能已经习惯了“前方路口左转”这样的地图语音由一个标准的女声发出，然而百度地图推出的“语音定制”功能，则可以让你用自己的声音、或者是自己想要的其他人的声音来帮你指挥方向。这背后是百度语音合成技术Meitron的功劳。针对现阶段语音合成方面面临的风格迁移、音色模拟和情感拟人三大挑战，百度的语音合成技术 Meitron ，可以把声音中的音色、风格、情感等不同元素解耦分离，独立组合，灵活控制合成的声音，只需录制20句话，就可以制作一个人的专属声音。基于此技术，百度上线了全球首个地图语音定制功能，为用户带来了前所未有的个性化体验。

    4、向着“巴别塔”之巅前进：更高准确、更低时延的机器同传
    翻译为人类重新建立交流的巴别塔，机器翻译则让无障碍沟通的门槛降得更低。在机器同传领域，百度综合联合词向量解码、语篇翻译模型等新技术，实现高准确、低时延的机器同传，并发布了语音到语音的机器同传系统：DuTongChuan（度同传），以及全球首个中文-英文演讲场景语音翻译数据集（BSTC）。经过真实测试，机器同传效果媲美人类译员。可以说，随时随地自由沟通的梦想离我们越来越近。

    5、换个“姿势”看视频：基于知识图谱的视频语义理解能力
    在今年的“Baidu Create 2019”百度AI开发者大会上，百度CTO王海峰为大家展示了一段基于知识图谱理解音乐纪录片《大河唱》的内容。影片中的角色、人物关系、音乐种类、取景地、影片主题等信息，都得到了精准解析，在屏幕上一一呈现给观众。这是融合了百度知识图谱技术的视频语义理解能力，通过结合视觉、语音和自然语言处理技术解析多模态信息，并与知识图谱的相关实体建立关联，通过计算和推理，得到电影内容的结构化语义表示，从而理解电影中出现的角色、音乐和民间艺术等。还在因为记不住某部电影里纷繁复杂的的人物关系而头疼？有知识的AI来帮你梳理梳理呗。该技术目前已在百度视频搜索、推荐、内容生成等多个产品上线。

    6、有温度的AI，从真人形象虚拟主播开始：实时合成真人虚拟形象在多个场景应用
    百度的实时合成虚拟形象技术，结合多模态嘴型生成、GAN、TTS等技术，实现了业界首个可以量产视频的真人形象虚拟主播，同时具备自动化、平台化、实时计算、大规模应用和效果逼真等技术特点，可以解决以往虚拟主播形象生硬、响应速度滞后、播报内容刻板等问题。该技术已经成功应用于多个场景。例如，央视与百度合作打造AI虚拟主持人小灵，亮相央视2019五四晚会；澎湃新闻与百度合作打造了第一个真人形象的虚拟主播早晚新闻栏目；浦发银行与百度合作打造了业内首个“金融数字人”，有颜值、有情感、还有专业的银行知识，将升级银行客服体验。

    7、让中国最好的AI跑在中国自主可控的芯片上：百度鸿鹄芯片发布，百度昆仑云服务器上线
    AI的发展需要算力的支撑，当下AI领域精彩纷呈，算力的需求更是大规模上涨。而在算力层面，芯片始终是受到关注的焦点。特别是在中国，开发者和企业能否用上自主可控的芯片，又让这一关注多了一层意义。今年，百度发布了专为远场语音交互打造的百度鸿鹄芯片，其设计变革了传统芯片设计方法，遵循“软件定义芯片”的全新设计思路。同时，它采用双核 HiFi4 架构，40nm 工艺，2.8M 大内存，在此硬件规格上，仅仅100mW 左右平均工作功耗，即可支持远场语音交互核心的阵列信号处理和语音唤醒能力，将为车载语音交互、智能家居等场景带来更大想象力。而在12月，基于百度自主研发的AI加速芯片-KUNLUN1的百度昆仑云服务器也正式在百度智能云上线。百度昆仑云服务器与百度自主研发的产业级深度学习开源平台飞桨深度适配，支持知识增强语义理解框架ERNIE等完全自主可控的领先算法模型，让中国最好的AI跑在中国自己自主可控的芯片之上。

    8、打造自动驾驶的智慧之眼：国内唯一的城市道路L4级纯视觉感知解决方案Apollo Lite
    作为车辆与周围环境交互的纽带，感知系统是实现自动驾驶的关键环节，可谓是自动驾驶系统的一双“眼睛”。在今年的CVPR 2019召开期间，百度公开了国内唯一的 L4 级自动驾驶纯视觉城市道路闭环解决方案——百度 Apollo Lite。相比旋转式激光雷达感知方案，视觉感知方案价格低且便于获得，为企业、开发者们提供了一个低价、优质的自动驾驶解决方案。

    9、为自动驾驶提供仿真测试保障：增强现实的自动驾驶仿真系统登上《科学》子刊
    安全性也是自动驾驶至关重要的一环。业界一般认为，一个可靠的、安全的自动驾驶系统必须能保证在苛刻的测试环境下安全行驶数亿公里。按照这一指标,若完全使用真实道路测试,可能需要长达数十年。基于计算机视觉和AR技术，百度开发了一种增强现实的自动驾驶仿真系统（AADS），为自动驾驶车辆提供更为可靠且廉价的仿真模拟方法，兼顾自动驾驶系统测试的安全性的同时，提升测试效果并极大地缩短测试时间。该系统相较于现有仿真系统，在真实感、扩展性等方面都实现了突破性的技术进展，并发表于《科学》杂志《机器人学》子刊。

    10、迈向未来计算新世界：“量脉”实现量子软硬件连接
    最后一项关乎未来。量子计算被认为是未来计算技术的心脏。2019年，百度研发出国际领先、国内第一的云上量子脉冲系统“量脉”,可将量子计算软件指令(逻辑门)转换成控制量子硬件的脉冲序列,算法性能较同类工具实现成倍级别的提升,是实现量子软硬件连接的关键桥梁。

以上的十大技术创新，只是百度诸多技术成果的冰山一角。时代在继续向前发展，百度推动技术创新的步履从不曾停歇。通过不断推动技术进步，百度还将为人工智能产业和社会的发展贡献更大的力量。未来还会有哪些精彩？让我们拭目以待。