【OFweek 年终盘点】NLP、NLU 2017又有哪些新动作？

2024.04.01

    AI的应用技术层主要围绕计算机视觉和语音、自然语言处理/理解。具体来说，自然语言处理任务又可以分为问答系统（如Siri、小娜等）、情感分析、图片题注、机器翻译、词性标注、命名等几个部分。
    上一期我们盘点了计算机视觉2017年所发生的大事件，这一期的主要内容为计算机视觉和语音、自然语言处理/理解（NLP/NLU）。
    国际
    Maluuba：被微软收购推出可视化数据集FigureQA
    1月，微软宣布，公司已经收购以使用针对自然语言处理的深度学习技术为重点，位于多伦多的人工智能初创企业Maluuba。通过这次收购，微软旨在进一步强化机器阅读和编写能力。据了解，Maluuba的人工智能系统能够以接近自然人的能力阅读和理解文本内容。
    10月，aluuba推出了一个用于推理的可视化数据集FigureQA，并将研究相关论文《FigureQA: An Annotated Figure Dataset for Visual Reasoning》发布在ArXiv上。据了解，通过对结构化视觉信息的理解能帮助人们从大量文献中提取信息。
    亚马逊&微软：联手语音助手能否成功“狙击”Google？
    8月，随着亚马逊CEO贝索斯发了一条推文表示：“Alexa刚刚交了个新朋友”，亚马逊与微软走到了一起，这让原本竞争激烈的语音助手Alexa和Cortana成了一家人，而这一合作也被外界解读为“狙击”Siri和Google Assistant的最好方法。
    两者选择合作最重要的原因是软硬结合。微软与亚马逊的主攻方向有所不同，Cortana更加偏向专业领域，直接打通了Office 365与Cortana，Alexa则擅长劝用户在亚马逊上购物。如今，微软Cortana的月活跃用户已达1.45亿，而搭载Alexa的亚马逊Echo音箱则是智能音箱市场当之无愧的统治者。
    三星：Bixby2.0和Bixby中文版先后推出智能语音领域再添巨头
    10月，在三星开发者峰会上，语音助手Bixby2.0正式推出。据了解，Bixby2.0采用了应用深度集成的方式，支持自然语言处理功能，如自然语言命令和复杂语音处理，可以真正了解用户和家庭成员。通过不断深度学习用户习惯及行为模式，可以成为个人化的人工智能秘书。据了解，三星将向第三方完全公开开发者工具，打造对抗亚马逊Alexa和谷歌Assistant的人工智能助手开发平台。
    11月，在北京亦创国际会展中心，Bixby中文版正式发布，并11月30日在国内正式上线，国行版三星 Galaxy S8、S8+ 和 Note 8 将率先支持。
    Yandex：俄罗斯最大搜索引擎推出语音助手Alice
    Yandex是俄罗斯最大的搜索引擎，占领俄罗斯约65%的搜索市场份额，其在俄罗斯的地位相当于世界的Google和中国的百度。10月，根据俄罗斯媒体的消息，Yandex公布了Alice语音助手，该产品类似亚马逊的Alexa。
    据了解，Alice语音助手能够展示接近人类水平的语言识别准确度，可以响应更随意的查询和基于上下文线索获取信息。此外，相较于其它语音助手，Alice还有一个更加优越的功能是“Chit-Chat”，这款功能让语音助手更加擅长于对话。
    SoundHound：与ModiFace达成合作 AI工具嵌入到AR镜像
    5月，推出了“美妆直播”的ModiFace和“搜歌利器”SoundHound宣布达成合作，共同推出“美妆魔镜”。
    据了解，SoundHound的语音AI工具将被嵌入到ModiFace的AR镜像软件中，用户因此可以通过语音控制软件，借助 AI 语音，这些需求可以被即时识别，系统会为用户匹配相应的产品类型和色号，帮助用户进行实时试妆。
    国内
    科大讯飞：语音语义三大领域实现突破
    语音合成：在今年的Blizzard Challenge国际权威语音合成比赛上，科大讯飞以率先超过4.0分的成绩连续12年蝉联全球第一名，且依然是全世界唯一能让语音合成技术能够达到真人说话水平的应用。
    语音识别：今年，科大讯飞将其语音识别准确率提升至98%。此外，在方言的识别方面，相对指标比2016年提升了50%以上，方言识别准确率超过90%的已经接近十种，包括粤语、四川话、东北话、河南话、天津话、山东话、贵州话、宁夏话等。
    语言文字识别：2017年，科大讯飞英文手写识别准确率由去年的92%达到97%，全世界排名第一。对数学题目中的图形识别，准确率达到92%以上。
    搜狗：推出唇语识别新技术准确率超谷歌达60%以上
    12月，搜狗在北京举行的媒体沟通会上公开演示了唇语识别新技术。据了解，搜狗通过摄像头从图像中连续识别出人的唇形，提取说话人连续的口型变化特征，然后将这些唇语特征放入唇语识别模型进行解码，从唇语文本数据到唇语语言模型进一步获取发音单元，最终输出文字。
    据了解，搜狗在非特定人开放口语测试集上，即搜狗唇语识别系统的通用识别的准确率在60%以上，超过google发布的英文唇语系统50%以上的准确率；而在垂直场景下，如车载、智能家居等场景下已经达到90%的准确率。
    出门问问：推出全球首款无线智能音箱Tichome Mini
    11月，出门问问正式面向国内市场发布全球首款便携防水的无线智能音箱——小问音Tichome Mini。
    据了解，Tichome Mini可以满足用户的多场景移动需求，已实现语音控制40多个品类，上千款智能家电设备，具备儿童内容、音乐电台、智能家居、时间管理、新闻资讯、运动助理、生活服务、实用工具等多种功能，可以随时随地跟它智能语音交互。
    云知声：推出“Pandora”语音中控方案
    6月，云知声发布了最新产品“Pandora”语音中控方案。据了解，打造这款类似Amazon Echo的智能中控和音箱类产品是复杂的过程，中间涉及语音识别、语音唤醒、语义理解、用户画像、声学等综合技术，同时，声学、结构、麦克风阵列等因素又互相关联互相影响。复杂的AI技术元素和环节让大部分智能中控的产品化之路止步不前。
    而“Pandora”将远场语音识别、语义理解等复杂的AI技术元素整合为一个整体方案。可帮助客户实现6个月快速集成，量产出货，为产品智能化落地加速。
    小米：“小爱同学”成史上被点名最多的同学
    12月，小米AI音箱“小爱同学”最新使用次数达到102946421次，音频播放总次数158673818次，这个数据在同行大幅领先，成为史上被点名最多的同学。
    据了解，“小爱同学”能播放音乐、电台点播、相声、小说、脱口秀、教育学习等多种有声读物。除此之外，还能提供新闻、天气、闹钟、倒计时、备忘、提醒、时间、汇率、股票、限行、算数、百科/问答、闲聊、笑话、菜谱、翻译等各类交互功能。