AI机器学习与智能硬件融合，小度智能音箱如何做到与天猫精灵并驾齐驱？

2024.04.12

    3月8日，阿里宣布自家的智能音箱销量已经超过千万，成为中国第一，全球第三的智能手机厂商。
    从Strategy Analytics最新发布的研究报告指出，智能音箱是的确是2018年最热门的消费电子产品。
    2018年第四季度，全球智能音箱出货量增长了95％，达到3850万台。超过2017年的全年总出货量，这种增长率堪比2012年前后的智能手机。
    从市场份额看，国外的亚马逊与谷歌还有明显优势，2018年四季度，亚马逊的销量是1350万，谷歌的销量是1150万，而中国的阿里、百度、小米销量都在200万左右。
    有意思的是，如果我们把中国三家厂商每季度的销量分开来看，就会发现中国智能音箱增长最快的并不是阿里，而是百度。
    百度是全球前五中入场最晚的厂商，到了2018年二季度才开始发力，但是在短短几个月，百度就成为智能音箱的世界级巨头，这种增长速度是爆炸性的。
    智能音箱这款产品始于2014年亚马逊的Echo，国内厂商纷纷仿效，经过数年优胜劣汰，阿里和小米到了2018年初已经傲视所有国内厂商。
    百度真正发力智能音箱是在2018年中，“小度在家“这款全球首款带屏智能音箱在2018年4月份才公开招募内测。
    而短短几个月，百度的智能音箱就如核弹爆炸一般急速增长，到了2018年底，已经是三巨头之一，而且销量几乎与阿里和小米持平。
    2019年一季度有春晚的加成，百度拿下一季度销量第一应该不是问题。
    百度成立已经很多年了，但是它最基本不做硬件，从互联网跨界智能硬件，百度在几个月内就从“青铜“一跃成为“王者“，这个奇迹是如何创造出来的呢？
    一、厚积而薄发
    智能硬件看似是一个硬件产品，而实际上它的核心技术并不是硬件，而是AI的语音识别与搜索。
    语音识别技术已经存在很久了，但是要让智能音箱有优秀的体验，不仅仅是正确识别语音就够了，而是要判别说话者的意图，给予正确的回应。
    国内很多所谓的智能音箱，只是买了科大讯飞的语音识别技术，而百度的智能音箱核心技术是自己研发的。
    百度对AI的研发，可以追溯到多年之前。
    人工智能科技发展很早，但是一度遇到瓶颈，难以突破。互联网发展起来之后，人们发现人工智能科技中深度学习技术，可以依靠互联网的大数据不断进步，同时硬件的发展，特别是GPU通用计算的发展，让计算能力不再是瓶颈，AI有了进一步发展的可能。
    于是，百度在硅谷等地成立实验室，投入重金，招募全球最好的AI专家，搭建百度大脑，开始AI的深度研发。
    早在2014年（亚马逊推出Echo之前），百度的研发团队，就利用深度学习技术，研发出Deep Speech系统。
    到了2016年，百度的Deep Speech系统已经进化到第三代。
    传统上，对语音识别的人工智能技术是RNN（循环神经网络）。RNN是在DNN（深度神经网络）的基础上发展出时间戳，发展出长短时记忆单元，可以有解决时间序列的应用。语音识别是有时间序列的，所以业界对RNN用于语音识别的研究比较多。
    而百度将深层卷积神经网络技术（Deep CNN）应用于语音识别声学建模中，将其与基于长短时记忆单元（LSTM）和连接时序分类（CTC）的端对端语音识别技术相结合，大幅度提升语音识别产品性能。这项技术借鉴了图像识别在近些年的成果，以及语音与图像在利用 CNN 模型训练的共通性，在语音识别技术上取得了革命性的进展。
    《麻省理工科技评论》（MIT Technology Review）杂志在2016年度十大突破技术的榜单中把百度语音识别技术列为十大突破技术。
    实际上早在2016年，百度已经有了顶尖的语音识别技术。李彦宏在百度科技大会的上发言可以由AI同声传译。李彦宏在Tech World大会上展示了AI与人的多轮对话。这些展示，远远超过市面上在售的智能音箱所拥有的水平，百度只是缺少一款转化的产品。


    1  2  下一页>