云知声创新事业部总裁陈吉胜: 面向AIoT的人机交互云端芯演进之路


    由中国高科技行业门户OFweek维科网和高科会主办、OFweek人工智能网承办的“2018中国(上海)国际人工智能展览会暨OFweek(第二届)国际人工智能产业大会”于8月30日在上海跨国采购会展中心成功举行召开。
    大会现场座无虚席,其中有数十位专家、院士,百余名名企代表莅临现场,大会紧张、激烈的气氛持续到9月1日,多位嘉宾带来了精彩绝伦的演讲。
    其中,在AI技术论坛中,云知声创新事业部总裁陈吉胜给大家带来《面向AIoT的人机交互云端芯演进之路》的主题汇报。介绍了智能硬件AIoT时代的五大挑战,以及大家普遍认为的云端芯演进路线图。除此之外,陈吉胜先生还介绍了云知声在今年5月份推出的首款面向AIoT的人机交互AI 芯片UniOne。
    
    陈吉胜先生
    以下是陈吉胜先生的现场演讲内容,OFweek小编作了不改变原意的整理和编辑:
    各位好,我是来自云知声的陈吉胜。今天我给大家带来的分享题目是《面向AIoT的人机交互云端芯演进之路》。AIoT实际上就是AI加IoT,我们简写了一下叫AIoT,我们认为在IoT的时代可能交互发生一次比较重大的变化。因为以前更多的是PC机,然后是手机,而手机从按键然后变成触摸屏。
    那么到了IoT的时代,大家可以看周边大部分音箱是没有屏幕的,所以触摸是没办法用了。可能会带个摄像头,但是相比摄像头而言,或许麦克风会更便宜一点,所以语音成为一个比较自然的交互方式。
    在IOT时代,其实可以认为AI加IOT,这个时代更大的巨头实际上已经在进入到这一个领域了,这里我列举几个国外巨头。Google曾经出过自己的音箱,而且我前两天看报告,Google的音箱的出货量已经超过亚马逊了,而亚马逊的AI已经是IoT的一个象征。然后微软他们最近也在大力发展人工智能这一块,我看他们做多语种的翻译做的如火如荼的,当然微软肯定不仅仅在这一块。然后苹果之前做过一个音箱,不过我们认为是玩票性质的。当然苹果他们也可以说是语音应用的鼻祖——Siri。总的来说,苹果在人工智能这方面还是一个非常重要的玩家。
    国内对于AIoT来说也是一个比较热门的一个话题,关于这一块的具体的内容,我想可能大家对政府的政策已经见得比较多,包括在上海的人民政府,对于包括像云知声在内的这种AI企业是比较关怀的,这也充分说明了政府对于这一块的未来空间和市场比较看好。
    其实人工智能不是一个新东西了,因为已经从提出到现在有60多年了,之前起来了两次,最后都掉下去了。那么现在大家都有一个疑问,就是第三次行不行?因为技术上面确实是有改进,通过深度学习,但是因为前两次不太好的记忆,所以大家也比较担心。目前, 360公司做了很多的视觉分析技术,并且发现机器分辨率实际上已经超过人眼了,而这一次我们认为它将进入一个实用的阶段,时间点就在很多这种视觉人工智能公司成立的时间点。 因为机器视觉一旦超过人之后就一去不回头了。
    那么同样语音也是如此,这个机器对于声音的听力方面也超过人的耳朵了,以前同样技术可能是有,但是效果不好,可能最终的客户捏着鼻子买了,但是到家里也不用了。现在从视觉到听觉,实际上机器确实在大部分的场景下面已经超过了人的眼睛和耳朵,这就意味着进入到了一个实用化的阶段。但是我们说超过人类主要是指感知这一块,也就是在“视觉”和“听觉”,但是在“理解”这一块离人差距还很大。
    举个例子,可能这个字他都听得懂,但是他不一定能把它理解的对。比如小龙女说:“我想过过过儿的日子。”看过金庸小说的用户,会理解我说的这句话,否则可能会认为是一句错的语句。这个就充分说明了“听得到”和“听得懂”之间还有很大的一个区别,所以现在有很多的智能硬件大家都觉得比较傻,可能有人买了一个音箱回去,觉得这个东西其实挺傻的。问题在于他不是听不到,而是他是听不懂,而听不懂也不是所有的都听不懂,而是说在一个开放的状态下面他确实听不懂,但是在一些特定的领域下面,现在的听得到和听得懂都做得相当好。
    刚才讲了那么多激动人心的背景,但现在为什么大家感觉AIoT的智能硬件不像手机那样到处可见,因为今天来到现场,大家如果想要要拍照,一定是拿出手机点击下就完成拍照,但是并没有拿一个智能硬件出来对吧?因为智能硬件离这个手机还差得挺远,我曾经跟手机行业的一个老板聊过,他告诉我在中国做手机,如果想活下去,他一年的出货量要3000万,否则供应链是不会搭理他的,这就意味着它的成本会比别人高。
    那对于硬件,可能我们现在说出任何一个智能硬件的种类,它不要说3000万,可能1000万甚至是500万都是一个巨大的坎,为什么呢?我们觉得做智能硬件AIoT时代有五个挑战。第一个是用户体验,虽然手机已经成长的比较成熟了,大家用手来用也非常熟悉。但是你面对一个智能设备去跟它聊天,而且考虑到刚才我说的有时候它还不一定能理解,你只能在某些特定的领域下面,而这一块在整个的交互设计方面,用户体验方面可能会存在一些问题。另外一个叫场景适配。手机我们带着风里来雨里去都没问题,但是有一些设备,比如说在车载里面的,你总不至于把它拿下来到办公室用,另外一个你在办公室用的设备可能也不一定愿意拿回家用,所以这也就意味着很多的智能设备,它在给你提供便利性的同时,它也是适配于一些场景。第三个就是产品运营,很多有志于做人工智能的公司,无论是应用还是基础研发,大家可能都不希望最终成为一个纯粹的代工商。所以都会有自己的一个云平台去运营,但是要搞云平台这件事情可能不比做一个硬件要来得容易。尤其是稳定性、防攻击等各种各样的问题。然后在这一个基础上,你还得有足够大的出货量,你才能做一些相关的运营,这个也是一个很大的挑战。还有一个是非常直接的问题,就是成本,现在这个方案的成本,既包括硬件的成本,也包括软件开发的成本,整个成本算上来,如果你的量不是特别大,可能你的成本不会让人家觉得容易接受。那最后一个就是开发周期,开发周期实际上也是一个很大的问题。可能你前面四个都做得挺好,但是一年半以后才能出来,那时候时代早已改变。
    所以综合这五条,这是为什么我们认为现在IoT真正落地其实面临的挑战是非常多的,有了挑战肯定是要去找解决方案,其实也是这个机会。解决方案是什么呢?就是我们认为实际上应该要想做好,肯定是要提供云端芯的整套解决方案,那么云端把服务和内容拿过来,那么终端选好一个比才能实现一个美好的愿望,也是我们必须要往这条方向走的路。那无论公司处于全链条的云端芯,还是属于其中的一部分,我们认为方向都是往这个方向。
    我们认为一般的演进路线图是什么?从云知声本身的发展,以及包括我们看到的很多的创业公司,甚至是大公司在AIoT的发展路径图上面一般都这样,首先能力开放,最简单的就是搭个云平台把API放出来,但是后面会发现效果很差,差体现在两个方面:第一个没钱,因为大家用你的API一般不付费;第二个,如果别人用自己的API用得不好,没准还惹来一身骂名。所以这就进入到第二步,自己做一个产品证明技术能力是很强的,需要向市场证明、向消费者证明、甚至要向投资者证明。那就进入到一个单品交互的智能。单品交互之后,大家感觉还不够,因为你仅仅只有一个设备,可能万紫千红才是春,所以大家开始进入到中控。中控比较有代表性的这就是小米的小艾同学,还有天猫精灵。尤其是小艾同学,只要你买的是小米的设备,基本都能链接,它可以作为一个中控来控制整体。
    但这样的话最大的一个问题是什么呢?对于小米,这个问题可能不是个问题,但如果只是一家中小型的企业,这个时候就比较头痛了。因为从先不说云终端有这么多的方向,尤其是终端的硬件里面,它有各种各样的平台。今天高通出一个芯片,明后天别家又各出一个,然后我们选择一种芯片之后,配相应的团队,团队做了之后,这个产品的量可大可小,最后就形成了一个带有一定风险的项目投入。对于一个公司来说,如果不能有大规模起量项目的投入,最后是不可持续的,因为你的人力成本、方案成本都放在那了。所以大家也希望找到一个更通用的、集成度更高的,无论是芯片本身硬件的集成,还要包括芯片上面的这种AI的能力的集成,以及基于AI能力上面的交互整套方案的集成。如果有这么一个东西拿到手上随便改改,然后可以快速验证,做一些深度的调试就可以往外推,至少可以把成本和周期打下来,我想这是大家目前做到现在一个非常现实的需求。
    对于前面我所讲的问题,对于云知声自身来说该怎么做?一般我们就是做云端芯,我们有自己的云平台,面向不同的终端,包括车载、家居、医疗教育,它们都是不同的终端,我们都提供了相应的解决方案。关键问题点在哪?就在我刚才所说的,公司如果想一个比较高效的方式来打这个市场的话,它需要找到一个破局点,那这个破局点是什么呢?
    这个破局点我们认为就是芯片的研发,我们在今年5月份发布了面向物联网的AI芯,也叫UniOne。UniOne的量产的封装是个BGA的封装,这颗芯片主要的特点是:第一个它的功耗比较低,功耗低来自于两个方面,第一个它的制作成本低,它不需要做到14纳米,也不需要做到7纳米。其次它的主频也比较低,因为我们把整体的神经网络用硬件的方式实现了,所以普通的通用芯片可能需要1.4G四核的计算能力,它只需要500兆。加上所有的引擎,包括离线唤醒、离线识别都已经在上面了。
    我们在9月份会在深圳举办一个开源的大会,也就是基于我们这个引擎上面所有的交互会全面的开源,这样的话刚才我所谈到的开发的周期和成本都会大大的降低,这是根据我们在物联网进行摸爬滚打5、6年,最后给出我们认为的一个破局点。同时我们跟京东、亿咖通合作,我们会跟亿咖通一起做一个车载上面的AI芯片。
    还有我们最终的一些商业落地的情况,其中智能家居,包括格力、美的,包括目前最火的儿童陪伴型的机器人,然后包括医疗、教育这一块,云知声均有涉及。
    以上是我今天汇报的内容,谢谢。