声纹识别 人工智能电视的更高阶到来


    近两年彩电市场遇冷,而人工智能成为众厂商寻求突破的着力点。去年长虹推出全球首款人工智能电视后,海尔、海信、创维、TCL等老牌彩电厂商以及小米、乐视、暴风等互联网企业,也相继开始布局人工智能、大数据、云计算等领域。
    经过前期的市场培育,人工智能电视目前停留在市场初级阶段,大部分产品体现在语音识别的浅显交互阶段。而更高阶层的人工智能交互技术有待企业开发。
    在此背景下,长虹近日又推出全球首款声纹识别人工智能电视——长虹CHiQ电视Q5K,并推出全球首个人工智能电视技术系统,将人工智能电视带入3.0时代。
    
    人工智能电视的更高阶到来
    以语音识别为主的人工智能电视的出现,在提升用户交互式体验上目前仍存在一些问题,这包括:
    可以感知到的智能与之前的智能电视并没有明显的提升;
    很多语音功能不够实用,比如语音加入后对电视操控体验最明显的提升只是在搜索方面,其它大多都是可有可无的功能;
    语音识别准确率受外界因素影响大,因为在现实应用场景下不可控因素很多,比如方言、环境噪音、语速快慢等,都会对准确率造成一定的影响;
    语义理解能力还有很大进步空间,比如问“孙丽演的电视剧”或者“去年奥斯卡最佳影片”等,这时考验的就是电视的语义理解能力,需要精准分析和深入理解才能给出一个满意的答案,技术要求较高,还有很多探索空间;
    全程语音控制没法实现,常用的换台操作依然要依赖机顶盒的遥控器,语音功能又成了摆设;
    针对不同家庭成员的观看习惯,依然做不到“千人千面”的准确推送。
    
    长虹Q5K声纹识别人工智能电视的出现将终结上述这些用户痛点问题。据悉,长虹应用I-vector技术为声纹建模,同时借助云计算平台,建立起每个家庭成员独一无二的声纹数据库,能够在家庭应用环境中快速精准地实现家庭成员的身份识别,识别率超过90%。
    据介绍,长虹声纹识别项目组在开发过程中遇到了不少困难,在项目初期,声纹数据少是面临的主要困难之一,无法对建立的模型进行有效的验证及训练。而声纹识别算法需要在足够多的训练数据的条件下,才能够准确地学习到不同说话人之间差异性。为此,项目组的每一个成员每天按时拿着遥控器,不停的呼喊“长虹小白…我要看…我想看…”,一遍、两遍…无数遍,日复一日地采集声纹样本。
    有了足够多的数据,声纹识别算法的设计开始变得更为重要。此前项目组的技术积累主要在图像识别领域,并没有语音相关领域的经验,因此算法的设计尤为艰辛。项目组核心成员吴郢教授身在美国,每周都会定时两次通过视频会议和国内的项目组成员讨论,经过三个月左右的努力,终于完成了算法的设计、服务器的部署,并成功交付。
    人工智能电视需要在不断学习中完成进化,需要连续使用一段时间才能使电视拥有“千人千面”的能力,从而将人工智能电视上升到更高阶的层次。
    据CHiQ电视产品经理陈科宇介绍,Q5K声纹识别在使用中,随着数据的积累,声纹识别模型将会自动更新,因此随着用户的使用时间增加,识别率会越来越高,电视也会越来越懂你。通过声纹识别技术与内容检索系统的结合,Q5K能实现“千人千面”的个性化视频内容推荐。
    
    布局下一代交互系统
    在成功上市CHiQ人工智能的基础上,长虹又从平台、算法、协议等多个维度对人工智能电视技术做了完善、优化,从而推出行业首个人工智能电视技术系统。
    陈科宇介绍,人工智能电视技术系统既包含硬件、算法,也包含数据平台和媒体资源,硬件层面长虹CHiQ采用集成式阵列麦克风,实现5米范围内的远场语音采集,实现诸如开关机、点播视频、定时提醒等功能。基于数万个角色、奖项等标签,13万个语义关键词词条 ,能实现通过角色搜片、精准纠错等模糊搜片,为用户提供更流程的交互体验。
    模糊搜片和精准纠错对于交互体验十分重要,有时候用户想看一个节目,但只记得错误的片名或者一个演员的名字,比如“达康书记”,系统会为用户播放“人民的名义”;比如用户说“北京碰到西雅图”,系统能够自动纠错为用户播放“北京遇上西雅图”。降低用户使用的难度,用户的接受度才会越高。
    “尽管现在人工智能电视还不成熟,但在大数据时代,智能电视的交互方式一定不是遥控器,一定会出现新的模式,系统也不是安卓系统,而是下一代的交互系统。厂商应该积极主动拥抱未来。”中国电子视像行业协会副秘书长彭健锋认为,下一代交互系统的布局对彩电厂商而言战略意义重要。
    经济学家管益忻认为,长虹以原创性技术,拓展了传统彩电行业的市场应用边界和商业发展空间,重新定义电视在客厅场景下的功能和体验,这有望给全球彩电企业在传统硬件、软件、内容竞争体系外,开辟全新的科技创新引擎,真正开启世界彩电产业发展的新通路。