AI合成技术的 To C之路
AiChinaTech近日,百度地图推出了定制化语音导航功能,简单说就是用户根据提示采集原声,十几分钟后你将获得属于自己定制化的语音导航音频包。所以说用户除了郭德纲、林志玲、罗振宇……这一票人之外还有更多选择。其实我们在使用明星导航音频包时会发现,除了很多“左转”“红绿灯路口”这类常规交通词汇外,很多涉及地名的、地标的词是可以听的出是合成的。而现在“语音合成”技术推向普通用户,就有了这些AI定制化合成服务。
单从使用AI合成的相关App来看,不禁联想到那个“一夜而红”的ZAO,还有国外的Deepfake,AI脱衣软件DeepNude等等。而国内专注于人工智能领域的企业越来越多,例如:商汤科技、旷视科技这两艘“AI巨轮”的业务主要是对政府及企业的;而科大讯飞、大疆、华为、小米、优必选科技的部分硬件类业务是to C类的;极链科技是专注于视频领域的人工智能企业,业务面向品牌主及流量方,也就是to B类的。
对于广大 C端 用户来说,AI合成技术正在通过各种智能设备实现并应用。比如地图AR增强,定制化音频服务、定制化视频服务、专属智能客服等。
其实刚才提到过的曾经爆火的这些App应用,“ZAO”、“Deepfake”、“DeepNude”技术上有些共同之处,但是娱乐的点不同。“DeepNude”涉及色情内容,并上升到人身攻击最终被禁止。网友用“Deepfake”在网上大量恶搞政府首脑,比如特朗普的恶搞视频众多。
而离我们最近的“ZAO”,在有了前车之鉴后,看的出在尽可能规避可能产生的负面效果,视频素材内容由平台方把控。但不可避免的是在用户对照片进行授权所涉及的隐私问题,因为不单纯是上传照片即可,而是需要用户多角度的认证,有些“恐慌”确实不可避免,因为扫脸支付、扫脸登陆等功能已经被广泛应用,这是用户最直接的对“ZAO”开发者的质疑。随后不久背后的公司陌陌科技被有关部门谈话并要求整改,目前来看在ios的热度及下载量仍然稳定在前三名。
不再处于风口浪尖,“ZAO”进入了平稳期,而大家对其盈利模式以及产品定位仍有疑问,似乎并没看到一个清晰的变现方式。虽说当前“视频社交”火爆,但是仅凭陌陌的用户带动还是比较乏力的。App自身没有社交属性,只是单纯的内容产出,和其他的分发渠道联合显得很必要。而问题又来了,这些内容只适合小范围内私域传播,用户不愿意扩散是关键。没有爆炸传播的潜质,所以营销能力也被削弱。或许只是昙花一现,但是对于用户来说,拍照合成视频的趣味性还是非常强的,但关于变现场景仍需要一段较长的摸索期。
工具类软件更能被大家接受认可,微信中音频转文字功能用起来很方便,并且通过计算机的学习,准确度也在不断提高。而科大讯飞推出的「讯飞听见」是目前将音频转文字业务做的较为成熟的平台。业务细分为机器快转和中文人工精转两种服务,可直接收费变现。和百度地图的定制版语音导航类似,属于上传后的AI处理,非在线转化。
地图app,作为一个相对高频使用的工具类应用,除了在满足常规通行服务外,正在发现更多的To C服务场景。比如google地图推出的AR导航功能,已经开始测试应用,用于帮助用户以在线实景增强的方式判断方向及路线。华为也正在布局地图服务,在Cyberverse数据平台上发了Map Kit,而相关AR技术的应用是在景区、博物馆之类的场景做实景增强标注和讲解服务。在2017年高德地图就推出了景区语音导游服务,发展至今已经比较成熟。
AI+音乐,在线音频也一直被关注。今年7月抖音对外宣布了收购英国AI初创公司Jukedeck,这家公司正在研发一种技术,将用人工智能创作音乐,对歌词自动配乐等方面。通过AI对音乐的深度学习,满足用户自由选择音乐类型、曲风、时长等要求,让每一个用户都能体验到音乐创作的乐趣。
可以发现,相比5年前,AI合成技术已经不再那么神秘。而那些曾经“红”极一时的深度伪造类App,通常在道德、隐私、风险等方面游走规则的边缘,似乎满足人们原始“窥视”、“色情”、“臆想”需求的功能成了火热表相之下的底色,或许这并不是开发者的初心,但是从环节上把控内容的方向,依旧很有必要。
另外隐私问题开始被用户所注重,但是随着智能手机的普及应用,智能化的服务的增多,包括面部解锁、刷脸交易、刷脸登陆等。过去很长一段时间用户对App应用上的用户数据留痕,可能无暇顾及,但是当下面部信息已经成为了个人服务的入口,并且直接关联用户隐私、数据信息以及财产的安全性。
总体来看,AI合成技术的工具类应用是比较被用户认可的,无论是功能性还是体验度,相对传统服务有了较大提升。专业技术对普通用户的门槛正在降低,服务、效率、准确率、费用等因素会成为工具类应用的竞争点。