为什么越像人的自然语言交互工具，越容易让人失望？

2024.03.26

    从有了Siri作为先例，拟人化已经成为了自然语言交互工具的必备能力。不论是服务于个人用户的AI语音助手，还是企业提供的智能客服，甚至是各种有语音功能的家用电器，都要做IP、造人设，几乎有了成精之势。
    在大多数时候，我们认为自然语言交互的工具的拟人化可以降低用户的“恐怖谷效应”，让用户更喜欢与其交流。但最新的研究结果却表明，事实或许并非如此。
    成为人类的千重套路
    首先我们可以来看看，自然语言交互工具拟人化的“千重套路”。
    第一步，给自己起一个人畜无害的名字。
    我们常说，当你捡到一只小动物后，如果给它起了名字，那么它十有八九会成为你的宠物。AI也是一样，当自然语言交互工具拥有姓名，基本就注定了它会在成精的道路上越走越远。自然语言交互工具的名字通常是“小”字辈，既显得弱小无害又无关性别足够政治正确。
    第二步，利用语音生成技术模仿人类语气。
    拥有了名字之后，肯定就不能再用冷冰冰的电子音了，甚至以往语音生成技术管用的真人录音＋规则匹配的模式也略显死板。这时便出现了以谷歌WaveNet为代表的神经网络语音生成，通过对真人说话方式多种特征的抓取，对语义、词性、语法包括上下文等等参数综合考虑，最终生成谷歌助手那样像真人一样说话会停顿、有思考的语气。
    第三步，让对话内容更加人性化。
    在自然语言交互的过程中，语音生成需要建立在文本内容之上。满足了“说话语气”的拟人化，同样也要让“说话内容”更加人性化。这时语义理解、多轮对话、自然语言生成等等技术的成熟度就变得非常重要。
    例如微软在微软小冰上应用的全双工自然语言交互，就能实现“边听边想”和“节奏控制”——通过整个对话过程对用户意图进行理解，减少用户的等待时间，并且能够主动引发新话题打破沉默，自行调节回答的内容和时机。这样的对话内容通过语音生成技术“展现”出来，就可以以假乱真，让人以为自己真的在和人类对话。
    最后一步，披上“人皮”。
    除了技术之外，还要以一些外围模式让自然语言交互工具更加拟人化。比如为它们设计一个可爱的卡通形象，增加几条指令让它们学会一些撒娇卖萌的口头语，在交互界面上增加一些细节让人们意识不到他们在与机器对话等等。
    有了这几步套路，基本就能塑造出一个“化作人形”的自然语言交互工具了。
    越人性越可爱？自然语言交互工具的期望值管理
    可我们从未想过的一个问题是，在实际应用时，自然语言交互工具真的越拟人化越好吗？最近宾州州立大学媒体效果研究实验室就进行了这样一项实验。
    研究人员们告知志愿者，他们将在电商平台中选购数码相机，并需要和在线客服交谈咨询。这些客服背后都是智能自然语言交互系统，但研究人员对其进行人性化和响应程度上的区分。不同组的志愿者们分别会接触不同的在线客服系统，有在对话时直接告知对方自己是机器客服的，有的只展示出对话框内容，有的会通过真人头像和名字“伪装”成人类。
    同时这些拟人程度不同的智能客服，又分别有着不同的响应程度。有些可以迅速精准的回答用户问题，有的却听不懂人话顾左右而言他。
    在交互过后调查实验者的满意程度时，结果却令人意外。
    在一般的逻辑中，我们会认为智能客服在交互时响应程度越高，人们的满意度自然也会越高。可实际情况是，在同样的响应程度下，使用者的满意程度是与智能客服的人性化程度相关的。
    比如同样的交互内容，明确知道对方是机器客服的实验者就会给出80分的满意度评价，而那些伪装成人类的机器客服却只能获得60分的满意度评价。原因是当机器客服表现出较高的人性化特征时，用户对他们的期望程度也会随着上升，盼望着他们能和人类一样帮助自己解决问题，如果得不到想要的答案，则会放大失望感。
    其实在我们自己应用自然语言交互时也有同样的感受，当语音助手、智能客服等等产品不能解决问题还要强行卖萌讲笑话时，我们的暴躁指数往往会呈直线上升。
    说到底，自然语言交互的人性化与否是一个“用户期望值管理”问题，有时过度提升用户期望值反而会弄巧成拙。
    做人容易，做工具难
    但目前我们能看到一个重要的趋势是，自然语言交互人性和工具性的发展程度是不均衡的。
    从技术发展的难易程度来看，让自然语言交互工具更加接近人类，远远要比让自然语言交互工具更加有效容易得多。
    不管是谷歌的WaveNet还是微软的全双工自然语言交互，都足以让自然语言交互的发音模式、对话节奏等等细节无限接近人类。未来结合上计算机视觉层面，甚至机器人制作工艺层面的能力，我们可以打造出一个与人类无异的对话者。
    其实在今天，我们就能看到诸如AI主播或harmony推出的索菲亚等等在视觉上极致人性化的“AI演说者”。
    可这些自然语言交互解决问题的能力却没有因此提高。具体表现为：对于人类语料的理解还存在一定隔阂，尤其是小语种、老年人、儿童等等相对冷门的语料库；对于不同领域词汇的认知还不够全面，很多时候涉及到一些垂直产业时，AI往往会进入知识盲区。
    如此以来，帮助自然语言交互的“工具性”追赶“人性”或许将成为未来很长一段时间内的产业热潮。例如建立各个细分产业领域的知识图谱、累积词汇库，或收集不同人群不同方言语种的语料库用于AI训练。
    在技术的不断追赶之下，人们对自然语言交互工具的期望值不断提高已经是一种必然，为了避免出现“短板效应”，我们或许应该投入更多精力去追求“人性”以外的东西。（作者：脑极体）