喜马拉雅如何运用AI技术让“书接上回”重现江湖?
脑极体“听众朋友们,你们好。从今儿个,由我为大家播讲悬疑小说,《江湖消亡史:北平暗夜》。这个故事发生在民国十几年的北京城里……”情感充沛的评书腔调,苍劲沙哑的嗓音,单田芳大师的“声音”再次响起,热爱评书的朋友一听恍若隔世,已故的单老评书怎么突然回来了?
三年前,无数人感慨世上再无“下回分解”,网友们的呼唤被听见了,为致敬单老,也为给遍布大江南北的书迷朋友们一个惊喜,喜马拉雅运用AI技术让“书接上回”重现江湖。
耳熟能详单老的“下回分解”故事重新回归,这段记忆中的声音背后,是来自于喜马拉雅的语音合成(TTS: Text-to-speech)技术,即将文字转化为声音,喜马拉雅的技术团队还将单田芳先生的AI合成音应用于六部风格各异的书籍,用单式评书腔调,全新演绎听众耳熟能详的经典之作。
语音AI让单老声音重焕新生
不熟悉评书的朋友们可能不知道单老的魅力。在北方的出租车上,遇到司机在播放单老的评书概率还是蛮高的,而在喜马拉雅的评书类目中,单老的专辑评书节目长期在热播榜前列。例如,《乱世枭雄》在喜马拉雅的播放量近24亿,《白眉大侠》播放量近20亿。在民间也有个说法:“凡有井水处,皆听单田芳。”喜爱他的书迷遍布大江南北,故事中的魅力经过单老情感充沛的演绎极富有味道。
打开喜马拉雅,在《单田芳声音 AI 重现系列》专辑中,既有直击泪点、奇人异事道尽人生悲欢的武侠小说——赵晨光的《江湖消亡史:北平暗夜》,也有传达时代脉动的纪实文学——陈廷一的《毛氏三兄弟:三兄弟与共和国奠基》,还有时下流行、故事情节曲折奇特的推理小说——紫金陈的《无证之罪》,更有延续单老生前未完成的评书经典——宫白羽的《十二金钱镖》……
这些经典之作让评书爱好者像过年一般。大家想念单式评书中的故事与人生,人物的百转千回与侠义洒脱。单老的声音与跌宕起伏的故事加起来就等于完美,让人立马沉浸在故事的世界中。很多书评爱好者都留言表示:怎么没有早点用AI技术啊,让人痴痴等了好几年。幸运的是,有人在为传统艺术默默出力,完美复现单老声音的背后,是来自于喜马拉雅智能语音实验室团队的AI技术。
据喜马拉雅智能语音实验室卢恒博士的介绍,喜马拉雅智能语音实验室运用TTS 技术,融入团队自主设计的韵律提取模块以及专门的口音模块,才得以实现原汁原味的单老独特声线。
TTS技术早已在喜马拉雅电子书、新闻等领域实现了广泛的应用,能够高效地将新闻、书籍和文章中的大量文字信息转为音频,大幅提升了音频的生产效率。但是主流的TTS 框架模型是对音频内容直接进行提取和合成,最终成型的内容效果整体上来说人的那部分情感和情绪都显得很寡淡。而在评书这个场景中,韵律的起伏非常大,正是因为韵律的变化才使得评书引人入胜,平淡的情绪和腔调带来的后果就非常致命了,而这也是TTS技术中的难点。
喜马拉雅智能语音实验室自主设计的韵律提取模块,无论单田芳先生评书中的韵律多么丰富和多变,都能提取并完全复刻出来,这才让单老的AI合成音仿佛本尊再现。
另外,评书中有很多特殊口音,比如口语化的评书中,“这个”中的“这”字,普通话发音“zhè”,但在评书中通常读为“zhèi”,跟普通话的发音有很大的区别。为此,喜马拉雅团队专门做了特殊重音和停顿的标注,才使单老AI合成音能够还原出老味道。
除了高度还原单老的声音外,在新的专辑中,也加入了高级音效设计师的配乐与音效,让听众通过耳朵就能获得身临其境的沉浸式体验,评书中的世界立马变得立体和生动起来。
通过这些弯弯折折,单式评书才得以重见天日。
天生相互吸引:内容与AI语音技术的邂逅
我们听到的原汁原味的单老“声音”,其完美复现并非偶然,而这也只是喜马拉雅TTS技术的冰山一角。喜马拉雅已在智能语音技术上深耕多年,尤其是在TTS领域方面潜心钻研多年。
目前TTS在业界的发展十分迅速,国内布局TTS赛道的有一线大厂,比如阿里拥有的语音合成技术KAN-TTS,腾讯云在语音合成方面也有技术研发。国外像DeepMind创建的语音合成器WaveNet,让语音合成的音质有了大幅的提升。2016年,谷歌DeepMind推出了用于生成原始音频波形的深层神经网络模型—“WaveNet”,并在一年多的时间内将原始模型的效率提高了1000倍,而在一组美式英语的人类听众测试中,WaveNet的得分超过了真实人类语音。
喜马拉雅语音技术团队也已经研发出自己的声码器“PhaseGAN”,这种基于生成对抗网络的声码器甚至有着比WaveNet 更高的生产效率。
喜马拉雅TTS技术的核心,就在于如何让机器的声音听上去韵律自然、情感充沛。说白了,就是如何在机器声音中注入人性。拿有声小说这个场景来说,用TTS音色演绎有声小说需要学习小说中的抑扬顿挫、情感表达、上下文关系,区分旁白和对白等,将作品像真人一般呈现出来很困难。
而喜马拉雅的TTS模型系统有着独特的基因优势:
1.内容数据丰富,区别于一线厂商的数据来源,喜马拉雅在音频赛道多年耕耘,已积累海量的内容,包含大量的有声书内容与众多的主播,基于这些庞大的语音素材库,喜马拉雅有强劲的模型迭代语料和更大的发挥空间。
2.数据是模型迭代的燃料基础,在此之上,喜马拉雅也有厚重的研发实力。在语音合成、语音识别、智能音效、语音编解码、语音信号处理和虚拟主播等技术上,喜马拉雅都进行了深度研发,自研的TTS前端文本处理分析模块,可高精度、全自动地对文本进行多音字识别、韵律预测和风格分类,可以演绎不同情绪文字,还能自动区分旁白、对白,并支持英文,丰富了TTS能表达的情感和韵律。
3.专利效能,现下喜马拉雅已申请了三项TTS语音合成相关专利,一是在没有任何英文原始数据的TTS声音就能够实现说英文的技术框架,让不会说英文的人也能流利地讲英文。另外,喜马拉雅还采用并行解码器,生成语音合成序列,改进了语音合成后端模型的结构和效率。
我们可以发现TTS技术的独特优势可以丰富内容的生产迭代,不仅将提高内容生产效率,也让更多不同内容的生产成为可能。在喜马拉雅当下主要的PGC、UGC、PUGC三大内容生产模式之外,AI语音技术的更新迭代让第四种新内容生产模式——AIGC成为可能,并展现出更大的想象空间。
喜马拉雅的内容生态经过多年的积累、更新,内容精良并且IP丰富。丰富的IP与技术的结合将可能碰撞出更加多元的火花,让听众听到以往所难以甚至不可能听到的内容。把脑洞开得大一些,在AI语音的赋能下,未来我们是否可能听到各种内容IP和不同声音IP的组合?比如,孙俪“声音”演播的《甄嬛传》,孙红雷“声音”演播的《扫黑风暴》,甚至,张艺兴版的评书,易烊千玺版的童话故事等内容。这些逼真自然的声音和不同内容相结合,在各类题材和频道中出现,将会给听众带来很多惊喜。只有你想不到,没有AI做不到。
技术与内容的双向赋能如同两个啮合完美的齿轮一般,驱动着喜马拉雅内容和产品的更新迭代。从数据上来看,用户用脚投票,喜马拉雅的月活跑在了行业前列。据喜马拉雅招股书内容显示,截至上半年,移动端总收听时长和在线音频总收入来看,喜马拉雅是中国最大在线音频平台,平均MAU达2.62亿,其中包括1.1亿移动端用户和1.51亿的物联网及其他开放平台的用户。移动端用户共花费8478亿分钟收听喜马拉雅音频内容,占中国在线音频总收听时长的70.9%。
在双飞轮驱动的模式下,喜马拉雅内容和技术都在向前向深飞驰,给我们用户带来了更加丰富的内容与体验。剖析音频行业这个并不为大众熟知的赛道,可以透视到是什么决定了机器如何说话,决定了用户耳朵的体验与舒适度,也可以看到头部的企业带来了哪些经验,如何撬开智能语音的富矿。
“声”写未来
给大家一个数据感受下音频市场的增长势态。据悉,2020年中国在线音频用户数量已经有6.4亿人,其中超六成用户表示曾经购买过在线音频服务,预计2022年将达到6.9亿人。没想到吧,大家的付费意愿竟然这么强势。平时勤俭节约的大家,在丰富精神世界方面,却舍得愿意为大脑和心灵投资。
在音频市场的快速增长下,围绕“耳朵经济”的竞争日趋激烈,除喜马拉雅、荔枝、蜻蜓FM等老牌平台之外,腾讯、字节跳动等互联网巨头以及中央广播电视总台这样的“国家队”也纷纷进入这一赛道。各大平台内容类型的丰裕程度与是否具有差异化的优质内容是吸引用户以及撬动用户付费的关键。
可以预见的是,在语音技术加成下,TTS技术制作的高效高质音频内容会进一步赋能优质内容的生产,喜马拉雅的内容生态“PGC、UGC、PUGC”也将因为新成员AIGC的加入,在内容创造方面,带给用户更多的听觉盛宴。
喜马拉雅的AI技术与内容互相磁吸,螺旋缠绕不断向前向深发展, AI技术为喜马拉雅的内容生态加码,而内容反哺技术不断精进。技术与内容的全面融合也撬开了未来的智能语音合成市场富矿:
1.对传统文化的传承,丰富和传承评书这类非物质文化遗产,影响越来越多的传统文化爱好者和青年演员去参与其中,创造更丰富的文化遗产。
2.对平台的创作者来说,提升效率和内容的质量,让创作者不再陷入音频制作的重复性工作中,在多种内容的制作方面TTS都可以赋能创作者的转型升级。
3.AI技术及大数据分析能力让内容创作、分发和运营更加精准化,随着音频内容逐渐规模化,以及技术的迭代更新,AI对于内容的全生命流程参与程度也越来越高,从而让音频内容呈现更丰富更智能化的趋势。
移动互联网的快速发展下,有声读物成为我们随身携带的“避难所”。在这些声音里面,我们疗愈自己,经历他人的跌宕生活,感受故事中的喜怒哀乐和人生百态。无论是内容的量与质,还是技术的深度研发,喜马拉雅牵引着行业不断进步,激发更多的厂商去深耕音频行业,迭代创新能力。而这也意味着,我们这些喜爱有声读物的用户会拥有更丰富的眼界与精神世界。
声音不仅仅只是一个简单的沟通工具,里面包含了丰富的知识智慧、故事情感,它让流淌的时间更有意义,让我们的精神生活更加丰盛。而技术正不断丰富着声音的世界,为我们的耳朵带给我们越来越多元、丰富的体验。