网易腾讯百度入局 AI作曲前景何在?

智能相对论

    文/黄康瑄
    来源/智能相对论
    “醒来灿烂星光透过了窗台,海岸线连接了那片山川大海。涌动梦境边缘像是空旷舞台,在眼前忽然展开。”看到这段文字,你的脑海中是否浮现出靛蓝星空风云变幻、透出曙光豁然开朗的景象呢?
    网易“醒来”
    这段文从字顺且颇具画面感的歌词并非出自人类之手,而是由网易新开发的人工智能所创作。日前,由网易伏羲、网易雷火音频部提供作词、作曲、编曲、演唱等全链路AI技术支持的歌曲《醒来》,在“2020网易未来大会”上正式发布。这是网易首次完成由AI完全生成的歌曲,从创作到演唱,整首歌曲从无到有仅需一小时。
    
    其实在此之前,网易一直都在默默进行大数据平台、强化学习、图像动作、自然语言处理等围绕游戏领域的人工智能研究,毕竟游戏才是人家最赚钱的业务。《醒来》的歌词创作就是依托于网易游戏伏羲人工智能实验室较为成熟的语言处理技术。
    网易伏羲利用其自主研发的“有灵智能创作平台”,让AI学会人类语言组织的基本逻辑。再借助大规模语料训练实现端到端的歌词生成,并通过自研的方法控制不同参数下的歌词创作。
    有灵平台的预训练语言模型可提高歌词质量,确保生成内容的流畅性和上下文相关性。如《醒来》的歌词内容便是为了契合大会主题“洞觉·未见”而编写的一个关于AI虚拟人类在深夜苏醒的故事。
    “智能相对论”了解到, 作曲方面,网易伏羲根据乐理的数据分析,形成一套用于生成旋律的算法,可以在短时间内排列组合出多个实用性生成结果。
    编曲则采用雷火音频部自研的智能编曲引擎,从华语乐坛大量主流歌曲中识别大众审美偏好,在15-30秒内生成一首出版级编曲。而相同质量的人工编曲,市场价格在1-1.5万元左右。网易的此项技术已具备工业化大批量生产的能力。真没想到,一个做游戏起家的公司竟能研发出如此成熟的AI音乐技术,AIVA和微软小冰或许将迎来新对手。
    除了作词与编曲,以雷火音频部提供的大量游戏配音应用案例及庞大的歌声资源为基础,网易伏羲借助神经网络声学模型和声码器自动根据曲谱,实时生成契合歌曲主题且“几可乱真”的歌声,并确保“主唱”在不同BPM、风格歌谱上音高、节奏的稳定性。
    “还可以嘛,不说还听不出是AI唱的。”“挺像真人的啊!”甚至还有网友从中听出了张韶涵、邓紫棋等歌星的“味道”,可见网易AI的歌声几乎能以假乱真。不鸣则已,一鸣惊人。
    
    网易云音乐用户对《醒来》的评价
    百度“睁眼”
    虽然中国的AI作曲发展速度不如国外,但近年也算是“多点开花”,逐步落地。在网易之前,腾讯、百度、虾米等互联网公司及音乐平台都曾在不同程度上对人工智能作曲进行探索。
    2016年,百度曾通过人工智能识图作曲技术,将劳森伯格“四分之一英里”画作中的两个部分分别谱成钢琴曲。还让AI根据梵高的《星空》、徐悲鸿的《八骏图》创作乐曲,前者音韵柔和耐人寻味,后者节奏明快紧张刺激,在一定程度上与画作意境相符合。但作为第一个成功研发此项技术的中国科技公司,百度似乎“志不在此”,并未继续探索相关技术。
    为了赶上百度,腾讯AI Lab也凭借自主研发的强化学习算法,开发了AI识图作曲技术,并制作出“把照片唱给你听”的体验Demo。用户上传1到4张图片后,AI会生成相关的文字描述并匹配韵脚歌词,再通过合成语音配合旋律RAP出来。此外,虾米音乐也在其APP推出了简易的人工智能作曲功能“探乐行动”,通过让用户自行设定曲风、心情、节拍等参数,自动生成乐曲旋律。
    
    腾讯“开口”
    不同于百度和虾米的浅尝辄止,腾讯选择在人工智能作曲的道路上继续前进。今年六月,腾讯AI Lab推出AI数字人(Digital Human)“艾灵”,可通过用户提供的关键词自动生成歌词并演唱。
    AI艾灵的歌声是通过分析曲谱与人类说话语音,使用真人声音训练得到的深度神经网络声学模型和声码器模型,可模仿真人声线合成音频。
    与“初音未来”等虚拟歌姬的“机器合成,人工调教”模式不同,AI艾灵使用的DurIAN声学模型具有自动调试的优点,让它不需经过人工就能生成较“自然”的声音,还能合成跨语种歌声。但从听感上来说,AI艾灵目前的歌声和真实人声还是有点差别。
    AI艾灵的歌词生成则是基于腾讯AI Lab最新研发的歌词创作深度学习模型SongNet。该模型最大的特点就是可给定任意格式和模板来生成相契合的文本。能对上下文语义和格式同时建模,兼有全局生成和局部精修两种功能。依靠关键词创作歌词的技能就是来源于此。
    
    虽然如此,SongNet模型仍存在局限。约束上下文和蕴含特定关键词的限制会在一定程度上降低模型生成歌词的逻辑性和连贯性。目前AI艾灵只能生成基础歌词和合成歌曲,尚未无法实现完全自由的创作。
    尝试变现
    除了网易与腾讯等互联网公司的自主研发,字节跳动则直接“捡现成”,通过收购Jukedeck的方式入局AI作曲。近年,国内一些音乐公司也在此领域孵化出成果,并进行了商业化的尝试。
    如上海若鸢智能科技公司开设Deepmusic人工智能音乐—全球免版税音乐生成平台,为视频、游戏、音乐等内容创作者提供快速制作背景音乐的服务。北京灵动音科技有限公司(DeepMusic)推出AI作词和作曲服务,帮助没有任何音乐专业知识的普通人也可以轻松地创作出属于自己的个性化音乐。
    版权内容机构HIFIVE(成都嗨翻屋科技有限公司)运用AI、大数据和云计算技术,为音乐内容生产者及使用者提供版权交易和增值服务,其智能音乐助手小嗨具有听歌识曲、作曲、作词三项功能,其网页版可免费使用。
    去年上线的“哼趣”APP则利用AI语音识别技术,根据使用者哼唱的内容、音调、旋律自动生成一段完整的、可编辑的曲子。现可免费下载使用。
    国内的AI作曲技术落地已有一段时间,但市场渗透率似乎不高。或许是由于上市时间还不够长,尚未获得市场关注;也可能是因为C端市场并没有想象中广阔。
    对于本身就具备专业创作能力的音乐人而言,词曲创作是个人情感表达与交流的一种方式,将其过程完全假手AI便失去了意义。能自动生成词曲的AI技术仅能用来启发灵感,并非绝对必要;他们更需要的应是现有编曲、录音软件和设备在使用上的智能化,帮助他们提高音乐制作效率。
    对创作欲望强烈的音乐小白来说,AI作曲技术的确能帮忙实现创作目的,也可作为不错的娱乐。但若作为收费服务,或许会劝退一大批用户。毕竟业余爱好者的需求有限,而具有为此消费的强烈兴趣之人,大多对音乐审美与创作有一定要求,且多半早已付钱学习专业的音乐创作技巧。因此,AI作曲技术的主要市场,应是对音乐生产有大量需求,又没有太高审美要求的B端。
    “智能相对论”了解到,在上述音乐公司中,HIFIVE的商业化较为成功。To C方面,小嗨可自动生成音乐模板,辅助音乐人以此为基础进行再加工,缩短作品的创作周期。作为一家商用音乐授权机构,HIFIVE的核心业务在于对音乐内容进行确权、授权,并为品牌、活动、游戏、影视等提供定制音乐服务,并贩售版权。服务对象仍以B端为主。目前,HIFIVE平台上已有超过1000首小嗨创作的成品音乐可以用于授权,在广告配乐或大型活动等特定场合,使用小嗨创作的背景音乐或许具有较高的性价比。
    更多可能
    不同于音乐公司专注于“老本行”的商业应用,网易与腾讯瞄准B端市场,尝试扩大AI作曲技术的应用范围。国内能自动生成音乐词曲内容的应用虽然不少,但自动合成仿真人声的技术屈指可数。在这方面,网易AI与腾讯AI艾灵的“出道”标志着国内人工智能作曲技术的重大进步,也比其它国内企业更具优势。
    作为数字虚拟人的AI艾灵除了用于降低歌曲制作录音环节的成本,还能在其声音合成技术更加优化、更加“逼真”之后,循着小冰框架的路线,用于打造虚拟偶像。目前,AI艾灵在这方面还处于探索阶段,尚未出现突破性进展。但目前国人对虚拟偶像的喜爱及接受程度远不如深受二次元文化影响的日本,虚拟偶像是否能让AI艾灵成功“破圈”,似乎还需要通过时间和市场来验证。
    
    AI艾灵在B站直播间接受弹幕点歌,和粉丝互动
    此外,AI艾灵“规则明确”的语音合成技术很适合用于生成游戏解说词等具有固定内容的加工创作。现在,除了Bilibili主播,艾灵还多了“王者荣耀游戏解说”的工作。基于智能数字人的交互技术,音乐教育方面的应用也是AI艾灵未来的探索方向之一。但目前AI教育产业也仍处于探索阶段,AI艾灵在这方面的尝试可说是摸着石头过河。
    而“唱作俱佳”的网易AI技术应用范围更加广泛。除了用于游戏,减少背景音乐、相关歌曲的开发时间与成本之外,其达到工业化大量生产水平的AI词曲创作及歌声合成技术也可作为一个单独的产品。作为网易最新的技术落地成果,网易目前尚未明确其AI歌曲创作及演唱技术的商业化路径,目前仅将其中的文本生成技术进行商业化探索。
    如作为“AI作词”技术支持的“有灵智能创作平台”开始以“人机协同”的创作辅助模式帮助用户创作诗词、歌词与剧本。通过用户输入的关键字词甚至是心情、故事,AI算法就会根据用户的需求,自动推荐相关的场景、意象、画面,提高文本生成的质量;也可直接生成诗词、歌词等作品。用户也可以在创作过程中随时开启AI续写,还可以提供多种候选段落支持用户选择和修改。
    
    AI作词技术若面向C端,仍会出现和作曲一样的“艺术追求”问题,或许较不利于变现。将这样的AI文本创作技术用来为B端批量生产广告剧本、宣传歌曲或模式化的品宣文本等似乎更具商业价值。
    目前看来,AI作曲产业还是一片蓝海,商业竞争仍以B端市场为主。谁家的AI能以更低的价格,创作出更契合大众审美的音乐、发出更符合用户喜好的歌声,谁就能取得领先。这种建筑在对人类审美深入理解上的AI技术优化,在降低生产成本的同时,似乎也让人有些不寒而栗。
    随着人工智能一步步“入侵”艺术创作领域,网易AI的醒来让本就浑浊的世界更加难辨真假。在创造者与被创造者皆“期待却不知未来如何安排”的当下,希望未来真的能像网易AI所唱的那样,终将为我们彼此而喝彩。
    参考资料:
    1. 网易伏羲实验室《网易未来大会首发AI原创单曲<醒来> 唱功媲美专业歌手》
    2. 中国电子报《腾讯紧随百度完成“AI识图作曲” 中国人工智能全面崛起》
    3. 腾讯AI Lab《唱作俱佳 腾讯AI艾灵领唱中国新儿歌》