周海宏：不能用AlphaGo的思路，去做音乐的人工智能

2022.11.16

    持续七日的2017全球创业周中国站(Global Entrepreneurship Week China，简称GEW)，11月19日在上海长阳创谷1会场迎来压轴之作——人工智能产业投资论坛的开幕。
    论坛由初创投资主办。于2012年成立的初创投资，是中国第一家人工智能产业投资机构，是国内数十家人工智能企业最早的投资机构。
    此次论坛成功汇聚全球范围内超过60家明星企业、近二百位产业界投资界学术界的专业人士，并吸引数千人次的专业观众到场参会。其中，八位身处人工智能“产学研创投”前线、脑洞惊人的实力派嘉宾，先后发表主题演讲。
    中央音乐学院副院长、教授、博士生导师周海宏率先登台演讲。他以“如何让机器听懂音乐——音乐理解的人工智能路线图”为题，向现场观众展示了人工智能与音乐深度关联的可能性。
    周教授首先对“听懂”进行了限定，采用日常人们所说的听“懂”即是指从音乐中感受到视觉性的形象、情态性的情感，甚至思想性的哲理。要实现机器“听懂”——理解音乐的目的，就必须从联觉理论出发，找出人类由音乐的听觉体验引发其它感觉之间的联觉对应关系。

    核心观点：“联觉是人的本能，是音乐引发其它感觉体验的中间环节。未来，我们做音乐理解人工智能，采用阿尔法狗的路线，通过分析个人音乐审美经验去获得规则，是行不通的；而应该象阿尔法元那样，把人类理解音乐的规则直接告诉机器。即，不是通过经验学习获得规则，而是通过规则获得策略，这样，才有望在音乐理解与感受的领域上出现人工智能应用场景。”
    ————————————————————————
    以下内容来自周海宏的演讲全文，文字由AI森林整理：
    真没想到会站在今天这个讲台上。我既不懂人工智能，也不懂各种复杂计算，更不懂市场。我的专业是音乐心理学，是研究审美规律的。
    我先给大家唱一个旋律，你们来告诉我，哪个是表现高山，哪个表示流水的。
    大家肯定会一致觉得第一个是流水，第二个是高山。为什么所有人的立刻一致地产生了这样的“听懂”音乐的判断？这其中一定是有规则的。我之所以能够举出让大家产生一致反应的音乐例子，一定是通过研究掌握了这个规则。
    让机器拥有理解音乐的人工智能，也需要由人来告诉机器一些规则，在这个规则的基础上，机器才能进行后续的复杂计算。
    如何让机器“听懂”音乐？大家可能在想，连人都不一定能“听懂”音乐，机器怎么能够“听懂”音乐呢？
    音乐有两个最重要的属性，一是没有视觉造型性，二是没有语意符号，因此音乐不能传达视觉形象，也不能直接传达思想概念，这是造成大家听不懂音乐的核心原因。
    我们先来分析一下，人是如何“听懂”音乐的。
    下面我放一个例子。这一段音乐，大家觉得它表现的是什么？
    我做过调查，很多人会选择“险峻的高山”和“汹涌的大海”。
    再放一段曲子，所有人会选择“清澈的小溪”和“秀丽的田园”。
    人的主观感受为什么会有如此高的一致性？一定是这段音乐和那个场景形成了对应的关系——联觉对应关系。
    所谓联觉就是一个感觉器官受到刺激，其它的感觉器官发生了反应的心理现象。
    巧克力与薄荷糖，高音与低音，大家一定认为低音像巧克力，高音像薄荷糖；红烧肉和酸泡菜，大家会觉得泡菜像高音；闷热和凉爽，大家会觉得凉爽像高音；亮色和暗色，大家会觉得高音亮，低音暗；羊绒和真丝，真丝像高音……味觉、温度、视觉、触觉，都和听觉声音的高低发生了对应关系。这些现象就是联觉的表现。
    由此大家可以想到，如果把人对声音的感觉与其它感觉的联觉对应关系找到了，就迈向了机器理解音乐最重要的一步。
    我放两段音乐，大家觉得哪段适合给空调机广告配乐。，对，是第二段音乐，因为高音会让人感觉凉快；如果是给《法治进行时》来选片头，就会选择第一段音乐，因为低音给人感觉“深沉”。“深”是空间高度，“沉”是物体重量，我们拿这两个字形容听觉的声音，这个词本身就是联觉现象。
    我的论文《音乐与其表现的世界》，获得过2001年教育部全国优秀博士学位论文奖。这是音乐理论界第一个获得百篇优博奖的，因为这篇论文发现了音乐和表现东西之间的中间环节，揭开了音乐艺术表现之谜。
    声音的高低是频率决定的，它与颜色有联觉关系。三百前就有人研究色-听的联觉关系了，但一直没有找到稳定的、普遍的规律，色-听联觉一直不能排除主观臆想。
    大家知道，我们感受到的颜色不是单纯的元素，是由色调、明度、饱和度构成的。当我把颜色和声音都做了具体的元素的细分后，使得联觉的问题迎刃而解。研究发现，声音和颜色的色调无关，而只是和明度有关——声音的高低，和颜色的明暗形成了联觉对应关系。
    声音的强弱是一个能量的现象：强音使人感觉大，弱音使人感觉小。强音使人感觉动，弱音使人感觉静。
    声音的长短和空间的延展形成对应关系。因此，对物体大小、人的个性特征也有表现力。比如，伟人，就要用慢速的声音来表现。对应地，小人出场，那就用快速。
    声音的包络特征与硬、软，柔和、威胁有对应关系。
    紧张度由声音的音色和声音的组合特征产生。声音的紧张对应了情绪的紧张，声音与颜色的混杂、利益的竞争、主体的需要和期待等等，都有对应关系。
    根据上面的原理，我来举些例子，比如中国民歌《小白菜》，[唱《小白菜》]“小白菜呀地里黄呀，两三岁上，没了娘呀……”一个七个月的小孩，听着听着就哭了。
    复杂一些的例子，《国际歌》，为什么给人感觉是悲壮的？要拆解为“壮”和“悲”，“壮”是向上的，和谐的，音乐的旋律用了向上的四度音程；紧接着后面的下行产生“悲”感，再壮、再悲，这就是为什么《国际歌》经常在革命失败的时候才唱。实际上，它之所以给人悲壮的感觉，就是因为音乐形态有这样的特征。
    音乐理解的人工智能，要求必须把一个声音带来的感受细分到具体的元素中，才能被机器理解。音乐理解的人工智能有一个非常重要的预处理工作：对音乐描述词所指的感觉现象的进行精细切分。
    总结一下：作曲家就是靠联觉来选择和组织声音进行表现，听众也是依据联觉反应规律感受音乐的“弦外”之“意”。
    在此，特别想和从事人工智能的朋友们讲一下：我们现在的人工智能思路，基本上是给它一大堆的音乐案例，让听者为音乐打上标签，然后让计算机进行深度学习，从中分析出来带这个标签的音乐所具有的特征。这其实就是AlphaGo的思路。
    但如果我们做音乐的人工智能研究，也这样搞，就会出现问题。因为一个人可能在音乐感受的过程中有太多个人主观性因素。
    同样是柴可夫斯基的作品，如果这个人的注意力放在低音部，就会感觉这个曲子悲哀，如果注意力放在高音部，就会觉得是明快的。最不明智的是根据歌词给音乐的情感打标签，这时候遇到一个问题，词所暗示的情感和音乐形态特征不能对应，比如“伤心总是难免的”这个旋律[唱]，你一点不觉得伤心。
    另外，从音乐创作的人工智能角度看，绝大多数音乐作品不是好作品。即便是一个好作品，还有很多部分不是好的，只有其中一部分非常闪光的东西，才让它成为一个伟大的作品。如果把完整的作品交给计算机，它一定把臭棋和好棋都学下来。关键是，下围棋是有对错的，计算机可以判断这步走的是对、是错，但是，音乐的欣赏没有好坏对错的绝对标准，这对计算机而言，就更麻烦，它不知道哪个结果是对的。我们要认识到：莫扎特和肖邦，绝不是象机器那样学了所有前人的作品才成为伟大作曲家的，他们一定是根据自己头脑中的规则进行创作。
    我们需要换一种思路，整个艺术的人工智能要换一个思路，不再是分析以往的作品，而是把这个直接决定音乐艺术最本质的价值判断规则告诉机器，这就是AlphaZero的思路。
    当然，具体的工作非常非常复杂。我们首先要对音乐的音频进行一系列分析，分析出来人的听觉判断对象，还要把人的听觉注意分配规则告诉计算机。计算机才能象人一样听音乐，然后才能根据前面分析的联觉对应关系规则进行机器的理解工作。
    我最近看了一个人工智能的研究，为了标识音乐作品每段的情绪特征，它们的方案是按每5秒钟切分一段进行分析。大家知道，音乐不是按照每5秒一换情绪的，其实应该按照音乐句法切分。但是，这项研究没有按音乐句法划分规则切分，采取了每5秒钟截一个段。以这样分段去分析，计算机算出的结果一定是乱的。
    下一步是要做一个大的音乐描述词的词库，标出音乐描述词的感性特征，然后让计算机去学习。需要排除没有感性特征、音乐表现不了的词，留下音乐能表现的，然后我们再把这些描述词的应用情景进行分类。
    接下来就需要依据联觉对应关系，对这些描述词的感性特征进行前面说的声音五大表现元素赋值；之后，还要标定这个描述词的备选情景。比如“郁闷”这个词，我们需要列出这个词的使用情境。这是因为虽然联觉有共同性，但每个人的联想不相同，需要依照个人的经验来由听者自己选择适宜的情境。
    最后实现这样的应用场景：
    把一段音乐输入计算机，计算机就会自然反馈出来一些描述这段音乐带给人感受的词——这就是机器听懂了音乐的表现！
    进一步的应用可以让听众选择自己偏好的联觉激发情景。
    或者如果给计算机一个没有声音的场景片或广告，它能根据这个场景或广告的感性特征（当然这需要那个领域人工智能的配合）选出适合的配乐。
    当我们也可以把自己的心情以各种各样的途径告诉计算机，然后计算机自动推给我们所需要的音乐。
    音乐的机器理解的具体应用场景会非常多，到那时就是一个需要对应用场景的想象力了。
    谢谢大家！