周海宏:不能用AlphaGo的思路,去做音乐的人工智能

AI森林

    持续七日的2017全球创业周中国站(Global Entrepreneurship Week China,简称GEW),11月19日在上海长阳创谷1会场迎来压轴之作——人工智能产业投资论坛的开幕。
    论坛由初创投资主办。于2012年成立的初创投资,是中国第一家人工智能产业投资机构,是国内数十家人工智能企业最早的投资机构。
    此次论坛成功汇聚全球范围内超过60家明星企业、近二百位产业界投资界学术界的专业人士,并吸引数千人次的专业观众到场参会。其中,八位身处人工智能“产学研创投”前线、脑洞惊人的实力派嘉宾,先后发表主题演讲。
    中央音乐学院副院长、教授、博士生导师周海宏率先登台演讲。他以“如何让机器听懂音乐——音乐理解的人工智能路线图”为题,向现场观众展示了人工智能与音乐深度关联的可能性。
    周教授首先对“听懂”进行了限定,采用日常人们所说的听“懂”即是指从音乐中感受到视觉性的形象、情态性的情感,甚至思想性的哲理。要实现机器“听懂”——理解音乐的目的,就必须从联觉理论出发,找出人类由音乐的听觉体验引发其它感觉之间的联觉对应关系。
    
    核心观点:“联觉是人的本能,是音乐引发其它感觉体验的中间环节。未来,我们做音乐理解人工智能,采用阿尔法狗的路线,通过分析个人音乐审美经验去获得规则,是行不通的;而应该象阿尔法元那样,把人类理解音乐的规则直接告诉机器。即,不是通过经验学习获得规则,而是通过规则获得策略,这样,才有望在音乐理解与感受的领域上出现人工智能应用场景。”
    ————————————————————————
    以下内容来自周海宏的演讲全文,文字由AI森林整理:
    真没想到会站在今天这个讲台上。我既不懂人工智能,也不懂各种复杂计算,更不懂市场。我的专业是音乐心理学,是研究审美规律的。
    我先给大家唱一个旋律,你们来告诉我,哪个是表现高山,哪个表示流水的。
    大家肯定会一致觉得第一个是流水,第二个是高山。为什么所有人的立刻一致地产生了这样的“听懂”音乐的判断?这其中一定是有规则的。我之所以能够举出让大家产生一致反应的音乐例子,一定是通过研究掌握了这个规则。
    让机器拥有理解音乐的人工智能,也需要由人来告诉机器一些规则,在这个规则的基础上,机器才能进行后续的复杂计算。
    如何让机器“听懂”音乐?大家可能在想,连人都不一定能“听懂”音乐,机器怎么能够“听懂”音乐呢?
    音乐有两个最重要的属性,一是没有视觉造型性,二是没有语意符号,因此音乐不能传达视觉形象,也不能直接传达思想概念,这是造成大家听不懂音乐的核心原因。
    我们先来分析一下,人是如何“听懂”音乐的。
    下面我放一个例子。这一段音乐,大家觉得它表现的是什么?
    我做过调查,很多人会选择“险峻的高山”和“汹涌的大海”。
    再放一段曲子,所有人会选择“清澈的小溪”和“秀丽的田园”。
    人的主观感受为什么会有如此高的一致性?一定是这段音乐和那个场景形成了对应的关系——联觉对应关系。
    所谓联觉就是一个感觉器官受到刺激,其它的感觉器官发生了反应的心理现象。
    巧克力与薄荷糖,高音与低音,大家一定认为低音像巧克力,高音像薄荷糖;红烧肉和酸泡菜,大家会觉得泡菜像高音;闷热和凉爽,大家会觉得凉爽像高音;亮色和暗色,大家会觉得高音亮, 低音暗;羊绒和真丝,真丝像高音……味觉、温度、视觉、触觉,都和听觉声音的高低发生了对应关系。这些现象就是联觉的表现。
    由此大家可以想到,如果把人对声音的感觉与其它感觉的联觉对应关系找到了,就迈向了机器理解音乐最重要的一步。
    我放两段音乐,大家觉得哪段适合给空调机广告配乐。,对,是第二段音乐,因为高音会让人感觉凉快;如果是给《法治进行时》来选片头,就会选择第一段音乐,因为低音给人感觉“深沉”。“深”是空间高度,“沉”是物体重量,我们拿这两个字形容听觉的声音,这个词本身就是联觉现象。
    我的论文《音乐与其表现的世界》,获得过2001年教育部全国优秀博士学位论文奖。这是音乐理论界第一个获得百篇优博奖的,因为这篇论文发现了音乐和表现东西之间的中间环节,揭开了音乐艺术表现之谜。
    声音的高低是频率决定的,它与颜色有联觉关系。三百前就有人研究色-听的联觉关系了,但一直没有找到稳定的、普遍的规律,色-听联觉一直不能排除主观臆想。
    大家知道,我们感受到的颜色不是单纯的元素,是由色调、明度、饱和度构成的。当我把颜色和声音都做了具体的元素的细分后,使得联觉的问题迎刃而解。研究发现,声音和颜色的色调无关,而只是和明度有关——声音的高低,和颜色的明暗形成了联觉对应关系。
    声音的强弱是一个能量的现象:强音使人感觉大,弱音使人感觉小。强音使人感觉动,弱音使人感觉静。
    声音的长短和空间的延展形成对应关系。因此,对物体大小、人的个性特征也有表现力。比如,伟人,就要用慢速的声音来表现。对应地,小人出场,那就用快速。
    声音的包络特征与硬、软,柔和、威胁有对应关系。
    紧张度由声音的音色和声音的组合特征产生。声音的紧张对应了情绪的紧张,声音与颜色的混杂、利益的竞争、主体的需要和期待等等,都有对应关系。
    根据上面的原理,我来举些例子,比如中国民歌《小白菜》,[唱《小白菜》]“小白菜呀地里黄呀,两三岁上,没了娘呀……”一个七个月的小孩,听着听着就哭了。
    复杂一些的例子,《国际歌》,为什么给人感觉是悲壮的?要拆解为“壮”和“悲”,“壮”是向上的,和谐的,音乐的旋律用了向上的四度音程;紧接着后面的下行产生“悲”感,再壮、再悲,这就是为什么《国际歌》经常在革命失败的时候才唱。实际上,它之所以给人悲壮的感觉,就是因为音乐形态有这样的特征。
    音乐理解的人工智能,要求必须把一个声音带来的感受细分到具体的元素中,才能被机器理解。音乐理解的人工智能有一个非常重要的预处理工作:对音乐描述词所指的感觉现象的进行精细切分。
    总结一下:作曲家就是靠联觉来选择和组织声音进行表现,听众也是依据联觉反应规律感受音乐的“弦外”之“意”。
    在此,特别想和从事人工智能的朋友们讲一下:我们现在的人工智能思路,基本上是给它一大堆的音乐案例,让听者为音乐打上标签,然后让计算机进行深度学习,从中分析出来带这个标签的音乐所具有的特征。这其实就是AlphaGo的思路。
    但如果我们做音乐的人工智能研究,也这样搞,就会出现问题。因为一个人可能在音乐感受的过程中有太多个人主观性因素。
    同样是柴可夫斯基的作品,如果这个人的注意力放在低音部,就会感觉这个曲子悲哀,如果注意力放在高音部,就会觉得是明快的。最不明智的是根据歌词给音乐的情感打标签,这时候遇到一个问题,词所暗示的情感和音乐形态特征不能对应,比如“伤心总是难免的”这个旋律[唱],你一点不觉得伤心。
    另外,从音乐创作的人工智能角度看,绝大多数音乐作品不是好作品。即便是一个好作品,还有很多部分不是好的,只有其中一部分非常闪光的东西,才让它成为一个伟大的作品。如果把完整的作品交给计算机,它一定把臭棋和好棋都学下来。关键是,下围棋是有对错的,计算机可以判断这步走的是对、是错,但是,音乐的欣赏没有好坏对错的绝对标准,这对计算机而言,就更麻烦,它不知道哪个结果是对的。我们要认识到:莫扎特和肖邦,绝不是象机器那样学了所有前人的作品才成为伟大作曲家的,他们一定是根据自己头脑中的规则进行创作。
    我们需要换一种思路,整个艺术的人工智能要换一个思路,不再是分析以往的作品,而是把这个直接决定音乐艺术最本质的价值判断规则告诉机器,这就是AlphaZero的思路。
    当然,具体的工作非常非常复杂。我们首先要对音乐的音频进行一系列分析,分析出来人的听觉判断对象,还要把人的听觉注意分配规则告诉计算机。计算机才能象人一样听音乐,然后才能根据前面分析的联觉对应关系规则进行机器的理解工作。
    我最近看了一个人工智能的研究,为了标识音乐作品每段的情绪特征,它们的方案是按每5秒钟切分一段进行分析。大家知道,音乐不是按照每5秒一换情绪的,其实应该按照音乐句法切分。但是,这项研究没有按音乐句法划分规则切分,采取了每5秒钟截一个段。以这样分段去分析,计算机算出的结果一定是乱的。
    下一步是要做一个大的音乐描述词的词库,标出音乐描述词的感性特征,然后让计算机去学习。需要排除没有感性特征、音乐表现不了的词,留下音乐能表现的,然后我们再把这些描述词的应用情景进行分类。
    接下来就需要依据联觉对应关系,对这些描述词的感性特征进行前面说的声音五大表现元素赋值;之后,还要标定这个描述词的备选情景。比如“郁闷”这个词,我们需要列出这个词的使用情境。这是因为虽然联觉有共同性,但每个人的联想不相同,需要依照个人的经验来由听者自己选择适宜的情境。
    最后实现这样的应用场景:
    把一段音乐输入计算机,计算机就会自然反馈出来一些描述这段音乐带给人感受的词——这就是机器听懂了音乐的表现!
    进一步的应用可以让听众选择自己偏好的联觉激发情景。
    或者如果给计算机一个没有声音的场景片或广告,它能根据这个场景或广告的感性特征(当然这需要那个领域人工智能的配合)选出适合的配乐。
    当我们也可以把自己的心情以各种各样的途径告诉计算机,然后计算机自动推给我们所需要的音乐。
    音乐的机器理解的具体应用场景会非常多,到那时就是一个需要对应用场景的想象力了。
    谢谢大家!