图1:第八届全国声音与音乐技能会议

音乐人工智能的成长与思虑_人工智能_这一 AI快讯

一、人工智能现状

自2012年以来,人工智能由于深度学习网络预测性能的显著提升得到了迅猛发展,论文揭橥数量在近两年更是呈现井喷。
只管数量浩瀚,但事实上离不开程咬金的三板斧,即深层、隐构造和良态化。

图2:人工智能三板斧

深层是为了模拟人的大脑构造,如从视网膜到视觉中枢一样平常认为是五层的通道。
但人脑构造的繁芜性和运作机理远没有到理解清楚的地步,大略的五层并不能达到人脑相应的能力。
以是,人工智能想到了,用深层构造来实现预测,实际效果也确实不错。

隐构造是由于我们不雅观测到的内容每每是表面的,须要找到更多的隐特色来创造其内在的掌握机理,以是,这个方向上早期因此图模型的理论和算法框架来展开研究的。

良态化,由于我们处理的多数问题都是病态问题,即一个结果可以由多个缘故原由引起,要找到真正的单个缘故原由是一对多问题,也便是病态问题。
在此条件下,常用的策略是引入约束条件,将问题限定后探求最优解,即良态化。

现在的人工智能基本上分开不了这三个大框架的组合。
在此条件下,我们能看到有保持信息在经由深层特色提取后不至于衰减的跳连接策略,有仿照人类能选择性关注目标的把稳力选择模型,有仿照人可以在不同尺度下关注目标的多尺度或金字塔技巧,也有基于旗子暗记处理中残差熵的编码更短的残差深度模型。
还值得把稳的是,近两年图神经网络彷佛有一统天下的想法,希望把隐构造、深层与良态化结合起来。
但由于模型相对繁芜,目前只有两层的图神经网络比较好处理。
因此,图神经网络的前景还有待不雅观望。

除此以外,在音乐人工智能方面,还值得关注三个新的人工智能方向。
一是元学习。
它的发展韶光实在也有五六年历史了,但在音乐这块可能还比较新。
与须要大量有标签的监督学习比较,元学习可以用少量的、不同类型的任务集来学习新任务集的预测。
以歌曲为例。
它可以将每个风格下的歌曲和标签的预测算作是一个元演习样本, 不同风格的则组成一组元演习样本集。
通过对这组演习样本的学习,可以得到一组参数集。
该参数集的用途,是在涌现新的未知风格的歌曲和标签集时,可以直接调度参数集的权重来实现元学习。

图3:元学习示例

其次,是自监督学习。
这一方向是近两年涌现的,它紧张是希望利用大量未标注样本的构造关系来得到特色表达赞助信息 (Pretext),以帮助下贱任务得到更好的预测。
在图像处理中,常见的构造关系探求有在图像不同位置上增加图像块,并标注不同图像块间的位置关系。
其余,还有着色、旋转、多尺度排序等。
而在声音与音乐方面,最近三年,Zisserman教授组揭橥了三篇干系的事情,旨在创造视频中演奏乐器与音频中的语义同等性和同步性。
他们将乐器演奏的视频帧与相同时候的音频对应起来,以布局正样本;再将不同韶光的音视频,或不同乐器声音的音视频作为负样本。
通过布局能令正样本间间隔变小、负样本间间隔变大的比拟丢失(contrastive loss),并优化自监督模型,以得到赞助任务的有效特色表达。
该模型可用于多个下贱任务如音视频的跟踪、检测说话人说话与否,音源分离等。

图4(a): 自监督学习在有声视频上的运用

图4(b): 自监督学习在有声视频上的运用

图4(c): 自监督学习在有声视频上的运用

第三是蒸馏学习。
它的目的在利用西席模型来从大数据中学习一个相对粗略的特色表达,并基于这一结果再风雅化演习一个小的学生模型。
这一技能的好处在于,我们可以减少对深度学习最核心的运算硬件GPU的依赖,乃至可以让这些模型,在模型压缩后能进得手机上去处理。
这样的话,就有可能更有利于实用化基于音乐人工智能的各种运用了。

图5: 知识蒸馏示例

二、音乐智能的思考

这里谈几点人工智能在音乐领域的潜在运用和思考。

1、模拟与示教

由于深度学习的兴起,近年来通过模拟专家学习策略的强化学习也从早期比较繁芜的理论性研究,转到了相对实用且模型性能精良的深度强化学习模型上。
同时,为了能更好地学习专家决策,而不用去理解专家内在的脑电活动,示教、行为克隆等理论和算法也得到了发展。

这对付音乐领域来说,可能比较有用的一块是须要老师传授教化的部分,如指挥家是如何指挥的、钢琴及其他学习的指法练习等等。
如果将这些专家的知识网络,并形成演示数据以及基于演示数据的强化、示教模型,则有可能能帮助机器臂或人类的初学者更好地学习干系的技法。

图6:艺术的可学习性与模拟示传授教化习

2、幸存者偏差与艺术的留白

艺术有一个不同于人工智能的地方,便是有些作品、风格乃至艺术家本身之以是有名,不是由于其学习了大量的知识,反而是由于其没有学习太多共性的知识,而是保留了其独占的个性,俗称“留白”。

与人工智能算法比较,彷佛是不能依赖大数据演习,才有可能得到这一品质。
但事实上,我们也容许以换个角度来思考。
“留白”或许有部分是属于“幸存者偏差”的。
就像二战期间的飞机设计,美国哥伦比亚大学统计学沃德教授 (Abraham Wald)通过不雅观察联军轰炸机遭遇攻击后的数据,创造只管飞机上机翼最随意马虎被击中的位置、而机尾是最少的位置,但这一不雅观察是由于机尾被击中的飞机都没有飞回来导致的,因此,不能依赖幸存的飞机来给出判断,而该当考虑所有的可能性。
在此条件下,强化机尾的防护才是最合理的。

从人工智能角度来看,它属于反事实推理 (Counterfactual Inference),即须要通过引入更多的信息来探求其真正的答案,而非仅基于手头的数据。
艺术留白,大概部分缘故原由是由于我们过多依赖共有的数据,却很少对其引入不同的决策评判来剖析其独特性导致的。

那么,如果能够多研究人工智能的反事实推理,有可能在未来的音乐人工智能研究中,艺术的留白这一问题也有可能能被智能算法部分办理。

图7:艺术的留白与反事实推理

3、核磁共振与歌唱、乐器演奏研究

人在吹奏乐器、歌唱时,头部里的呼吸通道、口腔里舌头和天花板的位置以及其它部分的变革,都影响着吹奏乐器或歌唱的性能。
以歌唱为例,不同风格的歌手唱歌时,声音的位置处理是完备不同的。
但由于头部的器官和共鸣位置干系的空间都隐蔽在面部肌肉以下,每每很难直接不雅观测到。
因此,有可能可以通过侵害性较小的核磁或脑磁设备去监测,从而帮助更有效的剖析和学习专业歌手或吹奏乐器的技能。

须要指出的是,近年来不少新型检测设备在韶光分辨率和空间分辨率两方面都已经得到了大幅度的性能提升,这为我们更好地剖析歌唱和乐器演奏供应了可能。

图8 (a):核磁共振与歌唱、乐器演奏的研究

图8 (b):核磁共振与歌唱、乐器演奏的研究。
右图视频拜会:https://www.ixigua.com/6891559714136542475

4、短视频里的对口型辨识

近年来,短视频是智好手机中最热门的运用,其催生了大量的网红。
为了能快速成为网红,有一些人会抄袭、挪用他人的音乐作品,形成对口型的短视频。
但由于其有可能会在制作短视频前,去对原作品进行变调、加电音、混响等处理,以至于有的时候一样平常人不太随意马虎辨识出是否有抄袭或其他不端行为。
可是,这种行为并不利于短视频的良序发展,由于如果纵容这一行为,大概会让更多的人不愿意花代价做原创。
考虑到短视频的用户群很大,因此,利用人工智能去探求对口型或相似问题作品中的辨识度特色,并基于此来剖断是否有不端行为,就很有实际的运用代价。

图9:短视频中对口型辨识的运用

5、AI作曲

关于这一问题,音乐界一贯有不少辩论,更多的是不太认同AI作曲的水准,以及偏离了人类的审美风格、缺少大局不雅观。
我认为这个问题,与我们从何种角度来评价AI作曲的品质有关。
这里不妨想想周星驰的《大话西游》里唐僧对妖怪说的一句话“人是人生的,妖是妖生的,妖如果有了仁慈的心,就不是妖了,是人妖”。

图10:AI作曲的思考

如果我们把AI作曲定义成是为人类做事的,那很有可能就会涌现上述情形。
但如果想想,未来的AI本身便是主体呢,大概它的作品不一定是须要为人类做事的。
据宣布,日本曾经让一组机器人相互互换,结果,它们终极彷佛发明了人类听不懂的措辞,并能用之来互换。

大概,AI作曲也有可能会发展出机器能欣赏但人类不知道如何欣赏的作品。
考虑到机器的打算速率极其地高,有可能它们会作出毫秒级的音乐作品,来供其自我欣赏。

三、音乐智能的市场

只管音乐和人工智能在很多特质上是有明显差异的,但必须承认地是,音乐市场中智能化的蛋糕还相当地大。
毕竟人的精力是有限的,一个专业的音乐人不可能同时辅导太多学习者,而机器由于有强大的算力支持,它是可以大幅度减少辅导过程中不必要的专家辅导行为和降落学习本钱,以及提高学习效率的。
比如钢琴练习中,每周老师可能也就辅导一至两次,期间的空档须要学生自己去练习。
如果人工智能能在学生练习期间给予适当的辅导、纠错,显然可以更好地提高学习效率。
我们也不难想象,个中可以辅导的人数有多大,市场有多大。

四、问题:大数据对音乐风格和学习的影响

音乐风格一贯有很多新的形式在涌现着,但大数据有可能帮助我们创造更多人类未见过的风格。
这一点类似于AlphaGo下围棋。
它通过短韶光3000万局的演习,创造了人类300年棋谱中未见的绝妙棋着,以至于现在很多围棋比赛中国棋选手都开始选择用AlphaGO用过的落子办法下棋。

人类在学习音乐时,也存在同样的情形。
由于人不可能做像机器这样的学习,以是一旦模型用对了,机器就有可能通过大数据、海量打算创造更多新的音乐风格或有趣的旋律。
当然,它和人类是有着实质差异的,人类可以通过有限量的学习来实现直觉、顿悟和创作,但目前的机器还是通过韶光换空间的办法,依赖强大的硬件打算能力来实现这一功能的。

图11:音乐的美与平衡智能

五、音乐的美与人工智能的预测

对我们来说,音乐是美的。
这种美每每是来自于一种平衡,它有点像国人常说的阴阳八卦,是一种相互制衡后形成的。
它既有节奏、伴奏、人声与乐器声等成分的平衡,也有对各种感情的平衡,还有个体主不雅观感想熏染和大人感想熏染的平衡,因此我们在研究音乐的时候,可能须要更多的考虑个中的平衡,而不能像目前人工智能绝大多数研究那样,只关注预测性能的优胜。
如果过多的关注后者,很有可能会走入类似量子力学中的不愿定性事理的一个极度,即得到了精良的预测性能,却丢失了美或平衡。

这一点,可能须要从事音乐人工智能的研究者多多思考下,如何在音乐的美与人工智能的预测之间找到平衡点。

张军平

2020年11月9日

注:部分用图来自网络