中国打算机界一年一度的顶级盛会 —— CNCC2021( 中国打算机大会)将于 12 月 16-18 日在深圳拉开帷幕。
InfoQ 极客传媒已正式成为 CNCC2021 的计策互助媒体。
作为互助的一部分,《InfoQ 大咖说》与 CCF 联合推出了高端访谈栏目《技能风云 | 对话 CNCC》。

人工智能时代若何硬核“玩”音乐?_音乐_人工智能 云服务

《技能风云 | 对话 CNCC》高端访谈栏目将以直播对话的形式,从纵览打算机发展的视角出发,特邀来自 CNCC2021 的顶尖专家学者、科技企业的技能领袖,环绕 AI、数字化转型、打算+ 、云打算、开源、芯片等前沿技能展开广泛磋商,带来学术、技能、家当等全方位的深度解读,推动打算领域创新技能更广泛的传播、谈论和变革,帮助 IT 从业者开拓视野,紧跟时期。

人工智能技能迅速发展确当下,越来越多的领域被这项技能注入新的活力。
作为多媒体领域中不可短缺的组成部分,音乐对付人类的主要性不言而喻。
值得一提的是,人工智能在音乐领域的研究早在多年前就已经开始了,并且也落地了很多成熟运用。

11 月 10 日,InfoQ 和 CCF 联合推出的大咖说栏目《技能风云 | 对话 CNCC》第 7 期直播开播。
本期大咖说,我们约请到了微软亚洲研究院主管研究员,也是 CNCC 2021 的讲者——谭旭老师 ,来跟我们聊聊在人工智能时期,如何硬核玩音乐。

以下内容节选自当天的分享,InfoQ 做了不改变原意的编辑:

InfoQ:谭旭老师好,非常愉快可以有机会和您进行互换,可以先和大家打个呼唤吗?

谭旭:大家好,我是微软亚洲研究院主管研究员谭旭,我的研究领域紧张包括机器学习、自然措辞处理、语音和音乐干系方向,尤其是在笔墨、语音和音乐的内容创作方面开展了一些研究。
在 AI 音乐方向,我们环绕着 AI 音乐的理解和天生做了一些研究事情。
相信通过 AI 技能能给音乐领域带来新的生产力和创造力,帮助到音乐从业者。

InfoQ:您作为 CNCC2021 打算艺术论坛讲者,能分享下您与 CNCC 之间的故事吗?您加入的契机是什么?

谭旭:CNCC 中国打算机大会是由中国打算机协会组织的非常有影响力的会议,今年 CNCC2021 的主题是打算赋能加速数字化转型,紧张磋商打算和人工智能技能如何加速各个行业的数字化转型。
近几年,打算机音乐、人工智能音乐取得了快速发展,受到学界和业界的广泛关注,大家也普遍认为,打算机及人工智能技能能给音乐行业数字化转型赋能。
我在微软亚洲研究院的团队环绕 AI 音乐开展了一系列的研究事情,也是这个领域的见证者和参与者。
希望借这次 CNCC2021 大会,能和大家共同磋商人工智能技能在音乐,尤其是音乐创作领域的发展现状、行业机遇、目前面临的问题以及未来的发展方向,也希望能吸引更多志同道合的朋友们加入进来,推动这个领域发展进步。

为什么说音乐适宜与人工智能相结合?

InfoQ:人工智能技能与音乐相结合听起来非常有趣,紧张的结合点有哪些?您能整体先容一下吗?

谭旭:在回答这个问题前,我想先解答下可能大多数民气中的一个迷惑:音乐作为一门艺术,怎么会和人工智能或打算机这么侧重逻辑、理工的领域有结合呢?

要回答这个问题,就得先谈音乐的实质。
音乐背后是有乐理的,几千年来,人类一贯在探索音乐背后的乐理,像早期古希腊、古罗马的科学家、数学家、音乐理学家就在研究,为什么人听一段音乐会觉得到和谐。
比如毕拉格拉斯就曾创造,腔调的音程实际上是和弦长成一定比例的,而不同的声音一定会有一些频率组合,这样组合起来才会产生悦耳的声音。
柏拉图也提出过,天文学里的很多运动轨迹,和音乐里听到的一些音程的和谐,是有很多关联的。
这些例子能够解释,音乐背后是有非常严谨的逻辑的。

我们生产一段音乐,最主要的是要让不同声音组合在一起能够和谐,这个和谐来自于人的听感,能产生共鸣,而共鸣实际上便是物理学的声波共振。
两个音组合在一起能够和谐,一定是它们的共振或谐波比例是比较折衷的。
这解释,音乐的背后是有很深的数学上的逻辑关系的,音乐是适宜打算机或人工智能去做处理的。

音乐本身也是有严谨的构造框架的,像小说、电影须要有起承转合,须要推动故事情节,音乐也是如此。
在音乐中,推动情绪发展的是和弦,和弦能起到音乐的感情推进浸染,比如大家熟习的和弦 4536251 或者卡隆。
此外,音乐要想好听还须要具备一些其他成分,比如配器规则、编曲技巧等等。
这也解答了为什么艺术是可以和打算机、人工智能相结合的。

实在最早可以追溯到十五、十六世纪,就已经有打算机音乐方向的研究了。
比如在古典音乐前期,像莫扎特就曾做过一个有趣的音乐实验,他把一段音乐先分成很多片段,每个片段便是一小节,然后再摇骰子,摇到什么就选择哪个片段去组合,末了组合出来的音乐还挺好听的,这在打算机音乐圈被认为是打算机音乐的鼻祖。

至于人工智能技能和音乐的紧张结合点,我大概从以下两个方面来做解读。

第一,从音乐本身的数据表现办法来做解读。
我们可以粗略地把音乐的表示形态分为两种,一种是我们常见的曲谱、歌词这些符号化的音乐表示办法,另一种是有了曲谱会发生发火声音,通过歌手唱出来,通过播放器播放出来,或是通过音乐软件渲染出声音传到人耳,这也是更为常见的音乐的表达办法。
人工智能与音乐相结合,实在便是将人工智能技能在这两种音乐模态上去发挥一些浸染。
比如我们可以利用自然措辞处理技能,如措辞理解、措辞天生,来帮助音乐的理解和天生。

第二,从音乐涉及的一些任务来去解读。
比如我们可以把音乐粗浅地进行二元划分,一方面是假设我们已经有了音乐,须要对音乐进行处理、理解、检索、转换、加工等等。
另一方面,假设我们没有音乐,须要去创造音乐,详细包括制作旋律、词曲写作、伴奏编曲、音色的合成、混音、歌词合成等等。
这些刚好对应人工智能技能里比较常见的数据理解和数据天生。

人工智能 + 音乐的运用与技能寻衅

InfoQ:您本人也做了一系列 AI 音乐研究,包括音乐理解、词曲创作、伴奏天生、歌声合成等,它们的实现难度和实现路径分别是什么样的?紧张会涉及哪些技能和方法?

谭旭:我和我的团队在 AI 音乐天生方向上做了一系列的事情,尤其是环绕盛行音乐,详细包括词曲创作、伴奏编曲、歌声合成等等。
我们在环绕这些流程去开展干系研究的时候就创造,要想做好音乐天生,离不开对音乐的理解,你须要对音乐的节奏、和声、曲式构造、情绪风格有较好的理解。

我们的全体研究紧张环绕理解和天生两个方向进行。
在音乐天生方向,商品化音乐的全体制作流程是非常长的,涉及很多技能链条。
举个例子,创作一首音乐最基本的便是词曲创作,从词到曲这个创作过程用 AI 的办法来解,便是一个范例的序列到序列学习的任务,输入一个歌词系列,输出一个旋律系列。
目前市情上的开源数据集是非常少的,歌词旋律的配对数据是非常缺少的。
我们办理这个问题的办法便是引入预演习,利用大规模的非配对数据来演习模型,实现歌词的旋律天生。

随着研究的深入,我们创造歌词、旋律和一样平常的序列到序列学习的任务还是不一样。
比如在人工智能领域里,一些常见的序列到序列学习的任务像语音识别、语音合成、机器翻译,输入和输出有很强的语义对应关系,一段语音识别出来的笔墨便是对应语音中的某个片段,不会漏掉,也不会增加。
但一句歌词可以对应多段旋律,一段旋律也可以有多个歌词去匹配它,这是一种很弱的耦合。
如果我们还用传统的人工智能序列到序列的学习方法去办理这个问题,那么不可避免地须要大量的演习数据,由于它的逻辑很弱。

这个时候,就得换个办法去办理它,比如找到歌词和旋律里真正产生耦合的信息做中间的桥接,把歌词和旋律这个任务拆成两阶段,歌词到了桥接再天生旋律。
我们最近开展的一个事情便是通过一些音乐的线性知识去定义怎么桥接歌词旋律,先从歌词里提取出中间的模板旋律,也可以提取节奏信息,或是句子结束的信息来作为第二阶段,从这个模板信息天生末了的旋律。
这样做的上风在于,第二阶段的模型只需从旋律里边抽出音乐模板即可,这是一个自监督的学习过程。
而第一阶段便是歌词的模板,它是可以通过规则人为去决定的,或者通过一些赞助的监督演习的方法,从歌词抽取到模板,这样就能办理我们之条件到的耦合很弱,须要很多数据的问题。

从实际的天生效果来看,这样做也确实比之前的方法更好,并且基本不须要任何配对的歌词到旋律数据,就能实现比较好的旋律天生效果。
当然,从歌词到旋律还有很多路要走,比如怎么能让旋律匹配到歌词里的意境、情绪或是主题,这些都是往后须要持续探索的。

再举一个歌声合成的例子。
歌声合成是曲谱和歌词合成声音,实际上它和语音合成非常类似。
两者比较最大的差异在于,语音中的人声音高和时长基本上是比较平稳的、确定的,比如男生音高大概是一两百赫兹,女生音高大概是两三百赫兹。
但歌声却不一样,一个八度频率就会翻倍,这么宽的频带会给建模带来非常大的寻衅。
其余,唱歌的时候常常随意马虎过快或过慢,比如像 Rap 每个音发很短,而一些慢歌一个音会发很长,这种特点就会造成我们在天生音频波形的时候非常不稳定。

针对歌声合成中碰着过的这些寻衅,我们设计了一系列事情来办理。
个中一项事情是 HIFISinger,它是专门针对高保真的音频进行合成,48K 的采样率,能传达出比较丰富的歌声细节。
我们通过一些改进的工具天生网络,以及系统性的设计来办理,末了合成了效果比较不错的歌声。

举的这些例子紧张涉及哪些通用的方法呢?全体 AI 天生任务大概涉及两部分技能方法,一部分是通用的,比如人工智能里常见的自然措辞天生、系列到系列学习、可控的系列天生、语音合成,以及声音天生里的声码器、常见的天生模型等等。
还有一些通用的学习范式,比如半监督学习、自监督学习,或者低资源的一些机器学习。
另一部分是问题特有的,只能详细问题详细办理。
要想在这些任务里面做得更好,比如你要做到稳定鲁棒,要让音质的效果好,要有完全的构造和感情推动,都存在很大的寻衅。
像在歌声合成里面,有很多人声特有的一些唱歌技巧,比如说颤音、滑音,或是把京剧、戏腔加入到歌声中,建模都非常困难。
这是我们目前要往下进行的研究关注点,也是全体行业须要关注的一些问题。

InfoQ:您刚和我们先容了目前团队在 AI 音乐方向上的研究现状以及寻衅,能先容一下当前 AI 音乐的整体运用情形吗?

谭旭:实在打算机音乐的运用处景是一贯都有的,可能这几年 AI 刚火,大家才有 AI 音乐这个观点。
在过去,大家习气叫打算机音乐或是音乐信息检索,范例的运用处景便是帮助我们更好地组织、管理、检索、推举音乐。
此外还有音乐风格分类,通过歌词搜索歌曲等等。
在音乐传授教化中,AI 音乐也有很多运用。
比如对弹奏出来的声音进行剖析,看曲谱卡拍有没有卡准,转换是否涌现问题,从而帮助人们更好地去学习某项乐器。
在音乐天生方向上也有一些运用,比如现在很多短***的配乐工作,或是通过 AI 辅导人类去创作等等。
我认为从目前的技能来讲,还没有做到 AI 天生的音乐是完备不须要任何人工参与,便是一个完全的产品音乐。
可能随着技能的不断发展,未来或许能够办理。

InfoQ:您开源了 AI 音乐研究项目 Muzic,能和我们先容下这个项目的详细情形吗?Muzic 可以办理什么问题?在技能上有哪些创新点?

谭旭:Muzic 是微软亚洲研究院环绕着 AI 音乐的理解和天生的研究项目,宗旨是通过机器学习和人工智能技能更好地帮助到音乐的理解和天生。
项目涉及理解和天生的各个方面任务,比如音乐分类、音乐识别出歌词、歌声合成、伴奏编曲等等,未来还会有分离、识别检索的任务。
AI 领域涉及的问题非常多,我们希望通过开放一些现有研究事情的源代码或项目文档资料,给到社区的每个从业者,这些从业者能基于我们的这些框架工具,更方便地做进一步研究,一起推动 AI 音乐领域的进步,也欢迎大家多多关注和利用 Muzic。

开源地址:https://github.com/microsoft/muzic

InfoQ:评论区有不雅观众提问,音乐天生和其他比如下棋、措辞理解这些任务不同,它的目标不是明确的。
对付这种目标不明确的任务,我们有什么办理方案吗?

谭旭:像下棋或是其他任务都有一个非常强的规则体系和 Reword,便是你赢了没有,你得到多少分。
而音乐实际上是一个很主不雅观的东西,并且不同人的标准是不一样的,同样一首歌,有人听到的是喜悦,有人听到的是悲哀。
我们可以从两个角度去看待这个问题,一是它本身的反馈机制不明确,这就须要我们在利用 AI 技能的时候拆解,AI 技能到底能帮到音乐里面的哪个环节。
二是,AI 天生的音乐更多还是须要人工来进行评估,也便是说在全体链条里,始终有人的存在。
AI 技能只是一个工具,它不可能有一个低廉甜头系统去操控或是有主不雅观的见地去做一些事情,人在这个过程中还是要有完备自主的把控能力,末了还是须要人来做决定。

InfoQ:评论区有不雅观众提问,AI 在赞助音乐创作方向上有哪些作品和运用?

谭旭:赞助创作的产品运用并不算多,但是有很多 Demo 是符合赞助音乐创作的。
比如有很多音乐技能软件和编辑软件,你写完一段旋律的时候,AI 能立时给你补充一段旋律,并且补充的这段旋律是符合你的全体思路的,接下去也比较连贯自然。
又或者,你写了一首曲子,AI 的工具立时给你配上伴奏,全体音乐也很和谐。
面对这些 AI 天生的音乐,你可以完备采纳,也可以在上做一些编辑修正,去掉不合理的地方,这些一定可以帮助你减少很多本钱,这也是 AI 赞助音乐创作的范例例子。
当然还有很多其他运用,比如这种交互式的,我输出一句,AI 输出一句,有点像和 AI 斗琴,我弹奏一段,AI 弹奏一段,这种场景也会有。

AI 只是工具,为人类的音乐创作赋能

InfoQ:AI 音乐大概什么时候可以完备不须要人工参与呢?

谭旭:关于这个问题,可以从两种角度进行回答。
一种角度是,我们是不是真正期待 AI 音乐完备不须要人类?如果 AI 真正取代了人类,不须要任何干扰就能创作出非常好的音乐,人类的位置该在哪里?其余从技能角度来看,我以为实现起来也还很远。
当然,对付 AI 音乐的终极形态,我们也不肯望蜕变成 AI 完备取代人类,这也是不太得体的一种办法。

更好的办法是什么?便是人在创作过程中,通过 AI 去引发灵感,去赞助自己做出更好的音乐。
AI 为人类的音乐创作赋能。
人的生平能听的音乐有限,但 AI 模型演习听过上百万乃至上千万的音乐,AI 能见到大规模的不同流派、不同风格、不同编排方案的音乐,它能为人类供应很多干系的素材,能在人类的音乐创作环节中供应辅导或参考。

InfoQ:有评论认为,人工智能技能产生的音乐是没有灵魂的,不利于音乐的发展,您如何看待这种不雅观点?

谭旭:这个问题也会涉及的一点是,我们须要问自己,AI 音乐到底需不须要灵魂?动物是有灵魂的,机器需不须要灵魂?这是个哲学范畴的问题,如果机器哪天有灵魂,取代人类怎么办?它可能就不是人工智能,而是超越人的智能了。

另一方面,如果它没有灵魂,是不是不利于现在音乐的发展?我以为不是的。
AI 永久只是工具,是为人做事的。
比较 AI,人类的上风在于有灵魂,AI 的上风在于它的数据或知识体系很完善,但末了还是须要依赖人的亲自实践。
很多时候音乐创作不单是音乐本身,而且创作者在生活中碰着了什么事情,或悲哀或快乐。
过去创作者可能须要花一个月乃至更长的韶光创作一首歌,但有了人工智能,创作效率可以得到提升,这样的模式结合是我个人比较期待看到的。
总结来说便是,人要把控最精华、最有灵魂、最有灵感的地方,而 AI 去做剩下的事情。

InfoQ:在未来,人工智能在音乐领域的发展会朝着哪个方向迈进?有哪些可以预见的发展趋势?

谭旭:从我个人的一些理解和判断来看,长远来讲,人工智能技能未来一定会取得非常大的进步。
作为技能从业者,我希望能看到人工智能技能的发展,可以实实在在地帮助到音乐。

在音乐理解层面,我相信未来我们能够构建一个比较大规模的音乐理解模型,这个模型和现在的不一样,它可以直接对音频进行分类、分离转录等等。
现在音乐领域的很多束缚还是在于把音频的一些任务转成符号,这项技能目前还是存在很多寻衅的。
比如我们可以把音频转成钢琴,但如果转成其他乐器,就会产生比较大的偏差。
如果未来的语音处理技能能真正成熟的话,那我们可以直接从音乐中把这些内容理解出来,这也能极大地推动 AI 音乐的进步。

在音乐天生层面,我们目前须要办理的问题在于模型的可控天生。
之条件到 AI 要为人做事,人要去指定掌握模型天生,或某种音乐构造,或某种曲子构造,见告 AI 天生什么,AI 就能天生什么。
如果未来真正能做到这一点,我相信能有巨大的场景运用。
其余便是 AI 能不能去自动地做音色选择,或是混音,这也是我个人比较期待的。

人工智能时期下的通用内容创作

InfoQ:人工智能在内容创作上存在哪些上风和局限性?和真人比较,还有哪些差距?

谭旭:我本人对 AI 内容创作这个方向比较感兴趣,也环绕着这个方向做了很多研究。
实在文本天生、语音天生以及音乐天生都属于广泛的人工智能内容创作,上风在于 AI 技能本身的一些上风,比如它能够从大量数据里去总结背后的规律,通过拟合这些规律实现模型天生。

在人工智能领域,我们常常能听到两个观点:感知和认知。
比如图像和语音更多会涉及感知层面的天生,现在的 AI 能够天生非常逼真的人脸,以及出色的语音效果。
在认知任务层面,比如 AI 须要对措辞进行理解,这部分的发展还有一段间隔。
像之前 OpenAI 的 GPT-3 模型非常大,天生效果也不错,乍一看内容还可以,但如果你仔细去看这些内容,用一个词来衡量叫似是而非,从认知层面来考虑的话,还是和真人存在一定的差距的。
当然,这也是我们这个行业以及从业者努力的空间和方向,须要在数据、算法、建模,以及全体技能路线的选择上做更多努力,这样才能在文本或音乐天生上真正取得不错的效果。

InfoQ:您将在今年 12 月 16-18 日召开的 CNCC2021 打算艺术论坛上带来《基于深度学习的盛行音乐创作》主题演讲,能否提前剧透一下演讲中的一两个亮点?

谭旭:有很多大咖专家参与了 CNCC2021 打算机艺术论坛,既有来自技能界的,也有来自音乐艺术界的。
我们谈判量打算机人工智能和艺术,包括打算机和音乐,或是绘画美术以及其他艺术形式的一些结合,全体内容非常丰富。

我紧张环绕着深度学习技能在盛行音乐创作中的一些事情,先容我们团队最新的关于 AI 音乐的研究。
比如我之条件到过,音乐序列是非常长的,它比一样平常的文本或者段落都要长很多,并且有很多重复构造,像主歌、副歌,后面又来个主歌,或者又来个副歌,它实在是有远间隔依赖的重复构造的。
我们针对这个问题做了一些长序列建模的事情,以及可控音乐天生。
以是我也会分享这方面的一些研究进展,希望大家到时参加。
感激。

如果大家还想理解关于《基于深度学习的盛行音乐创作》的更多信息,请关注将于 12 月 16-18 日在深圳举办的 CNCC2021,届时谭旭老师将在大会上做精彩的报告。