编辑 | Camel

2019 年10篇新颖到出格的 AI 论文_论文_模子 计算机

前两天「AI科技评论」总结了 2019 年十大精彩 AI 学术论文,从学术代价的角度挑选了我们认为 2019 年里值得重读、值得纪念的机器学习论文。

在这篇文章里,我们会盘点 2019 年涌现的新颖有趣、寻衅传统不雅观念的十篇机器学习论文。
个中有的论文的学术代价如何还有待商榷、有的论文乃至直接把古人的许多研究成果一把推翻,但这些论文都新意满满。
这十篇论文刚好可以归为 5 个不同的主题,每个主题两篇。

一、AI + 更多领域、更多能力

[ 1 ]

论文:OpenAI MuseNet

上榜情由:2019 年年初,在声称「GPT-2 过于危险,不能公布预演习模型」并引发大规模口水仗之后,OpenAI 以为 GPT-2 的能力不止如此,他们考试测验的下一个任务是安全且喜闻乐见的音乐天生。
基于 GPT-2 编写的 MuseNet 模型继续并进一步加强了长序列天生能力,利用的演习数据是包含了 10 种不同乐器的、分类为多种不同曲风的数十万个 MIDI 文件,也便是数十万个乐曲。
(MIDI 文件曲直谱的数字表示,可以指定乐器但不含有乐器的音色信息,学习 MIDI 是明确地让模型学习作曲风格。

用肖邦曲风续写 Adele 的《Some One Like You》,来自 OpenAI 技能博客

模型的效果是惊人的,OpenAI 不仅在直播中演示了许多风格互异、辨识度高、旋律自然的天生乐曲,他们还在先容博客中供应了一个互动演示,可以从某首些有名乐曲中取一个小节作为开头,然后让模型以其他的风格续写,续写结果令人惊喜。
还有好奇且有动手能力的网友们利用 OpenAI 供应的试验工具天生了更多乐曲,都印证了 MuseNet 确实有强大的作曲能力。

同期谷歌也在巴赫诞辰日做了一个模拟巴赫的作曲 AI(https://www.google.com/doodles/celebrating-johann-sebastian-bach),可以根据用户给出的音符,以巴赫的作曲风格增加和弦。
这两个音乐 AI 的差异,除了巴赫 AI 只节制巴赫的曲风之外,还在于巴赫 AI 是在已经给出的小节中连续增加音符形成和弦,而 OpenAI 的 MuseNet 是向后续写更多小节。

博客地址:openai.com/blog/musenet

详细阅读:这个AI能用Lady Gaga曲风续写贝多芬

[ 2 ]

论文:Newton vs the machine:solving the chaotic three-body problem using deep neural networks

深度神经网络求解三体运动问题

上榜情由:三体运动问题没有解析解早有定论,以是这篇论文公开之后也引发了一些批评,毕竟论文只是考试测验了极为简化的情形(三个质量相等、初始速率为零的粒子在同一个平面内)、只是做到了靠近的数值解就拿出来张扬,而且还流传宣传比打算精确解的专业软件快十万倍,对网络的能力有浮夸吹捧之嫌。

这篇论文也有积极的一壁。
以深度学习为代表的机器学习手段确实在各种端到真个学习预测任务中得到了越来越多的利用,但实在深度学习的能力也不仅如此,它还可以在许多领域的更多任务中发挥浸染,正如三体运动这样的繁芜问题中我们短缺可以快速打算近似解的工具。

论文地址:https://arxiv.org/abs/1910.07291

解读文章:深度学习求解「三体」问题,打算速率提高一亿倍

二、深入认识我们习以为常的征象

[ 3 ]

论文:ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness ( ICLR 2019 )

在 ImageNet 上演习的 CNN 会带有纹理偏倚;增加形状偏倚可以提高准确度和鲁棒性

上榜情由:当代 CNN 网络有很强的特色表示学习能力,能在 ImageNet 上得到很高的识别准确率。
不过,不断改进网络架构、不断刷分的人多,探究 CNN 到底学到了怎么样的特色表示的人少。
按理说,工具识别的边界和纹理之争早就存在,不过我们终于还是在 2019 年看到了针对性的研究论文。

这篇论文中的实验表明,在 ImageNet 上演习的 CNN 网络在工具识别中依赖纹理远多于依赖形状;这实在和人类对自己的识别模式的认知有很大差异,也和我们对 CNN 事情办法的理解有所不同。
作者们的结论有充分的实验支持,他们乃至用天生的风格转换数据集演习了依赖形状更多的 CNN,这样的 CNN 在识别准确率和鲁棒性方面都有提高。
这篇论文被 ICLR 2019 吸收。

论文地址:https://arxiv.org/abs/1811.12231

[ 4 ]

论文:Deep Double Descent: Where Bigger Models and More Data Hurt

研究深度双波谷:更大的模型和更多的数据有时会产生负面浸染

上榜情由:2019 年中,包括 OpenAI 在内的一批学者「老调重谈」地再次谈论起模型繁芜度和过拟合的问题来。
机器学习界流传已久的不雅观念是,随着模型的繁芜度增大(学习能力提高),模型总能得到更小的演习偏差,但测试偏差和演习偏差的差会越来越大(涌现过拟合);以是模型繁芜度不能太低、也不能太高,我们须要找到相对平衡的那个点。
(上面的 U 型图)

但这两年来,一大批超级大、超级繁芜的模型用实际行动表明了演习偏差和测试偏差都还可以一同持续低落。
以是这次谈论形成的新共识是,我们须要在 U 型图的右侧连续扩充,用来表示当代的、大容量的深度学习模型在大小超过某个阈值之后,越大的模型会具有越好的泛化性。
这样,整张图就形成了双波谷的样子(下图) —— 也便是说,当你的模型大小很不幸地落在中间的波峰的时候,你就会碰着模型越大、 数据越多反而表现越差的尴尬情境。

论文地址:https://arxiv.org/abs/1912.02292

三、一竿子捅翻领域共识

[ 5 ]

论文:Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations

寻衅解耦表征的无监督学习中的共识

上榜情由:人类研究职员们相信,真实数据的多种多样的变革总是可以用一些关键成分的颠簸来阐明;至于这些成分分别是什么,就可以用无监督学习的办法探求解耦的表征,从而成功地揭示数据分布规律。
这个方向目前已经有一些研究成果,研究职员们也已经形成了一些共识。

但这篇论文可以说把现阶段的大部分成果和假设一竿子全部打翻。
作者们首先从理论上解释,如果不在模型和数据上都引入归纳偏倚,那么解耦表征的无监督学习本来便是不可能的。
接着,作者们用大规模实验表明,虽然不同的方法都可以找到和选取的演习丢失对应的性子,但只要没有监督,就演习不出能良好解耦的模型。
除此之外,随着表征解耦程度的提高,学习下贱任务的样本繁芜度并没有随着降落。
这几点结论都和当前的解耦表征无监督学习的共识形成光鲜冲突,这个方向的研究职员们大概须要重新思考他们要从多大程度上从头来过。

作者们的建议是,未来的解耦学习研究须要分清人为引入的归纳偏倚和监督(即便是隐式的)两者分别的浸染,须要探究通过人为选取的丢失「强制」模型学习解耦带来的收益到底大不大,以及要形成能在多个不同的数据集上测试、结果可复现的实验老例。
这篇论文被 ICML 2019 吸收。

论文地址:https://arxiv.org/abs/1811.12359

[ 6 ]

论文:Uniform convergence may be unable to explain generalization in deep learning

收敛同等性可能阐明不了深度学习中的泛化征象

上榜情由:为了探究深度学习泛化能力背后的事理,学术界提出了泛化边界的观点,然后考试测验用「收敛同等性」理论推导、设计出了各种各样的泛化边界描述方法,彷佛已经取得了不少成果。
但这篇论文中作者们通过大量实验创造,虽然个中的许多泛化边界从数值角度看起来挺大,但随着演习数据集大小变大,这些泛化边界也会随着变大。

在此根本上,作者们用过参数化的线性分类器和梯度低落演习的神经网络为例,证明了收敛同等性并不能阐明模型的泛化性,即便完备考虑了梯度低落可能带来的隐式偏倚也阐明不了。
更严谨地说,作者们实验表明,根据收敛同等性得到的泛化边界要比根据梯度低落得到的泛化边界大得多。
根据这一系列结果,作者们对「用基于收敛的方法阐明泛化能力」的做法提出严重的质疑。
虽然这篇论文并没能办理(也没打算办理)深度神经网络中的泛化性问题,但它显然为全体领域指出「此路不通,考虑重来」。
这篇论文得到 NeurIPS 2019 精彩新方向论文奖。

论文地址:https://papers.nips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning

四、打开新的方向

[ 7 ]

论文:On The Measure Of Intelligence

关于聪慧的丈量手段

上榜情由:虽然机器学习研究职员们总说通用人工智能是远大空想和努力方向,但「在固定的详细任务上跑分」的老例实在看不出哪里和通用人工智能沾边了。
谷歌大脑研究员、Keras 库作者 François Chollet 在日常鞭笞这种风气的同时,最近也公开了一篇严明的论文,明确提出我们须要考虑如何丈量真正的聪慧。

他在论文中描述的核心想法是:要理解一个别系的聪慧水平,应该丈量它在一系列不同任务中表现出的得到新能力的效率;这和先验、履历、泛化难度都干系。
论文中包含了对 AI、聪慧干系观点的阐明和谈论,他认为的空想的通用 AI 评价办法,以及他自己设计的认为比较能反响及丈量真正的聪慧的 ARC 数据集。
对聪慧的谈论和复制还有很长的路要走,这篇论文再次提醒大家对「我们该当从哪里开始、往哪里去」保持复苏。

论文地址:https://arxiv.org/abs/1911.01547

详细先容:丈量「聪慧」的精确姿势可能是?

[ 8 ]

论文:Putting an End to End-to-End: Gradient-Isolated Learning of Representations

给端到端学习画上句号:表征的梯度隔离学习

上榜情由:这篇论文提出了一种全新的自学习方法,它采取的并不是深度学习中惯用的端到端梯度低落,而是把贪婪 InfoNCE 作为目标,分别独立地演习网络中的各个模块。
它的学习办法更靠近于自监督学习,是把各种不同的小块之间的共同信息作为每个小块的演习的监督旗子暗记,把韶光维度上附近的表征之间的共同信息最大化。
之以是这种做法能见效,是由于数据中符合这种设想的「慢特色」对下贱任务非常有帮助。
这种方法大幅节省了演习韶光,也避开了大规模模型碰着的内存空间瓶颈。

这种方法很大程度上是从生物学征象得到启示的,也便是,全体大脑并不针对同一个唯一的目标进行优化,而是有模块化的功能分区,然后每个区域都优化自己的局部信息。
目前看起来,这种方法可以方便地快速演习更深的模型,利用局部信息的设定也避免了传统神经网络中梯度消逝的问题。
这是一种有潜力的方法,不过是否能像论文标题中说的那样「给端到端学习画上句号」还须要等待韶光验证。
这篇论文得到 NeurIPS 2019 精彩新方向论文提名奖。

论文地址:https://arxiv.org/abs/1905.11786v2

代码开源:https://github.com/loeweX/Greedy_InfoMax

博客先容:https://yann-leguilly.gitlab.io/post/2019-09-29-representation-learning-with-contrastive-predictive-coding/

五、新颖到引发争议

[ 9 ]

论文:Read, Attend and Comment: A Deep Architecture for Automatic News Comment Generation

上榜情由:这是一篇 EMNLP 2019 吸收论文,会议结束之后则在社交网络上引发了大片声讨之声。
我们固然知道具备精良学习拟合能力的深度神经网络有能力大批量天生***评论,这篇论文中的方法能提取文章的重点不雅观点天生相应的评论,而且也在自动评价指标和人类评价的两个方面都得到了很好的结果,但批评的声音认为,更主要的是「是否应该做这样的研究,这样的研究的社会影响是怎么样的」。
EMNLP 2019 还有一篇遭受了类似批评的论文是《Charge-Based Prison Term Prediction with Deep Gating Network》(https://arxiv.org/abs/1908.11521),在诉讼案件中根据检方指控的罪过预测被告刑期。

论文地址:https://arxiv.org/abs/1909.11974

[ 10 ]

论文:Facial Reconstruction from Voice using Generative Adversarial Networks

上榜情由:作为更大、更综合性的会议,NeurIPS 2019 吸收论文中也有带来很大争议的,这篇「用 GAN 从声音重修人脸」的论文就炒得沸沸扬扬。
即便我们认可一个人的说话声音可能和性别、年事、体形干系,大概模型能比人类更敏感更明确地找到个中的干系性,但「陵犯隐私」、「损失道德判断力」、「增加社会偏见」、「做奇怪无用的课题」之类的批评仍旧是免不了的。

NeurIPS 2019 也不止有一篇论文引发争议,还有一篇是《Predicting the Politics of an Image Using Webly Supervised Data》(arxiv.org/abs/1911.00147),判断***媒体选用的人物照片表示了左派还是右派的政管理念。
如果看作是戳穿大众偏见的社会学研究的话,这篇论文可能还有一些代价。

论文地址:http://papers.nips.cc/paper/8768-face-reconstruction-from-voice-using-generative-adversarial-networks