来源:学术

人工智能“抛弃”真实数据集?_数据_模子 计算机

当前,人工智能技能已经运用在我们日常生活中的方方面面,比如人脸识别、语音识别、虚拟数字人等。
但普遍存在的一个问题是,科研职员要想通过演习一个机器学习模型来实行某一特界说务(比如图像分类),每每须要利用大量的演习数据,而这些数据(集)却并不总是很随意马虎得到。
比如,如果研究职员正在演习一辆自动驾驶汽车的打算机视觉模型,但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本,一旦碰着这种情形,模型就不知道该如何做,可能会产生不必要的后果。
而且,利用已有数据天生数据集,也会花费数百万美元。
其余,纵然是最好的数据集,也常常包含对模型性能产生负面影响的偏见。
那么,既然得到、利用一个数据集代价这么昂贵,能不能在担保模型性能的条件下,利用人为合成的数据来演习呢?近日,一项来自麻省理工学院(MIT)科研团队的研究显示,一种利用合成数据演习的图像分类机器学习模型,可以与利用真实数据来演习的模型相媲美,乃至性能更好。
干系研究论文以“Generative models as a data source for multiview representation learning”为题,以会议论文的形式揭橥在 ICLR 2022 上。

不输于真实数据

这种分外的机器学习模型被称为天生模型(generative model),比较于数据集,存储或共享所需的内存要少得多,不仅可以避免一些关于隐私和利用权的问题,也不存在传统数据集中存在的一些偏见和种族或性别问题。
据论文描述,在演习过程中,天生模型首先会获取数百万张包含特定工具(比如汽车或猫咪)的图像,然落后修汽车或猫咪的外不雅观,末了天生类似的工具。
大略来说便是,研究职员利用一个预先演习的天生模型,参照模型演习数据集上的图像,输出大量独特的、真实的图像流。

(来源:Pixabay)

研究职员表示,一旦天生模型在真实数据上进行演习,就可以天生险些与真实数据无法区分的合成数据。
其余,天生模型还可以基于演习数据做进一步拓展。
如果天生模型是基于汽车图像进行演习的,它就可以“想象”出汽车在不同情形下是什么样的,然后输出具有不同颜色、大小和状态的汽车图像。
天生模型具备很多优点,个中之一便是,它在理论上可以创建无限数量的样本。
基于此,研究职员试图搞清楚样本数量如何影响模型性能。
结果显示,在某些情形下,大量的独特样本确实会带来额外的改进。
而且,在他们看来,天生模式最酷的一点在于,我们可以在在线资料库中找到并利用它们,而且不须要干预模型就可以得到良好的表现。
但天生模型也有一些缺陷。
例如,在某些情形下,天生模型可能会揭示源数据,从而带来隐私风险,如果没有进行适当的审计,可能会放大它们所演习数据集中的偏差。

天生式 AI 大势所趋?

有效数据的稀缺性,以及采样偏差,已经成为机器学习发展的关键瓶颈。
近年来,为办理这一问题,天生式 AI(Generative AI)成为了人工智能领域的热议话题之一,被业内给予了足够高的期待。
去年底,Gartner 发布了 2022 年主要计策技能趋势,将天生式 AI 称为是“最引人瞩目和最强大的人工智能技能之一”。
据 Gartner 预测,估量到 2025 年,天生式 AI 将占所有天生数据的 10%,而目前这一比例还不到 1%。

图|Gartner 2022 年主要计策技能趋势(来源:Gartner 官网)

2020 年,天生式 AI 作为一个新增技能热点,在 Gartner 发布的“Hype Cycle for Artificial Intelligence,2020”中首次被提出。
在最新的“Hype Cycle for Artificial Intelligence,2021”报告中,天生式 AI 作为 2-5 年即可成熟的技能涌现。

(来源:Gartner Hype Cycle for Artificial Intelligence, 2021)

天生式 AI 的打破在于,它可以从现有数据(图像、文本等)中学习,并天生全新、相似的原始数据。
也便是说,它不仅可以做出判断,还能够进行创造,可以用于自动编程、药物开拓、视觉艺术、社交、商业做事等。
但是,天生式 AI 也会被滥用于诱骗、敲诈、政治造谣、假造身份等,比如常常产生各种负面***的 Deepfake。

那么问题来了,如果我们有足够好的天生模型,还须要真实的数据集吗?

原文链接:

https://openreview.net/pdf?id=qhAeZjs7dCL

https://news.mit.edu/2022/synthetic-datasets-ai-image-classification-0315

https://www.gartner.com/en/documents/4004183

知领

知领,中国工程院中国工程科技知识中央官方订阅号。
关注科技动态,遍及科技知识,弘扬院士精神,传播科学思想。