美国智库最新申报:耐久被忽视的小数据人工智能潜力弗成估量_数据_办法
传统不雅观点认为,大量数据支撑起了尖端人工智能的发展,大数据也一贯被奉为打造成功机器学习项目的关键之匙。但AI≠Big Data,该研究指出,制订规则时如果将“人工智能依赖巨量数据、数据是必不可少的计策资源、获取数据量决定国家(或公司)的人工智能进展”视为永恒真理,就会“误入歧途”。介于当下大环境过分强调大数据却忽略了小数据人工智能的存在,低估了它不须要大量标记数据集或从网络数据的潜力,研究职员从四个方面“缩短大小实体间AI能力差距、减少个人数据的网络、促进数据匮乏领域的发展和避免脏数据问题”解释了“小数据”方法的主要性。
小数据方法是什么?
小数据方法是一种只需少量数据集就能进行演习的人工智能方法。它适用于数据量少或没有标记数据可用的情形,减少对人们网络大量现实数据集的依赖。
这里所说的“小数据”并不是明确种别,没有正式和同等认可的定义。学术文章谈论小数据与运用领域干系性时,常与样今年夜小相挂钩,例如千字节或兆字节与TB数据。对许多数据的引用终极走向都是作为通用资源。然而,数据是不可替代的,不同领域的人工智能系统须要不同类型的数据和方法,详细取决待办理的问题。
本文紧张从决策者的角度讲述“小数据”。政府职员常日被看作是人工智能领域潜在的强力参与者,由于他们对社会运行规则更为理解并可以访问大量数据——例如,景象监测数据、地质调查、边疆掌握、社会保障、选民登记、车辆和司机记录等。人口浩瀚、数据网络能力强被认为是国家人工智能竞争能力的主要成分。
一些美国人认为,政府拥有可以数字化、清理和标记大量数据,才能从人工智能的革命中受益。虽有些道理,但将AI的进展都归功于这些条件是偏颇的。由于人工智能的未来不仅只与大数据有关联,纵然政府部门没有对大数据根本举动步伐多加投资,人工智能的创新依旧可以出身。
“小数据”方法的分类
“小数据”方法大致可分为五种:迁移学习,数据标记,人工数据天生,贝叶斯方法,以及强化学习。
迁移学习(Transfer learning)的事情事理是先在数据丰富的环境中实行任务,然后将学到的知识“迁移”到可用数据匮乏的任务中。
比如,开拓职员想做一款用于识别罕有鸟类物种运用程序,但每种鸟可能只有几张标有物种的照片。利用迁移学习,他们先用更大、更通用的图像数据库(如ImageNet)演习基本图像分类器,该数据库具有数千个种别标记过的数百万张图像。当分类器能区分狗与猫、花与水果、麻雀与燕子后,他们就可以将更小的罕有鸟类数据集“喂养”给它。然后,该模型可以“转移”图像分类的知识,利用这些知识从更少的数据中学习新任务(识别罕有鸟类)。
数据标记(Data labeling)适用于有限标记数据和大量未标记数据的情形。利用自动天生标签(自动标记)或识别标签特殊用场的数据点(主动学习)来处理未标记的数据。
例如, 主动学习(active learning)已被用于皮肤癌诊断的研究。图像分类模型最初在100张照片上演习,根据它们的描述剖断是癌症皮肤还是康健,皮肤从而进行标记。然后该模型会访问更大的潜在演习图像集,从中可以选择100张额外的照片标记并添加到它的演习数据中。
人工数据天生(Artificial data generation)是通过创建新的数据点或其他干系技能,最大限度地从少量数据中提取更多信息。
一个大略的例子,打算机视觉研究职员已经能用打算机赞助设计软件(CAD)——从造船到广告等行业广泛利用的工具——天生日常事物的拟真3D图像,然后用图像来增强现有的图像数据集。当感兴趣的数据存在单独信息源时,如本例中是众包CAD模型时,这样的方法可行性更高。
天生额外数据的能力不仅在处理小数据集时有用。任何独立数据的细节都可能是敏感的(比如个人的康健记录),但研究职员只对数据的整体分布感兴趣,这时人工合成数据的上风就显现出来了,它可对数据进行随机变革从而抹去私人痕迹,更好地保护了个人隐私。
贝叶斯方法(Bayesian methods)是通过统计学和机器学习,将有关问题的架构信息(“先验”信息)纳入办理问题的方法中,它与大多数机器学习方法产生了光鲜比拟,方向于对问题做出最小假设,更适用于数据有限的情形,但可以通过有效的数学形式写出关于问题的信息。贝叶斯方法则侧重对其预测的不愿定性产生良好的校准估计。
作为贝叶斯推断利用小数据的一个例子:贝叶斯方法被用于监测环球地震活动,对检测地壳运动和核条约有着重大意义。通过开拓结合地震学的先验知识模型,研究职员可以充分利用现有数据来改进模型。贝叶斯方法是一个弘大的族群,不是仅包含了善于处理小数据集的方法。对其的一些研究也会利用大数据集。
强化学习(Reinforcement learning)是一个广义的术语,指的是机器学习方法,个中智能体(打算机系统)通过反复试验来学习与环境交互。强化学习常日用于演习游戏系统、机器人和自动驾驶汽车。
例如,强化学习已被用于演习学习如何操作***游戏的AI系统——从大略的街机游戏到计策游戏。系统开始时对玩游戏知之甚少或一无所知,但通过考试测验和不雅观察摸索褒奖旗子暗记涌现的缘故原由,从而不断学习。(在***游戏的例子中,褒奖旗子暗记常以玩家得分的形式呈现。)
强化学习系统常日从大量数据中学习,须要海量打算资源,因而它们被列入个中彷佛是一个非直不雅观种别。强化学习被席卷进来,是由于它们利用的数据常日是在系统演习时天生的——多在仿照的环境中——而不是预先网络和标记。在强化学习问题中,智能体与环境交互的能力至关主要。
图1展示了这些不同区域是如何相互连接的。每个点代表一个研究集群(一组论文),将其确定为属于上述种别之一。连接两个研究集群线的粗细代表它们之间引文链接的关联度。没有线则表示没有引文链接。如图所示,集群与同种别集群联系最多,但不同类集群之间的联系也不少。还可以从该图看到,“强化学习”识别的集群形成了特殊连贯的分组,而“人工数据”集群则更加分散。
“小数据”方法主要在哪里?
1)缩短大小实体间AI能力差距AI运用程序的大型数据集代价在不断增长,不同机构网络、存储和处理数据的能力差异缺令人担忧。人工智能的“富人”(如大型科技公司)和“穷汉”之间也因此拉开差距。如果迁移学习、自动标记、贝叶斯方法等能够在少量数据的情形下运用于人工智能,那么小型实体进入数据方面的壁垒会大幅降落,这可以缩减大、小实体之间的能力差距。
2)减少个人数据的网络大多数美国人认为人工智能会吞并个人隐私空间。比如大型科技公司愈多网络与个人身份干系的消费者数据来演习它们的AI算法。某些小数据方法能够减少网络个人数据的行为,人工天生新数据(如合成数据天生)或利用仿照演习算法的方法,一个不依赖于个人天生的数据,另一个则具有合成数据去除敏感的个人身份属性的能力。虽然不能将所有隐私担忧都办理,但通过减少网络大规模真实数据的须要,让利用机器学习变得更大略,从而让人们对大规模网络、利用或表露消费者数据不再担忧。
3)促进数据匮乏领域的发展可用数据的爆炸式增长推动了人工智能的新发展。但对付许多亟待办理的问题,可以输入人工智能系统的数据却很少或者根本不存在。比如,为没有电子康健记录的人构建预测疾病风险的算法,或者预测活火山溘然喷发的可能性。小数据方法以供应原则性的办法来处理数据缺失落或匮乏。它可以利用标记数据和未标记数据,从干系问题迁移知识。小数据也可以用少量数据点创建更多数据点,凭借关联领域的先验知识,或通过构建仿照或编码构造假设去开始新领域的冒险。
4)避免脏数据问题小数据方法能让对“脏数据”烦不胜烦的大型机构受益。数据是一贯存在的,但想要它干净、构造整洁且便于剖析就还有很长的路要走。比如由于伶仃的数据根本举动步伐和遗留系统,美国国防部拥有不可计数的“脏数据”,须要耗费大量人力物力进行数据清理、标记和整理才能够“净化”它们。小数据方法中数据标记法可以通过自动天生标签更轻松地处理大量未标记的数据。迁移学习、贝叶斯方法或人工数据方法可以通过减少须要清理的数据量,分别依据干系数据集、构造化模型和合成数据来显著降落脏数据问题的规模。
对付从事人工智能事情的决策者而言,清楚地理解数据在人工智能发展中所扮演的角色和无法胜任的事情都至关主要。上述成分不适用于所有方法。例如,强化学习一样平常须要大量数据,但这些数据是在演习过程中天生的(例如,当AI系统移动机器人手臂或在虚拟环境中导航时),并不是预先网络的。
研究进展
在研究量方面,过去十年中五种“小数据”方法的曲线变革有着非同平凡的轨迹。如图2所示,强化学习和贝叶斯方法是论文数量最大的两个种别。贝叶斯集群论文量在过去十年间稳步增长,强化学习干系集群的论文量从2015年才开始有所增长,2017~2019年期间的增长尤为迅速。由于深度强化学习一贯处于瓶颈期,直到2015年经历了技能性变革。比较之下,过去十年间,每年以集议论势揭橥的人工数据天生和数据标记研究论文数量一贯是百里挑一。末了,迁移学习类的论文在2010年时的数量比较少,但到2020年已实现大幅增长。
出版物的绝对数量并不能代表论文的质量。因此,研究职员利用两个指标来衡量每个种别集群中论文的质量:H指数和年限校正引用。H指数是常用的度量标准,表示论文的出版活动和总引用次数。H指数存在一个局限性是,没有考虑到论文出版时限(即较早的论文能够有更多的韶光积累引用量的事实)。H指数低估了那些最有影响力且尚未网络引文的新揭橥论文集群。为调度上述问题,图3还描述了经年限校正的引文。仅就H指数而言,强化学习和贝叶斯方法大致相称,但考虑到论文的时限,强化学习脱颖而出。就五种“小数据”方法而论,贝叶斯方法的累积影响彷佛更高,强化学习因其相对近期论文产量和引用影响的激增而一骑绝尘。
但如果认定强化学习是过去十年中增长最快的,那就大错特错了。更仔细地不雅观察每个种别随韶光变革的增长情形,图4清楚地表明,2011年至2020年间,迁移学习的增长最为稳定(个中有两年除外),其他所熟年份的增长都是最快的。该图表还显示了人工数据天生在过去五年中实现的增长,这在图3中不太明显,由于这一类别的论文总数很少。然而,2012年至2015年间,增长数据也涌现了最大幅度的低落,这使得人们很难根据类别的增长轨迹得出详细结论。
图5是利用CSET 开拓的预测模型,对每类三年增长预期以另一类“Al综述”论文作为基准进行比较。如图所示,迁移学习是唯一被预测比整体Al研究增长更快的种别,远远超过其他所有种别,与前几年的持续增长态势保持同等。
国家竞争力
通过查看环球前10个国家在每种方法中取得的研究进展,可以推导出小数据方法的国家竞争力。以大略的衡量指标,如揭橥论文数量和按年限调度的引用次数,初步理解各国在五种“小数据”方法的相应地位。
与AI研究的总体结果同等,中国和美国是研究“小数据”集群论文量前两位,紧随其后的是英国。中国在数据标记和迁移学习方法领域的学术出版物总数遥遥领先,而美国在贝叶斯方法、强化学习和人工数据天生方面较有上风。除美国和中国外,其他小数据研究排名前10位的国家都是美国的盟友或互助伙伴,俄罗斯等国明显缺席榜单。当前学术界常用论文引用量经衡量研究质量和影响。中国在所有小数据种别中的按年限调度引用量排名第二,在贝叶斯方法中的排名降至第七。
图6显示的是按国家细分的三年增长预测情形。相对付美国和天下其他地区,中国在迁移学习方法方面的增长估量会大幅提升。这一测如果准确,意味着中国会在迁移学习方面发展得更快更远。
资金筹集
研究职员剖析了可用于小数据方法的帮助数据,以确定研究集群中帮助论文实体类型的估量。对付上述调研结果,只有大约20%~30%的论文的帮助信息。
在各个领域中,在政府、公司、学术界和非营利组织中,政府一样平常是研究的主要帮助者。在环球范围内,政府帮助在“小数据”方法集群中所占的比例远高于人工智能全体领域。如图7所示,在所有5大种别中,与AI研究整体的经费分解比较,政府帮助的份额非常高。非营利组织在用于小数据研究的资金中所占的比例比常日用于人工智能的别的部分要小。贝叶斯方法的帮助模式与AI总体上最为相似。
图8进一步按国家/地区细分了与政府干系的资金信息。研究结果表明,政府在小数据中投入资金所占比例总体呈上升趋势,但整体来看,美国政府对小数据研究的资金份额低于其在人工智能方面的份额。个体机构、企业方向于为美国的小数据研究供应比全体Al研究更大的份额。
总结
a)人工智能不即是大数据。
b)对迁移学习的研究进展飞快,在未来迁移学习会更有效地被更广泛运用。
c)美国和中国在小数据方法方面的竞争非常激烈。美国在强化学习和贝叶斯方法这两个种别中处于上风,而中国在增长最快的迁移学习种别中一马当先,并且将差距在逐渐加大。
d)目前相对付全体人工智能领域的投资模式而言,美国在小数据方法上的投资份额更小,因此迁移学习可能是美国政府加大资金投入的前景目标。
本文系作者个人观点,不代表本站立场,转载请注明出处!