一名女子正在与商汤科技公司开拓的人工智能机器人下围棋。

人工智能现在在基本责任上击败了人类但需要新的测试基准_人工智能_申报 AI简讯

根据一份新报告,人工智能 (AI) 系统(例如谈天机器人 ChatGPT )已经变得如此前辈,以至于它们现在在阅读理解、图像分类和竞赛级数学等任务中的表现非常靠近或超过人类的表现(拜会“Speedy进步”)。
这些系统开拓的快速进展也意味着许多用于评估它们的通用基准和测试很快就会过期。

这些只是2024 年人工智能指数报告中的一些主要创造,该报告由加利福尼亚州斯坦福大学以人为中央的人工智能研究所于 4 月 15 日发布。
该报告描述了过去十年机器学习系统的飞速进步。

报告特殊指出,评估人工智能的新方法——例如评估其在抽象和推理等繁芜任务上的表现——变得越来越必要。
斯坦福大学社会科学家、人工智能指数主编 Nestor Maslej 表示,“十年前,基准测试将为AI领域做事 5 到 10 年”,而现在它们每每在短短几年内就变得无关紧要。
“增长速率快得惊人。

资料来源:2024 年人工智能指数报告。

斯坦福大学的年度人工智能指数于 2017 岁首年月次发布,由一组学术和行业专家体例,旨在评估该领域的技能能力、本钱、道德等,旨在为研究职员、政策制订者和"大众供应信息。
今年的这份长达400多页、借助人工智能工具进行文案编辑和收紧的报告指出,美国与人工智能干系的监管正在急剧上升。
但由于缺少对人工智能负任务利用的标准化评估,因此很难对系统所带来的风险进行比较。

今年的版本还强调了人工智能在科学中的日益增长的利用:​​它首次用整整一章来谈论科学运用,重点先容了包括用于材料探索的图网络(GNoME)在内的项目,这是一个来自 Google DeepMind 的项目,旨在帮助化学家创造材料,还有 GraphCast,另一个 DeepMind 工具,可以进行快速景象预报。

发展

当前基于神经网络和机器学习算法的人工智能热潮可以追溯到 2010 年代初。
此后,该领域迅速扩大。
例如,共享代码的通用平台GitHub上的AI编码项目数量从2011年的约800个增加到去年的180万个。
报告称,在此期间,有关人工智能的期刊出版物大约增加了两倍。

人工智能的大部分前沿事情都是在工业界完成的:该行业去年产生了 51 个著名的机器学习系统,而学术研究职员贡献了 15 个。
德克萨斯大学奥斯汀分校人工智能实验室主任雷蒙德·穆尼(Raymond Mooney)并未参与该报告,他说道。

这包括开拓更严格的测试来评估为谈天机器人供应动力的大型措辞模型(LLM)的视觉、数学乃至道德推理能力。
最新的测试之一是研究生级 Google-Proof 问答基准 (GPQA) 1,该测试由纽约大学机器学习研究员 David Rein 等团队去年开拓。

GPQA 包含 400 多个多项选择题,难度很大:博士级别的学者能够在 65% 的韶光内精确回答其领域的问题。
这些学者在考试测验回答其领域之外的问题时,只管在测试期间可以访问互联网,但得分仅为 34%(随机选择答案的得分为 25%)。
截至去年,人工智能系统得分约为 30-40%。
Rein 表示,今年,总部位于加利福尼亚州旧金山的人工智能公司 Anthropic 发布的最新谈天机器人 Claude 3 的得分约为 60%。
“进展速率让很多人感到震荡,包括我在内,”雷恩补充道。
“制订一个能够持续几年以上的基准是相称困难的。

业务本钱

随着性能的飞速提升,本钱也在飞速提升。
GPT-4——为 ChatGPT 供应支持的大措辞模型,由总部位于旧金山的 OpenAI 公司于 2023 年 3 月发布——据宣布,演习本钱为 7800 万美元。
谷歌去年 12 月推出的谈天机器人 Gemini Ultra 耗资 1.91 亿美元。
许多人担心这些系统的能源利用,以及冷却帮助运行这些系统的数据中央所需的水量2。
“这些系统令人印象深刻,但效率也非常低,”Maslej 说。

人工智能模型的本钱和能源花费很高,很大程度上是由于使当前系统变得更好的紧张方法之一是使其更大。
这意味着要对他们进行越来越多的文本和图像的演习。
AI Index 指出,一些研究职员现在担心演习数据耗尽。
去年,根据非营利研究机构 Epoch 的报告,我们估量最快今年就会耗尽高质量措辞数据的供应。
(然而,该研究所的最新剖析表明 2028 年是一个更好的估计。

关于人工智能如何构建和利用的道德担忧也在加剧。
“无论是在美国还是在环球范围内,人们对人工智能的紧​​张程度比以往任何时候都要高,”Maslej说道,他看到了国际不合日益扩大的迹象。
“现在有些国家对人工智能非常愉快,而另一些国家则非常悲观。

报告指出,在美国,监管机构的兴趣急剧上升。
2016年,美国只有一项法规提到了人工智能;去年,这一数量为 25 项。
Maslej 表示,“2022 年之后,政策制订者提出的人工智能干系法案数量大幅增加”。

监管行动越来越看重促进负任务的人工智能利用。
Maslej 表示,只管可以对人工智能工具的真实性、偏见乃至喜好程度等指标进行评分的基准不断呈现,但并不是每个人都利用相同的模型,这使得交叉比较变得困难。
“这是一个非常主要的话题,”他说。
“我们须要让社区联络起来办理这个问题。

文章链接:https://doi.org/10.1038/d41586-024-01087-4

参考文献:

Rein, D. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2311.12022 (2023).Li, P., Yang, J., Islam, M. A. & Ren, S. Preprint at arXiv https://doi.org/10.48550/arXiv.2304.03271 (2023).