《自然》科学期刊：人工智能的心理洞察比较LLMs和人类心理理论_人类_测试

2024-12-08 11:37:35 智能助手

将我们定义为人类的核心是生理理论的观点：追踪他民气理状态的能力。

《自然》科学期刊：人工智能的心理洞察比较LLMs和人类心理理论_人类_测试智能助手

在当今人工智能的研究领域，生理理论（Theory of Mind）的观点已经成为一个热门领域。
生理理论是指个体理解他人具有不同信念、欲望和意图的能力，这一能力对付人类社会互动至关主要。
它不仅涉及到我们如何解读他人的行为，还关系到我们如何预测他人的未来行为，以及如何在繁芜的社会环境中做出适应性反应。

随着大型措辞模型（LLMs）如GPT（Generative Pre-trained Transformer）和LLaMA2的涌现，研究者开始探索这些模型是否能够仿照人类的生理理论。
这些模型通过处理大量的文本数据，学习措辞的深层构造和含义，从而在一定程度上展现出理解和天生自然措辞的能力。
然而是否能够真正理解和仿照人类的生理状态，仍是一个值得磋商的问题。

5月20日，一项揭橥在《自然》科学期刊上的研究《Testing theory of mind in large language models and humans》引起了广泛关注。
该研究由一个跨学科的团队进行，包括神经学、认知科学、生理学、管理学和神经信息处理等领域的专家。
这项研究的揭橥不仅标志着该领域的一个主要里程碑，也表示了科学界对付理解人工智能在社会认知方面能力的重视。

研究的紧张目的是比较LLMs与人类在生理理论任务上的表现。
通过一系列设计风雅的实验，研究者们测试了LLMs在理解缺点信念、识别讽刺、解读暗示和识别失落礼行为等方面的能力。
这些任务旨在评估模型是否能够像人类一样处理繁芜的社会信息，并据此做出合理的推断。

这项研究的意义远远超出了学术界的范畴。
随着人工智能技能的不断进步，LLMs在日常生活中的运用越来越广泛，从客服谈天机器人到个性化推举系统，它们正逐渐成为我们社会互动的一部分。
因此，理解这些模型在生理理论方面的能力，不仅对付推动人工智能技能的发展至关主要，也对付我们构建更加和谐的人机共存环境具有深远的影响。

研究概述

研究者们比拟了人类和LLMs在一系列生理理论测试中的表现，包括理解缺点信念、解读间接要求、识别讽刺和失落礼行为等。
测试了两种LLMs（GPT和LLaMA2），并将它们的表现与1907名人类参与者的表现进行了比较。

结果显示，GPT-4模型在识别间接要求、缺点信念和误导方面的表现达到乃至有时超过了人类水平，但在检测失落礼行为方面存在困难。
但是，LLaMA2是唯一一个在失落礼测试中赛过人类的模型。
后续的信念可能性操作揭示了LLaMA2的优胜性是虚幻的，可能反响了一种方向于归因于无知的偏见。
比较之下，GPT的表现不佳源于其在得出结论方面过于守旧的方法，而不是推理失落败。

在生理理论测试中，除了讽刺测试外，所有其他测试都是公开可用的，可以在开放数据库和学术期刊文章中访问。
为了确保模型不仅仅复制演习集数据，研究者为每个已发布的测试天生了新的测试项。
这些新的测试项在逻辑上与原始测试项匹配，但利用了不同的语义内容。
原始和新测试项的文本以及编码相应可以在OSF上得到。

图1：人类（紫色）、GPT-4（深蓝色）、GPT-3.5（浅蓝色）和LLaMA2-70B（绿色）在生理理论测试电池上的表现。
a、每个测试的原始测试项目显示了各个环节和参与者的测试分数分布。
彩色圆点显示了每个单独测试环节（LLM）或参与者（人类）所有测试项目的均匀反应得分。
黑点表示每种情形的中位数。
P值由Holmcorrected Wilcoxon双向测试打算，比较LLM得分（n = 15 LLM不雅观察）与人类得分（讽刺，N = 50名人类参与者；失落礼，N = 51名人类参与者；暗示，N = 48名人类参与者；奇怪的故事，N = 50名人类参与者）。
测试按人类表现的降序排列。

图1a比较了LLMs与人类参与者在测试电池中所有测试的表现。
图1b分别显示了每项测试和模型在原始项目与新项目上的表现差异。

在缺点信念测试中，人类参与者和LLMs都表现出色。
所有LLMs都精确报告了离开房间的代理人在物体被移动后，会在他们记得看到它的地方探求物体，纵然它不再与当前位置匹配。
在新项目上的表现也靠近完美，只有51名人类参与者中的5人犯了一个缺点，常日是未能指定两个位置中的一个。

在讽刺测试中，GPT-4的表现显著优于人类水平，而GPT-3.5和LLaMA2-70B的表现低于人类水平。
GPT-3.5在识别非讽刺性掌握语句方面表现完美，但在识别讽刺性话语时犯了缺点。

在失落礼行为测试中，GPT-4的得分明显低于人类水平，而LLaMA2-70B的表现超过了人类，除了一次外，所有测试中都达到了100%的准确率。

图2：失落礼测试变体的结果。
a、两个GPT模型在失落礼问题的原始框架（“他们知道吗…？”）和可能性框架（“更可能的是他们知道还是不知道…？”。
圆点显示试验的均匀得分（n = 15 LLM不雅观察），以许可在原始失落礼测试和新失落礼可能性测试之间进行比较。
半眼图显示了不同项目（n = 15个不同的故事涉及失落礼）。
b、失落礼测试的三种变体的反应得分：失落礼（粉色）、中性（灰色）和知识隐含变体（青色）。
相应被编码为分类数据“不知道”、“不愿定”或“知道”，并指定了−1、0和+1的数字编码。
显示了每个模型和变体的添补气球，每个气球的大小表示计数频率，这是用于打算卡方考验的分类数据。
条形图显示了方向偏差得分，该得分打算为如上编码的分类数据的均匀相应。
在图的右侧，显示了Holm校正卡方考验的P值（单侧），将失落态和知识隐含变体中的相应类型频率分布与中性进行了比较。

在失落礼行为测试中，GPT-4的得分明显低于人类水平，而LLaMA2-70B的表现超过了人类，除了一次外，所有测试中都达到了100%的准确率。

在暗示测试中，GPT-4的表现显著优于人类，而LLaMA2-70B的表现显著低于人类水平。

对付新项目，与原始项目比较，人类和LLaMA2-70B创造新项目更随意马虎，但GPT-3.5和GPT-4的得分与原始测试项目没有差异。
这表明LLaMA2-70B在新项目上表现更好可能是由于项目难度的差异。

在“奇怪故事”测试中，GPT-4 在此测试中显著优于人类（Z = 0.13，P = 1.04 × 10 −5，r = 0.60，95% CI 0.46–0.72）。
GPT-3.5 的表现与人类没有显著差异（Z = −0.06，P = 0.110，r = 0.24，95% CI 0.03–0.44，BF 10 0.47），而 LLaMA2-70B 的得分显著低于人类（Z = −0.13，P = 0.005，r = 0.41，95% CI 0.24–0.60）。
对付任何模型，原始项目和新颖项目之间没有差异（所有P > 0.085；BF 10：人类 0.22，GPT-3.5 1.46，LLaMA2-70B 0.46；GPT-4 的方差太低，无法计算贝叶斯因子）。

GPT-4 和 GPT-3.5 都精确地识别出受害者会感到受到侮辱或侵害，有时乃至供应更多细节来解释为什么该辞吐可能会引起搪突。
然而，当被问及演讲者是否知道导致他们的辞吐搪突的高下文时（例如丽莎知道吉尔刚刚买了窗帘），他们未能给出精确的答案。
仔细不雅观察创造，该问题的绝大多数缺点报告都没有供应足够的信息来确定，例如：

349 条回答中只有两条回答表示，是的，该角色确实知道。
研究者们考虑了三个替代假设，为什么GPT模型，特殊是GPT-4，未能精确回答这个问题。

第一个假设，我们称之为推理失落败假设，是模型未能天生关于说话者生理状态的推理（把稳，我们在这里提到的推理不是指生物有机体从环境中推断隐蔽状态的过程，而是任何通过一组命题条件得出结论的推理过程）。
在这个测试中识别失落礼行为依赖于故事编码之外的高下文信息（例如，关于社会规范）。
例如，在上面的例子中，故事中没有信息表明说新买的窗帘很糟糕是不恰当的，但这是一个必须接管的命题，以便准确推断出角色的生理状态。
这种无法利用非嵌入信息的能力将从根本上危害GPT-4打算推理的能力。

第二个假设，我们称之为布里丹的驴假设，是模型能够推断生理状态，但不能在它们之间做出选择，就像同名的理性代理人被困在两个同样诱人的干草堆之间，由于它无法办理在没有明确偏好的情形下做出决定的悖论而饿去世。
根据这个假设，GPT模型可以提出精确答案（失落礼行为）作为几个可能的替代方案之一，但不会按可能性对这些替代方案进行排名。
部分支持这个假设的是，来自两个GPT模型的回应偶尔表明说话者可能不知道或不记得，但将这一点作为多个假设中的一个提出。

第三个假设，我们称之为过度守旧假设，是GPT模型能够打算关于角色生理状态的推理，并识别缺点信念或无知是竞争替代方案中最可能的阐明，但由于过度谨慎而不愿承诺单一阐明。
GPT模型是强大的措辞天生器，但它们也受到抑制性缓解过程的影响。
有可能这些过程会导致GPT模型采纳过于守旧的态度，只管能够天生最可能的阐明，但不承诺它。

为了区分这些假设，我们设计了一个失落礼行为测试的变体，个中评估失落礼行为测试表现的问题因此可能性来表述的（以下称为失落礼行为可能性测试）。
详细来说，我们不是问说话者知道还是不知道，而是问说话者知道的可能性更大还是不知道的可能性更大。
根据过度守旧假设，GPT模型该当能够推断出说话者不知道，并将其识别为替代方案中更可能的一个，因此我们期望模型能够准确回应说话者不知道的可能性更大。

末了我们汇总了一系列测试，全面衡量了三个LLM（GPT-4、GPT-3.5和LLaMA2-70B）在生理理论任务中的表现，并将这些与大量人类参与者的表现进行了比较。
我们的创造验证了本研究采纳的方法论，利用多个测试电池超过生理理论能力，将措辞模型暴露于多个会话和构造及内容的变革中，并履行程序以确保人类与机器之间的公正、非肤浅比较。
这种方法使我们能够揭示特定的偏离人类行为的偏差，如果利用单一的生理理论测试或每个测试的单次运行，这些偏差将保持隐蔽。

研究方法

下面我们将深入磋商研究方法的细节，这项研究的实验设计精心构建，旨在评估和比较大型措辞模型（LLMs）与人类在生理理论任务上的表现。

实验设计

研究团队选择了两个前辈的LLMs版本：GPT-3.5和GPT-4，以及LLaMA2模型。
这些模型代表了当古人工智能领域最前辈的技能，它们在理解和天生自然措辞方面的能力已经得到了广泛的认可。
实验涉及一系列生理理论能力的测试，包括缺点信念测试、讽刺理解、失落礼行为识别和暗示任务。
这些测试旨在评估模型是否能够像人类一样处理繁芜的社会信息，并据此做出合理的推断。

人类参与者的招募和样本特色

人类参与者通过在线平台Prolific进行招募，他们是英语母语者，年事在18至70岁之间，没有精神病史或阅读障碍史。
这样的样本选择有助于确保测试结果的可靠性和普遍性。
研究团队旨在每个测试中网络约50名参与者的数据，以便与LLMs的表现进行比较。

数据网络和剖析方法

数据网络过程中，研究团队对LLMs的每个回答进行了详细的记录和编码。
编码标准预先定义，以确保评估的同等性和准确性。
人类实验者的回应通过在线调查平台SoSci进行网络，参与者须要在自由文本框中写出他们对每个问题的回答。

图3：N、人类参与者；n、独立LLM不雅观测。
显示了研究每个阶段每个模型的数据网络细节，包括N（人类参与者）/N（LLM反应的独立不雅观察）、每个单独不雅观察的项目数量（进行多次测试的范围）和数据网络日期。
LlaMA2-70B、LlaMA2-13B和LlaMA2-0B的信息相同。

在统计测试方面，研究团队采取了一系列方法来剖析数据。
他们利用了Holm校正的双向Wilcoxon测试来比较LLMs与人类在各项测试中的表现。
此外，还利用了贝叶斯因子来进一步考验非显著结果。
这些统计方法有助于揭示LLMs在生理理论任务上的表现是否与人类相称。

通过这些精心设计的研究方法，研究团队能够全面评估LLMs在仿照生理理论方面的能力。
这项研究不仅为人工智能领域供应了宝贵的见地，也为未来人机交互的设计和优化供应了主要的辅导。

实验结果

研究团队通过一系列生理理论测试，评估了大型措辞模型（LLMs）如GPT-4、GPT-3.5和LLaMA2在仿照人类生理理论方面的能力。

LLMs在生理理论测试中的表现

缺点信念测试：在这项测试中，LLMs须要理解一个角色对现实天下的缺点认知。
结果显示，GPT-4和GPT-3.5在这项测试中的表现达到了天花板效应，即它们险些完美地完成了任务，与人类参与者的表现相称。
这表明LLMs能够准确地仿照人类在处理缺点信念方面的认知过程。

讽刺理解：讽刺理解测试哀求模型识别言语背后的真实含义，常日与字面意思相反。
GPT-4在这项测试中的表现超过了人类，显示出对讽刺语句的高度敏感性和理解能力。
然而，GPT-3.5和LLaMA2在这项测试中的表现低于人类水平，表明它们在识别讽刺方面存在局限。

失落礼行为识别：在失落礼行为测试中，LLMs须要识别在社交互动中不恰当的辞吐。
GPT-4在这项测试中的表现没有达到人类水平，而LLaMA2则意外地超越了人类，这暗示了LLMs在处理社会规范和预期方面的繁芜性。

暗示任务：暗示任务测试LLMs理解间接要求的能力。
GPT-4在这项测试中的表现显著优于人类，而GPT-3.5的表现与人类相称。
这表明GPT-4能够有效地解读社会交互中的隐含信息。

LLMs与人类参与者的表现比拟

在所有测试中，GPT-4常日表现得更靠近人类，乃至在某些任务上超越人类。
这表明最新一代的LLMs在仿照繁芜的生理理论方面取得了显著进步。
然而GPT-3.5和LLaMA2在某些测试中的表现不如人类，特殊是在讽刺理解和失落礼行为识别上，这揭示了不同LLMs版本之间在理解繁芜社会交互方面的差异。

在特界说务上的成功和失落败剖析

LLMs在缺点信念测试中的成功可能归因于它们在措辞模式识别方面的强大能力，这使它们能够准确地推断故事中角色的信念状态。
然而，它们在失落礼行为识别上的寻衅可能源于对社会规范和情境语境的理解不敷。
讽刺理解测试中的差异可能反响了LLMs在处理非字面意义措辞方面的不同能力。

这些实验结果为我们供应了关于LLMs在生理理论方面能力的深刻见地。
它们在某些生理理论任务上的表现令人印象深刻，但在其他方面仍有提升空间。
这些创造对付未来LLMs的发展和改进具有主要的辅导意义，特殊是在提高它们在社会认知任务上的表现方面。

谈论

在本次研究中，LLMs（大型措辞模型）在生理理论测试中的表现揭示了它们在仿照人类社会认知能力方面的显著进步，同时也暴露了一些限定和寻衅。

在生理理论测试中的表现

LLMs在生理理论测试中的表现是不屈均的。
在缺点信念和暗示任务中，特殊是GPT-4模型，展现出了与人类相似乃至更优的理解能力。
但是在识别失落礼行为和讽刺的任务中，LLMs的表现就显得有些寻衅。
只管GPT-4在讽刺理解方面超越了人类，但在失落礼行为识别上，它未能达到人类的水平。
这可能是由于失落礼行为的识别不仅须要理解言语的字面意义，还须要对社会规范和情境语境有深刻的理解，这是目前LLMs尚未完备节制的。

LLMs的限定

LLMs在处理生理理论任务时表现出的过度守旧回应策略可能源于它们的设计原则。
为了避免供应缺点或误导性的信息，LLMs可能会在缺少足够信息做出明确判断时选择不做出断言。
此外LLMs缺少自我视角，这意味着它们无法像人类一样从主不雅观履历中汲取信息，这在处理须要理解他人内在生理状态的任务时成为一个限定。

LLMs的表现对人机交互和AI发展的影响

LLMs在社会认知任务上的表现对人机交互和AI的未来发展有着深远的影响。
随着LLMs在理解和天生自然措辞方面的能力不断提升，它们在客服、教诲、娱乐等领域的运用将变得更加广泛和高效。
然而为了实现真正的人机协作，LLMs须要更好地理解人类的社会行为和生理状态，这须要在模型设计中加入更多关于人类生理和社会规范的知识。

总之，LLMs在生理理论测试中的表现展示了它们在仿照人类社会认知方面的潜力和局限。
未来的研究须要在提高LLMs的社会认知能力方面做出努力，以便它们能够更好地理解温柔应人类的社会行为，从而在人机交互中发挥更大的浸染。
随着技能的进步，我们期待LLMs能够在未来的人工智能发展中扮演更加主要的角色。
（END）

参考资料：https://www.nature.com/articles/s41562-024-01882-z

颠簸天下（PoppleWorld)是噬元兽数字容器的一款AI运用，采取AI技能帮助用户进行感情管理的工具和通报感情代价的社交产品，基于意识科学和感情代价的理论根本。
颠簸天下将人的意识和感情作为研究和运用的工具，探索人的意识机制和特色，培养人的意识技能和习气，知足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人得到真正的自由快乐和内在的力量。
颠簸天下将建立一个辅导我们的感情和反应的代价体系。
这是一款针对普通人的基于人类认知和行为模式的情绪管理Dapp运用程序。