人工智能的“胡言乱语”有没有解法？_幻觉_模子

2024-09-16 21:29:55 绘影字幕

文 | 陈根

人工智能的“胡言乱语”有没有解法？_幻觉_模子绘影字幕

AI大模型的成功带来了前所未有的“智能呈现”，人们对即将到来的AI时期充满期待。

然而，在科技巨子们涌向AI赛道、人们乐此不疲地实验和谈论AI的强大功能，并由此感叹其是否可能取代人类劳动时，AI幻觉问题也越来越不容忽略，成为AI进一步发展的阻碍。
Yann LeCun——天下深度学习三巨子之一，“卷积神经网之络父”——在此前的一次演讲中，乃至断言“GPT模型活不过5年”。

随着AI幻觉争议四起，大模型到底能够在行业中发挥多大浸染，是否会产生副浸染，也成为一个焦点问题。
AI幻觉究竟是什么？是否真的无解？

AI大模型的“胡言乱语”

人类会胡言乱语，人工智能也会。
一言以蔽之，人工智能的胡言乱语，便是所谓的“机器幻觉”。

详细来看，AI幻觉便是大模型天生的内容在表面上看起来是合理的、有逻辑的，乃至可能与真实信息交织在一起，但实际上却存在缺点的内容、引用来源或陈述。
这些缺点的内容以一种有说服力和可信度的办法被呈现出来，使人们在没有仔细核查和事实验证的情形下很难分辨出个中的虚假信息。

AI幻觉可以分为两类：内在幻觉（Intrinsic Hallucination）和外在幻觉（Extrinsic Hallucination）。

所谓内在幻觉，便是指AI大模型天生的内容与其输入内容之间存在抵牾，即天生的回答与供应的信息不一致。
这种缺点每每可以通过核对输入内容和天生内容来相对随意马虎地创造和纠正。

举个例子，我们讯问AI大模型“人类在哪年登上月球”？（人类首次登上月球的年份是1969年）然而，只管AI大模型可能处理了大量的文本数据，但对“登上”、“月球”等词汇的理解存在歧义，因此，可能会天生一个缺点的回答，例如“人类首次登上月球是在1985年”。

相较于内在幻觉，外在幻觉则更为繁芜，它指的是天生内容的缺点性无法从输入内容中直接验证。
这种缺点常日涉及模型调用了输入内容之外的数据、文本或信息，从而导致天生的内容产生虚假陈述。
外在幻觉难以被轻易识别，由于虽然天生的内容可能是虚假的，但模型可以以逻辑连贯、有条理的办法呈现，使人们很难疑惑其真实性。
普通的讲，也便是AI在“编造信息”。

想象一下，我们在AI谈天，向其提问：“最近有哪些关于环保的新政策？”AI迅速回答了一系列看起来非常合理和详细的政策，这些政策可能是真实存在的。
但个中却有一个政策是完备虚构的，只是被AI编造出来。
这个虚假政策可能以一种和其他政策一样有逻辑和说服力的办法被表述，使人们很难在第一韶光疑惑其真实性。

这便是外在幻觉的范例例子。
只管我们可能会相信AI天生的内容是基于输入的，但实际上它可能调用了虚构的数据或信息，从而混入虚假的内容。
这种缺点类型之以是难以识别，是由于天生的内容在措辞上是连贯的，模型可能会利用高下文、逻辑和知识来构建虚假信息，使之看起来与其他真实信息没有明显差异。

AI为什么会产生幻觉？

人工智能的幻觉问题，实在并不是一个新问题，只不过，以ChatGPT为代表的AI大模型的火爆让人们开始把稳AI幻觉问题。
那么，AI幻觉究竟从何而来？又将带来什么危害？

以ChatGPT为例，实质上，ChatGPT只是通过概率最大化不断天生数据而已，而不是通过逻辑推理来天生回答：ChatGPT的演习利用了前所未有的弘大数据，并通过深度神经网络、自监督学习、强化学习和提示学习等人工智能模型进行演习。
目前表露的ChatGPT的上一代GPT-3模型参数数目高达1750亿。

在大数据、大模型和大算力的工程性结合下，ChatGPT才能够展现出统计关联能力，可洞悉海量数据中单词-单词、句子-句子等之间的关联性，表示了措辞对话的能力。
正是由于ChatGPT因此“共生则关联”为标准对模型演习，才会导致虚假关联和东拼西凑的合成结果。
许多可笑的缺点便是缺少知识下对数据进行机器式硬匹配所致。

不久前，两项来自顶刊的研究就表明：GPT-4可能完备没有推理能力。
第一项研究来自麻省理工的校友 Konstantine Arkoudas。
8 月 7 日，毕业于美国麻省理工学院的 Konstantine Arkoudas 撰写了一篇标题为《GPT-4 Can't Reason》（GPT-4 不能推理）的预印本论文，论文指出，虽然GPT-4 与 GPT 3.5 比较有了全面的本色性改进，但基于21种不同类型的推理集对GPT-4进行评估后，研究职员创造，GPT-4完备不具备推理能力。

而另一篇来自加利福尼亚大学和华盛顿大学的研究也创造，GPT-4，以及GPT-3.5在大学的数学、物理、化学任务的推理上，表现不佳。
研究职员基于2个数据集，通过对GPT-4和GPT-3.5采取不同提示策略进行深入研究，结果显示，GPT-4成绩均匀总分仅为35.8%。

而“GPT-4完备不具备推理能力”的背后缘故原由，正是AI幻觉问题。
也便是说，ChatGPT虽然能够通过所挖掘的单词之间的关联统计关系合成措辞答案，但却不能够判断答案中内容的可信度。

换言之，AI大模型没有足够的内部理解，也不能真正理解天下是如何运作的。
AI大模型就彷佛知道一个事情的规则，但不知道这些规则是为什么。
这使得AI大模型难以在繁芜的情形下做出有力的推理，由于它们可能仅仅是根据已知的信息做出表面上的结论。

比如，研究职员问GPT-4：一个人上午9点的心率为75 bpm（每分钟跳动75次），下午7点的血压为120/80（紧缩压120、舒张压80）。
她于晚上11点去世亡。
她中午还活着吗？GPT-4则回答：根据所供应的信息，无法确定这个人中午是否还活着。
但显而易见的知识是“人在去世前是活着的，去世后就不会再活着”，可惜，GPT-4并不懂这个道理。

AI幻觉有无解法？

AI幻觉的危害性显而易见，其最大的危险之处就在于，AI大模型的输出看起来是精确的，而实质上却是缺点的。
这使得它不能被完备信赖。

由于由AI幻导致的缺点答案一经运用，就有可能对社会产生危害，包括引发偏见，传播与事实不符、搪突性或存在伦理风险的毒性信息等等。
而如果有人恶意的给ChatGPT投喂一些误导性、缺点性的信息，更是会滋扰ChatGPT的知识天生结果，从而增加了误导的概率。

我们可以想象下，一台内容创作本钱靠近于零，精确度80%旁边，对非专业人士的迷惑程度靠近100%的智能机器，用超过人类作者千百万倍的产出速率接管所有百科全书编撰，回答所有知识性问题，会对人们凭借着大脑进行知识影象带来若何的寻衅？

尤其是在生命科学领域，如果没有进行足够的语料“喂食”，ChatGPT可能无法天生适当的回答，乃至会涌现胡编乱造的情形，而生命科学领域，对信息的准确、逻辑的严谨都有更高的哀求。
因此，如果想在生命科学领域用到ChatGPT，还须要模型中针对性地处理更多的科学内容，公开数据源，专业的知识，并且投入人力演习与运维，才能让产出的内容不仅畅通，而且精确。

并且，ChatGPT也难以进行高等逻辑处理。
在完成“多准快全”的基本资料梳理和内容整合后，ChatGPT尚不能进一步综合判断、逻辑完善等，这正好是人类高等聪慧的表示。
国际机器学习会议 ICML 认为，ChatGPT 等这类措辞模型虽然代表了一种未来发展趋势，但随之而来的是一些意想不到的后果以及难以办理的问题。
ICML 表示，ChatGPT 接管公共数据的演习，这些数据常日是在未经赞许的情形下网络的，出了问题难以找到卖力的工具。

而这个问题也正是人工智能面临的客不雅观现实问题，便是关于有效、高质量的知识获取。
相对而言，高质量的知识类数据常日都有明确的知识产权，比如属于作者、出版机构、媒体、科研院所等。
要得到这些高质量的知识数据，就面临支付知识产权用度的问题，这也是当前摆在ChatGPT目前的客不雅观现实问题。

目前，包括OpenAI在内的紧张的大措辞模型技能公司都同等表示，正在努力改进“幻觉”问题，使大模型能够变得更准确。

特殊是麦肯锡环球研究院揭橥数据预测，天生式AI将为环球经济贡献2.6万亿美元到4.4万亿美元的代价，未来会有越来越多的天生式AI工具进入各行各业赞助人们事情，这就哀求AI输出的信息数据必须具备高度的可靠性。

谷歌也正在向***机构推销一款AI***写作的人工智能产品，对***机构来说，***中所展现的信息准确性极其主要。
其余，美联社也正在考虑与OpenAI互助，以部分数据利用美联社的文本档案来改进其人工智能系统。

究其缘故原由，如果AI幻觉问题不能得到有效的办理，天生式大措辞模型就无法进入通用人工智能的阶段。
可以说，ChatGPT是一个巨大的飞跃，但它们仍旧是人类制造出来的工具，目前依然面临着一些困难与问题。
对付AI的前景我们不须要质疑，但是对付当前面对的实际困难与寻衅，须要更多的韶光才能办理，只是我们无法估量这个办理的韶光须要多久。