该研究显示,原始内容会在AI数代内变成不干系的胡言乱语,显示出利用可靠数据演习AI模型的主要性。

用AI数据演习AI效果若何?国际最新研究称可能最终导致崩溃_模子_数据 绘影字幕

天生式AI工具越来越受欢迎,如大措辞模型等,这类工具紧张用人类天生的输入进行演习。
不过,随着这些AI模型在互联网不断壮大,打算机天生内容可能会以递归循环的形式被用于演习其他AI模型或其自身。

论文第一作者兼共同通讯作者、英国牛津大学Ilia Shumailov和同事及互助者一起,用数学模型演示了AI模型可能会如何涌现模型崩溃。
他们证明了一个AI可能会忽略演习数据中的某些输出(如不太常见的文本),导致其只用一部分数据集来自我演习。

随后,论文作者还研究了AI模型会如何应对紧张用人工智能天生的演习数据集。
他们创造,给模型输入AI天生的数据会减弱今后几代模型的学习能力,终极导致模型崩溃。
他们测试的险些所有递归演习措辞模型都随意马虎涌现重复短语。
比如,一个用中世纪建筑文本作为原始输入的测试到第九代的输出已经是一串野兔的名字。

论文作者指出,为了让人工智能成功利用其自身输出进行演习,本次研究认为用AI天生数据演习一个模型并非不可能,但必须对数据进行严格过滤。
与此同时,依赖人类天生内容的科技公司或许能比竞争对手演习出更高效的AI模型。
(完)