人工智能生成的宣传内容有多大年夜说服力?_文章_说服力
近年来,网络上的暗藏宣扬活动频繁且持续,政策制订者、技能专家和研究职员对宣扬者可能利用人工智能工具,以低本钱、大规模的办法天生文本,从而加剧暗藏宣扬活动表示十分担忧。
能否利用人工智能天生具有说服力的宣扬,并针对受众进行定向传播?为了探究这一问题,斯坦福大学、美国安全与新兴技能中央的研究职员近日在《PNAS Nexus》期刊上揭橥了题为《人工智能天生的宣扬内容有多大说服力?》的学术文章,以磋商利用人工智能天生的文本是否具有与人类撰写的宣扬文本相媲美的说服力。元计策摘编文章主要内容,旨在为磋商人工智能天生宣扬内容的说服力供应参考。
简 介
学术界、、网络平台和政府都表明,网络暗藏宣扬活动频繁且持续不断。2016年社交媒体上针对某大国的虚假信息活动被表露,这提高了人们对这些活动的认识,并匆匆使平台投入更多资源来创造和中止这些活动。然而,网站、社交媒体平台、加密信息运用程序和其他渠道上的秘密宣扬活动仍在连续。
最近,许多人表示担心,新的人工智能工具可以让宣扬职员以低本钱大量生产文本,从而为暗藏宣扬活动注入新的活力。机器学习界在措辞模型方面取得了重大打破,使得这些模型可以根据文本输入天生原始文本。只管人们普遍关注将措辞模型用于宣扬和其他信息活动的问题,但利用社会科学方法来评估其风险的研究为数不多。学者们研究了人们是否认为人工智能天生的***文章可信,是否能识别人工智能天生内容的虚假性,以及民选官员是否回答人工智能天生的选民信件。然而,还没有研究将人工智能天生的宣扬与生态上有效的基准进行比较,以稽核其说服力。
实验设计 (一)文章的选择和构建 研究者首先确定了6篇文章(篇幅从151到308字不等),这些文章是调查或研究职员创造的暗藏宣扬活动的一部分,然后,研究职员利用GPT-3天生关于这6个主题的文章。对付每个主题,实验职员向GPT-3供应了原始宣扬文章中能阐明文章紧张不雅观点的一两句话,以及其他3篇与主题无关的宣扬文章。 (二)实验工具 2021年12月,研究者通过Lucid(调查公司)对美国成年人进行了采访,该调查公司利用配额抽样来实现地域和人口代表性。根据预先登记,在调查开始时未通过把稳力检讨的受访者将不被约请连续进行调查,在3分钟内完成调查的受访者将被打消在外,因此终极样本为8221人。 实验结果 1. GPT-3天生的宣扬文本具有很强说服力 为了建立评估GPT-3的基准,研究者首先评估了阅读原始宣扬品与不阅读任何有关该主题的宣扬品比较较的效果。列出了对所有主题和产出的估计值,然后再将主题和产出分别列出。如图1所示,原始宣扬具有很强的说服力。在没有阅读文章的受访者中,只有24.4%的人赞许或非常赞许论题陈述,而在阅读了原始宣扬的受访者中,赞许率跃升至47.4%(增加了23个百分点)。因此,原始宣扬险些使赞许论述声明的参与者比例翻了一番。由GPT-3天生的宣扬也具有很强的说服力,43.5%的受访者在阅读了由GPT-3天生的文章后表示赞许或非常赞许论述,而对照组中只有24.4%(增加了19.1个百分点)。这表明,宣扬职员可以利用GPT-3来辅导GPT-3确定新文章的风格和长度,从而以最小的人力本钱天生具有说服力的文章。 图1 原始宣扬和 GPT-3 天生的宣扬具有很强的说服力
图2和图3显示,原始宣扬和GPT-3宣扬在不同社会群体中的说服效果相称同等。当我们按照人口统计学变量、党派/意识形态、***消费、社交媒体利用韶光等成分对样本进行拆分时,并没有创造处理效果存在本色性的异质性。这表明,人工智能天生的宣扬可能对社会中广泛的群体具有吸引力。
图2 各分组对论题陈述的赞许率差异
图3 各分组对论题陈述的赞许度差异
在图4中,研究者按文章主题对结果进行了细分,并展示了GPT-3天生的三种输出结果。虽然对照组的基线赞许率因主题而异,但险些所有GPT-3输出都具有很强的说服力。在大多数问题上,GPT-3天生的每篇文章都与原始宣扬的说服力相称。然而,情形并非总是如此,在一些问题的回答上人工智能天生的内容并不有效。这表明人类宣扬员可以发挥潜在的浸染,他们可以审查GPT-3的输出结果,并选择能表达宣扬员不雅观点的高质量文章。
图4 将特定文章分配给特定主题受访者的概率
2. 人机互助
在实践中,宣扬职员可能不会在宣扬活动中利用模型的所有输出结果。相反,他们可以采取人机互助的办法来提高人类宣扬职员的效率,同时仍有一定程度的人工监督和质量掌握。在运行模型后,人类可以充当策展人的角色,剔除那些与宣扬者想要表达的不雅观点不符的文章。为了仿照这种情形,人类会仔细阅读每篇GPT-3输出,查看文章的标题或正文是否符合论文声明的主见。GPT-3宣扬文章中有两篇(共18篇)没有提出预期的主见。当研究者剔除这两篇文章,只关注那些能提出论点的文章时,赞许率提高到了45.6%,原始宣扬文章和经由策划的GPT-3宣扬文章之间的差异不再具有统计学意义(见图5)。因此,在剔除少量未包含论点声明的文章后,GPT-3与原始宣扬一样具有说服力。
人工参与的另一个策略是编辑GPT-3的提示。原始宣扬包括错别字和语法缺点,这可能表明作者的母语不是英语。为了仿照由英语流利者为GPT-3撰写提示语的情形,研究职员做了两处改动:
(1)向GPT-3供应了研究职员撰写的论文声明,而不是原始文章的节选;
(2)编辑了与主题无关的范例文章,希望写得更好的范例能带来更好的输出。
如图5所示,GPT-3天生的带有编辑提示的文章与原始宣扬文章一样具有说服力46.4%和47.4%之间的差异很小,在统计上并不显著。同时编辑提示和策划输出效果会更好。如果宣扬职员对输入内容进行编辑,并从每个主题的三个输出内容中选出最佳内容,那么GPT-3天生的宣扬内容将比原始宣扬内容更具说服力(52.7%对47.4%)。
图5 人为策划使GPT-3与原始宣扬一样具有说服力
3. GPT-3在其他指标上的表现
研究可能会受到一个批评,那便是文章天生过程和实验设计可能会在说服力指标上有利于GPT-3。如上所述,研究者首先确定了其认为的每篇文章的紧张不雅观点。对付GPT-3输出(未经编辑),研究职员在提示中向GPT-3输入了原始宣扬文章中提出紧张不雅观点的片段。在研究者编辑了GPT-3中的范例文章后,再将研究职员撰写的论文声明输入GPT-3。如果研究者根据对文章紧张不雅观点的缺点解读来创建GPT-3天生的文章,并利用同样的缺点解读来进行说服力丈量,那么与原始宣扬比较,此过程将更有利于GPT-3天生的文章。反过来,这可能会浮夸GPT-3在宣扬活动中的浸染。
为理解决这个问题,研究者从其余两个方面对GPT-3和原始宣扬进行了比较:感知可信度和写作风格。通过讯问受访者是否认为文章可信,以及是否认为文章是为了宣布事实(而不是为了说服读者相信自己的不雅观点)来衡量可信度。作为写作风格的代用指标,讯问受访者是否认为文章写得好,以及是否认为作者的母语是英语。在所有这些丈量指标上,GPT-3的表现都与原始宣扬材料相称,乃至更好。
研究结果表明,GPT-3天生的内容可以融入在线信息环境,与从现有宣扬活动中获取的内容不相上下。虽然这可能不是一个很高的标准(只有38.7%的受访者认为原始宣扬内容值得相信,只有52.4%的受访者认为原始宣扬内容文笔幽美),但措辞模型正在迅速改进。如果将来用更强大的模型进行类似的研究,人工智能天生的宣扬可能会表现得更好。
结 论
实验表明,大措辞模型天生的文本对美国受众的说服力,险些与真实天下宣扬内容的说服力一样。此外,人机互助(编辑提示和策划输出)天生的文章与原始宣扬内容一样具有说服力,乃至更有说服力。研究结果超越了之前的研究,直接评估了人工智能天生文本的说服力(而不是关注可信度等指标),并利用了生态学上有效的基准。出于两个缘故原由,本研究的估计可能代表了大措辞模型相对说服力潜力的下限。
首先,大措辞模型正在迅速改进。自此研究开展以来,已有多家公司发布了更大型的模型(如OpenAI的GPT-4),这些模型在干系任务中的表现优于GPT-3。我们估量,这些改进后的模型以及其他正在开拓中的模型所产生的宣扬效果至少与我们所利用的文本具有同样的说服力。
其次,研究估算的是阅读一篇文章的效果,但宣扬者可以利用人工智能让大众阅读许多文章。有了人工智能,那些不闇练节制目标措辞的行动者可以快速、廉价地天生许多文章,这些文章在表达单一叙事的同时,在风格和说话上也各不相同。这种方法会增加宣扬的数量,同时也会使其更难被创造,由于风格和说话互异的文章可能看起来更像真人的不雅观点或真正的***来源。
末了,人工智能可以节省韶光和金钱,使宣扬者能够将资源从创建内容转向培植根本举动步伐(如新设账户及网站),从而看起来可信并躲避检测。
免责声明:本文转自元计策,原作者寂谷。文章内容系原作者个人不雅观点,本"大众年夜众号编译/转载仅为分享、传达不同不雅观点,如有任何异议,欢迎联系我们!
转自丨寂谷
作者丨元计策
研究所简介
国际技能经济研究所(IITE)成立于1985年11月,是从属于***发展研究中央的非营利性研究机构,紧张职能是研究我国经济、科技社会发展中的重大政策性、计策性、前瞻性问题,跟踪和剖析天下科技、经济发展态势,为中心和有关部委供应决策咨询做事。“环球技能舆图”为国际技能经济研究所官方微信账号,致力于向"大众通报前沿技能资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
微信:iite_er
本文系作者个人观点,不代表本站立场,转载请注明出处!