AI 措辞大年夜模型关键技能 深度讲解 2024_模子_措辞
措辞大模型技能紧张包括模型预演习、适配微调、提示学习、知识增强和工具学习等。
1.1 措辞大模型的预演习
支撑措辞大模型高效演习的技能紧张包括高性能演习工具、高效预演习策略、高质量演习数据、高效的模型架构等。
高效预演习策略。其紧张思路是采取不同的策略以更低本钱实现对措辞大模型的预演习。
第一种是在预演习中设计高效的优化任务目标,使得可以使得模型能够利用每个样本更多的监督信息,从而实现模型演习的加速。
第二种是热启动策略,在演习开始时线性地提高学习率,以办理在预演习中纯挚增加批处理大小可能会导致优化困难问题。
第三种是渐进式演习策略,不同于传统的演习范式利用相同的超参数同时优化模型每一层,该方法认为不同的层可以共享相似的自把稳力模式,首先演习浅层模型,然后复制构建深层模型。
第四种是知识继续方法,即在模型演习中同时学习文本和已经预演习措辞大模型中的知识,以加速模型演习。在中文措辞大模型 CPM-2中,采取知识继续技能经测试可以使大模型在预演习前期提速 37.5%。
第五种是可预测扩展策略(Predictable Scaling),旨在大模型演习初期,利用大模型和小模型的同源性关系,通过拟合系列较小模型的性能曲线预测大模型性能,辅导大模型演习优化。
OpenAI 在 GPT-4 演习中,利用 1000 倍至 10000 倍较少打算资源演习的小模型可靠地预测GPT-4 某些性能,大幅降落了模型演习本钱。
图 2-4 GPT-4 的可预测扩展实验
高效的模型架构。BERT 之后的 Transformer 架构在提高自然措辞处理效率方面有两个主要优化方向:
(1)统一的序列建模:旨在将多种自然措辞处理任务(如分类、信息抽取、翻译、对话等)整合到一个统一的框架,然后在同一模型中实行多个任务,以实现更高效的自然措辞处理。该方法可以充分利用大规模演习数据,从而提高了模型在多个任务上的性能和泛化性。这减少了开拓和掩护多个单独模型的繁芜性以及资源花费,提高模型的通用性。
统一任务序列建模有两种办法:
一是转化为序列天生的统一任务,如 T5和 BART等将多种自然措辞任务统一转化文本到文本的天生任务;
二是转化为措辞大模型预演习任务,通过措辞提示在输入文本中插入人类设计或者自动天生的高下文,实现对不同任务的处理。
(2)打算高效的模型架构:从 Transformer 模型架构本身在处理演习繁芜度、编解码效率、演习稳定性、显存利用等方面进行优化。比如,Transformer 其并行处理机制因此低效推理为代价的,解码时每个步骤的繁芜度为 O(N),Transformer 模型也是显存密集型模型,输入序列越长、占用的内存越多。
为此,微软设计了一种新的 Transformer 架构 RetNet,其采取线性化把稳力+尺度保持(Retention )机制,在基本保持模型性能的根本上同时实现模型演习速率、推断速率和内存节约的大幅提升。
针对自把稳力显存花费大,斯坦福大学在 Transformer 中引入FashAttention,给出了一种具有 IO 感知,且兼具快速、内存高效的把稳力算法,已经被各种主流大模型采取以扩展对超长文本输入的支持。
最近,模块化大模型架构引起广泛关注,其利用大模型的神经激活稀疏性,对稠密模型进行模块化划分,不同任务只经由部分模块计 算 实 现 训 练和推 理 加 速 , 范例工 作 包 括 Google 的 Switch Transformers 和 Pathways架构、清华大学的 MoEfication 架构、FastMoE 架构等。
图 2-5 稠浊专家化的模型架构
1.2 措辞大模型的适配微调
措辞大模型由于在大规模通用领域数据预演习常日缺少对特界说务或领域的知识,因此须要适配微调。微调可以帮助模型更好地适应特定需求,如对敏感数据(如医疗记录)的处理,同时不暴露原始数据。此外,微调可以提高支配效率、减少打算资源需求。指令微调和参数高效学习是适配微调的关键技能。
指令微调 (Instruction Tuning),是一种可以帮助措辞大模型实现人类措辞指令遵照的能力,在零样本设置中泛化到未见任务上的学习方法。
指令微调学习形式与多任务提示微调相似,但与提示微调让提示适应措辞大模型并且让下贱任务对齐预演习任务不同,其是让措辞大模型对齐理解人类指令并按照指令哀求完成任务,即在给定指令提示的情形下给出特定的回应,个中提示可以选择性包含一条阐明任务的指令。指令微调研究涉及指令理解、指令数据获取和指令对齐等内容。
(1)指令理解,指措辞大模型准确理解人类措辞指令的能力,是措辞大模型实行指令完成任务的条件。为了增强对指令的理解,许多事情采取多任务提示办法对基于指令描述的大量任务集上对措辞大模型进行微调,如 FLAN[50]、InstructGPT等,这些模型在未见的任务上显示出优胜的零样本性能。
(2)指令数据获取, 指如何构建包含多样性的任务指令数据。指令数据构建常见有三种办法:
i)基于公开人工标注数据构建,代表指令数据集包括 1616 种不同任务的 Super-Natural Instruction、2000 种不同 NLP 任务的 OPT-IML。
ii)借助措辞大模型的自动天生构建,如 Unnatural Instructions,通过种子指令作为提示让措辞大模型天生新的指令描述和问题,然后再输入到模型让其输出回答。
iii)基于人工标注方法,如 ChatGPT 在人工标注指令的根本上通过 GPT-3、InstructGPT 等在线平台网络用户真实指令数据。
(3)指令对齐, 措辞大模型在多种自然措辞处理任务上都展现了卓越的性能。然而,它们有时可能会涌现不预期的行为,如创造虚假信息、追求缺点目标或产生有偏见的内容。其根本缘故原由在于,措辞大模型在预演习时仅通过措辞模型建模,未涉及人类的代价不雅观或偏好。
为理解决这一问题,研究者提出了“指令对齐”,使措辞大模型的输出更符合人类的预期。但这种对齐与原始预演习有所不同,更看重于有用性、老实性和无害性。此外,指令对齐可能会降落措辞大模型的某些通用能力,这被称为“Alignment Tax”。
为实现模型输出与对人类代价的对齐,InstructGPT 提出了一种基于人类反馈的微调方法,利用了强化学习技能,将人类反馈纳入模型微调过程。
实际上,ChatGPT 也采取了与 InstructGPT 相似的技能,以确保产生高质量且无害的输出。指令对齐的广泛运用,适配微调从纯数据学习的传统微调范式开始逐步向人类学习范式的转变。
参数高效微调(Parameter-Efficient Tuning)。早期以 BERT 为代表的微调方法,是在大模型基座上增加一个任务适配层,然后进行全参微调,
但是这种方法存在两方面的问题:
一是任务“鸿沟”问题,预演习和微调之间的任务形式不一致,这种差别会显著影响知识迁移的效能。
二是高打算本钱,措辞大模型的参数规模不断增长,导致模型全参微调也须要大量打算资源。
办理以上问题的有效路子是参数高效学习,即通过仅微调少量参数实现大模型不才游任务上得到全参微调效果。
目前许多参数高效微调方法被提出,这些方法大致可分为 3 类:
(1)添加式方法:旨在原模型根本上引入额外的模块或参数,并仅微调该引入部分的参数。如适配器(Adapter)方法,旨将小规模的神经模块(适配器)注入到预演习模型中,并只调度这些适配器以进行模型自适应。在实际运用中,适配器模块常日分别插入在多头自把稳和前馈网络子层之后,成为最广泛利用办法;
(2)指定式方法:旨在原模型指定模型中部分参数为可演习参数,并固定模型其他参数。这类方法大略也十分有效,如仅通过优化模型内的偏置项并固定其他参数,模型仍旧可以再现 95%以上的模型全参微调性能;
(3)重参数化方法:将原模型或部分模型参数重参数化到低维度参数空间中,仅仅优化低维空间中的近似参数,显著降落模型的打算量和内存花费。如 LoRA,将模型自把稳力模块的变革权重参数分解为两个低秩矩阵相乘,即
图 2-6 参数高效微调的 3 种范式
参数高效微调常日具有微调参数规模小、增量衰落调参数、即插即用等特点,这种技能也统一成技能框架 Delta Tuning。
一些环绕参数高效微调的开源工具也被研发,代表性包括 OpenPrompt、OpenDelta等。
由于不同任务的微调参数可以被重复利用,一些关于高效微调的仓库也被构建,如 AdapterHub、Delta Center等。随着措辞大模型的兴起,高效微调吸引了越来越多的关注,以开拓一种更轻量级的下贱任务适配方法。
特殊地,LoRA已广泛运用于各种开源措辞大模型(如 LLaMA)以实现参数高效微调。
1.3 措辞大模型的提示学习
通过大规模文本数据预演习之后的措辞大模型具备了作为通用任务求解器的潜在能力,但这些能力在实行一些特界说务时可能不会显式地展示出来。在大模型输入中设计得当的措辞指令提示有助于引发这些能力,该技能称为模型提示技能。代表性的提示技能有指令提示和思维链提示:
指令提示(Instruction Prompt),也称为提示学习。OpenAI 在GPT-3 中首次提出高下文提示,并创造 GPT-3 在少样本提示下能够达到人类水平,证明在低资源场景下非常有效,引起广泛关注。
指令提示核心思想是避免逼迫措辞大模型适应下贱任务,而是通过供应“提示(Prompt)”来给数据嵌入额外的高下文以重新组织下贱任务,使之看起来更像是在措辞大模型预演习过程中办理的问题。
指令提示有三种形式:
(1)少样本提示,是指在一个自然措辞提示后面附加一些示例数据,作为措辞大模型的输入。其可以提高措辞大模型在不同领域和任务上的适应性和稳定性。少样本提示也存在一些寻衅,例如如何确定得当的示例数量、如何选择示例等。
(2)零样本提示,是指不该用任何示例数据,只依赖一个精心设计的提示来激活措辞大模型中与目标任务干系的知识和能力。零样本提示关键问题包括如何设计得当的提示、如何选择最优的提示等。
(3)高下文学习(In-contextLearning, ICL),也称情境学习,是指将一个自然措辞问题作为措辞大模型的输入,并将其答案作为输出。情境学习可以看作是一种分外形式的少样本提示,在问题中隐含地包含了目标任务和格式信息。情境学习可以简化问题表示和答案天生,并且可以灵巧地处理多种类型和繁芜度的问题。其寻衅在于,如何确保问题质量、如何评估答案精确性等。
图 2-7 几种提示样例比拟
思维链(Chain-of-Thought,CoT)。推理的过程常日涉及多个推论步骤,通过多步推理许可产生可验证的输出,可以提高黑盒模型的可阐明性。
思维链是一种提示技能,已被广泛用于引发措辞大模型的多步推理能力,被鼓励措辞大模型天生办理问题的中间推理链,类似于人类利用寻思熟虑的过程来实行繁芜的任务。
在思维链提示中,中间自然措辞推理步骤的例子取代了少样本提示中的〈输入,输出〉对,形成了〈输入,思维链,输出〉三元组构造。思维链被认为是措辞大模型的“呈现能力”,常日只有模型参数规模增大到一定程度后,才具有采取思维链能力。
激活措辞大模型的思维链能力方法,在提示中给出逐步的推理演示作为推理的条件,每个演示都包含一个问题和一个通向终极答案的推理链(图 2-7)。
1.4 措辞大模型的知识增强
知识利用和推理能力是衡量措辞大模型智能水平的主要成分。美国 Allen AI 研究大模型的问答能力,创造 GPT-3 在处理具有预设态度(false premise)的大略性知识性问题时,如类似“太阳有几只眼睛?”,GPT-3 仍旧会给出“太阳两只眼睛”的荒谬回答。
有效的办理方法是在深度学习模型根本上融入各种型干系外部知识。根据大模型知识领悟部位不同,知识领悟方法从模型输入、神经架构、模型参数、输出平分歧层面,大致分为以下 4 类,如图 2-8 所示:
图 2-8 措辞大模型知识增强的 4 种路子
知识增广:从输入端增强模型,有两种主流的方法:一种办法是直接把知识加到输入,另一方法是设计特定模块来领悟原输入和干系的知识化的输入表示。
知识支撑:关注于对带有知识的模型本身的处理流程进行优化。一种办法是在模型的底部引入知识辅导层来处理特色,以便能得到更丰富的特色信息。例如,利用专门的知识影象模块来从大模型底部注入丰富的影象特色。另一方面,知识也可以作为专家在模型顶层构建后处理模块,以打算得到更准确和有效的输出。
知识约束:利用知识构建额外的预测目标和约束函数,来增强模型的原始目标函数。例如,远程监督学习利用知识图谱启示式标注语料作为新的目标,并广泛用于实体识别、关系抽取等系列 NLP 任务。或者利用知识构建额外的预测目标,在原始措辞建模之外构建了相应额外的预演习目标。
知识迁移:模型知识作为主要的知识来源,也可以直接用于下贱任务,例如初始化模型参数。迁移学习和自监督学习都是知识迁移的主要研究方向。目前,知识迁移技能已被广泛运用于自然措辞处理,以 BERT 为首的各种预演习模型是现在知识迁移的紧张方法。
1.5 措辞大模型的工具学习
措辞大模型具备理解、推理和决策能力,可与外部工具互动。在特定领域任务中,如金融领域的证券交易和市场预测,措辞大模型常日须要结合外部工具获取信息和技能才能处理。
整合外部工具与措辞大模型可以发挥各自上风实现繁芜任务的处理,个中外部工具可增强专业知识和可阐明性,措辞大模型供应语义理解和推理方案能力。
2021 年底,OpenAI 推出 WebGPT,利用 GPT-3 与网页浏览器和搜索引擎交互获取互联网信息在长文本问答上实现非常强的能力,展现了措辞大模型利用工具办理繁芜问题的巨大潜力。
该事情引起了学术界和家当界的广泛关注,产生了许多面向不同任务或场景需求的大模型调用工具的方法,如 Webshop,利用措辞大模型替代人在购物平台上实行一系列操作、购买所需物品。
2023年3月,OpenAI发布 ChatGPT Plugins,实现 ChatGPT 调用各种外部插件的功能,支持浏览器实时信息获取、代码阐明器、PDF 阅读等能力,截至 8月已支持 480 个常用工具插件。
Meta 将这种通过非参数的外部模块扩展措辞大模型能力的方法,统一称为增广措辞模型(Augmented Language Models)。
清华大学在现有大模型工具利用方法根本上,提出了工具学习(Tool Learning)框架,指在让模型能够理解和利用各种工具完成任务的学习过程。
图 2-9 基于用户接口视角的工具分类
目前可交互的通用工具按用户接口大致可分为三类(图 2-9):物理交互的工具(如机器人、传感器等)、基于图形用户界面的工具(如浏览器、Office 办公软件等)、基于编程接口的工具(如数据库、知识图谱)等。
从学习目标的角度来看,现有工具学习方法紧张可以分为两类:
一类是工具增强学习(Tool-augmented Learning),利用各种工具的实行结果,增强根本模型性能。在这一范式中,工具实行结果被视为赞助天生高质量输出的外部资源;
第二类是工具导向学习(Tool-oriented Learning),将学习过程重点从增强模型性能转向工具实行本身。这一类研究关注开拓能够代替人类掌握工具并进行序列决策的模型。
理解AI更多方面资讯,欢迎加入“巴特星球”社区进行学习和互换:
本文系作者个人观点,不代表本站立场,转载请注明出处!