2024 人工智能最前沿：分享几个大年夜模型(LLMs)的热门研究倾向_模子_提出了

2024-12-11 21:08:41 科技快讯

近年来，人工智能大模型在多种任务上展现了令人瞩目的能力，但在知识整合和长期影象方面，大模型仍存在显著毛病。
为此，OSU&斯坦福作者提出了一个新思路：让大模型也拥有一个像人脑海马体一样的"影象操作系统"。
借鉴海马体在人脑影象中的关键浸染，设计了一个名为HippoRAG的新型检索增强模型。
实验表明，装备了这一"类脑"影象系统的大模型在多种须要知识整合的任务中展现出了惊人的性能提升。

2024 人工智能最前沿：分享几个大年夜模型(LLMs)的热门研究倾向_模子_提出了科技快讯

AI2提出了一种自适应QA问答框架：Adaptive-RAG，该框架涵盖各种策略（大略繁芜的都有），该框架可根据要求的繁芜性动态的选择得当的策略，旨在提升检索增强大模型得处理不同繁芜要求的相应准确性，提高了QA问答的效率！
。

如果仅仅依赖大模型本身的参数知识来进行文本天生，那么大模型会不可避免的产生模型幻觉。
为此，人们将检索增强天生（RAG）作为大模型文本天生的赞助方法，但是RAG方法的准确性依赖于检索文本的准确性，当检索涌现问题时，那么天生文本的准确性将难以担保！
为此，中科大提出纠正检索增强天生：CRAG，旨在提高文本天生的鲁棒性。

Infineon提出RAG-Fusion，它是一种结合了RAG和 Reciprocal Rank Fusion（RRF）的技能。
详细来说，首先通过指令遵照模型天生多个要求，然后对每个天生的要求进行矢量搜索，以从预定义的凑集中检索干系文档，接着运用倒数排名领悟算法根据多个要求之间的干系性对文档重新排名；末了天生重新排序的文档组列表。

Amazon提出了一种新方法SYNTHESIZRR，用于改进大模型（LLMs）在分类任务中的微缩化过程。
传统方法通过few-shot提示天生数据集，但存在重复和偏见问题。
SYNTHESIZRR通过检索增强引入多样性，「使LLM根据不同内容天生更多样化的示例」。
SYNTHESIZRR在提升词汇和语义多样性、模拟人类文本以及提高模型微缩化性能方面，均优于传统方法。

大模型Agent

今年年初业内大佬吴恩达表示，大模型Agent是为来大模型大发力点。
随着大模型运用处景越来越繁芜化，纯挚依赖大模型的能力将面临巨大的寻衅，为此用好大模型能力，构建大模型Agent将是大势所趋。
微软研究职员也深入磋商了Agent AI的根本，强调了智能Agent在物理、虚拟现实、稠浊现实、感官交互等方面的能力，并指出Agent AI或是下一代人工智能的关键。
其研究重点在于「多任务学习」、「知识推理和持续学习」，旨在提高Agent在广泛任务上的表现温柔应性。

智谱提出新型自动化网页导航Agent：AUTOWEBGLM 本文提出了一个名为AUTOWEBGLM的新型自动化web导航Agent，它通过简化网页内容和利用AI技能来办理现有web Agent处理真实网页时的寻衅。
AUTOWEBGLM通过特殊设计的算法来表示网页，保留主要信息，并利用稠浊人工智能方法进行演习。
此外，该Agent通过强化学习和谢绝采样技能来提高对网页的理解能力和实行任务的效率。

微软提出自动软件开拓框架：AutoDev，这是一个完备自动化的AI驱动软件开拓框架，旨在自主方案和实行繁芜的软件开拓任务。
AutoDev可以让用户定义繁芜的软件工程目标，并将这些目标分配给AutoDev的自主Agent来实现。
这些Agent可以在代码库上实行多种操作，包括文件编辑、检索、构建过程、实行、测试和Git操作。

Google提出了SceneCraft，它是一个创新的大措辞模型Agent，能够将文本描述转换成可在Blender中实行的Python脚本，用于创建繁芜的3D场景。
它通过高等抽象、计策方案和库学习来办理空间方案和布局的繁芜性。

天生模型在软件工程中的运用已经取得了显著成果，尤其是在代码天生和调试任务中。
只管如此，这些模型在自动天生代码文档方面的潜力还未被充分挖掘。
为此，清华开拓了REPOAGENT，这是一个基于大型措辞模型的开源框架，专门用于自动天生、掩护和更新代码文档。
通过一系列的评估，包括定性和定量剖析，我们证明了REPOAGENT在创建高质量的代码仓库文档方面的能力。

本文研究是关于怎么让那些大型的措辞模型，比如ChatGPT和GPT-4，变得更厉害，特殊是在处理那些繁芜和须要多种技能的任务上。
为此，清华开拓了GITAGENT，它可以让模型自己从GitHub上找到得当的代码库，然后加到自己的工具箱里。
GITAGENT事情的时候，会分四个步骤，如果碰着问题，它还会去GitHub上看看别人是怎么办理的，学习履历。

对付大措辞模型的方案和推理能力，不同的人有不同的意见。
「亚利桑那州立大学研究职员的核心不雅观点是：大措辞模型（LLMs）自身无法进行方案推理」，但是却能在办理方案问题上发挥积极的浸染。
为此，作者还提出了一个新的LLM-Modulo框架，这个框架把大型措辞模型和一些外部的验证工具结合起来，使LLMs在方案任务中发挥了主要浸染。

Mamba

Mamba是一种选择性构造状态空间模型（Selective Structured State Space Model），其上风是能在长高下文任务上实现线性韶光的推理、并行化演习和强大的性能。
该技能最早由CMU提出，Mamba通过全局感想熏染野和动态加权，缓解了卷积神经网络的建模约束，并供应了类似于Transformers的高等建模能力，同时避免了与Transformer干系的二次打算繁芜性。
其研究方向集中在提高「长序列数据处理能力」、「多模态数据处理」和「打算效率」等。

近日，波兰研究团队给出的研究成果是 MoE-Mamba，即将 Mamba 和稠浊专家层组合起来的模型。
MoE-Mamba 能同时提升SSM 和 MoE 的效率。
而且该团队还创造，当专家的数量发生变革时，MoE-Mamba 的行为是可预测的。

中科大等研究职员将Mamba与视觉研究结合起来，提出了Vim架构，在 ImageNet 分类任务、COCO 工具检测任务和 ADE20k 语义分割任务上，与 DeiT等成熟的视觉 Transformers 比较，Vim 实现了更高的性能，同时还显著提高了打算和内存效率。
例如，在对分辨率为 1248×1248 的图像进行批量推理提取特色时，Vim 比 DeiT 快 2.8 倍，并节省 86.8% 的 GPU 内存。

华为诺亚方舟实验室的研究者提出了 DenseMamba，用于增强 SSM 中各层间隐蔽信息的流动。
通过将浅层隐蔽状态有选择地整合到深层中，DensessM 保留了对终极输出至关主要的风雅信息。
DenseSSM 在保持演习并行性和推理效率的同时，通过密集连接实现了性能提升。
该方法可广泛运用于各种 SSM 类型，如 Mamba 和 RetNet。

浙大将Mamba与多模型大模型结合，提出了Cobra，一个具有线性打算繁芜度的MLLM，它将Mamba措辞模型整合到了视觉模态中。
实验结果显示，Cobra在性能上与最前辈的方法相称，速率更快，尤其在处理视觉错觉和空间关系判断方面表现突出。
cobra的参数量只有LLaVA的43%，但性能相称。

AI21 Labs 推出并开源了一种名为Jamba的新方法，在多个基准上超越了 transformer。
Mamba 的 SSM 架构可以很好地办理 transformer 的内存资源和高下文问题。
然而，Mamba 方法很难供应与 transformer 模型相同的输出水平。
Jamba 将基于构造化状态空间模型 (SSM)的 Mamba 模型与 transformer 架构相结合，旨在将 SSM 和 transformer 的最佳属性结合在一起。
结果表明:Jamba 在长高下文上的吞吐量达到了 Mixtral 8x7B 的3倍。
Jamba 比 Mixtral 8x78 等大小相称的基于Transformer 的模型更高效。

大模型高效微调(LoRA)

大模型在微调过程中，可以采纳不同的策略，紧张分为全量微调和参数高效微调两大类。
全量微调涉及对预演习模型的所有参数进行调度，须要大量的打算资源，并有可能导致灾害性遗忘，即在提升特界说务性能的同时丢失在其他领域的表现。

为理解决这些问题，参数高效微调（PEFT）技能通过仅更新模型中的一部分参数来减少演习韶光和打算本钱。
PEFT包括多种方法，如Prefix Tuning（在输入前添加可学习的virtual tokens作为Prefix），Prompt Tuning（在输入层加入prompt tokens），P-Tuning（将Prompt转换为可学习的Embedding层，并用MLP+LSTM处理），Adapter Tuning（在模型层中插入小型神经网络模块），以及LoRA（在矩阵相乘模块中引入低秩矩阵来仿照full fine-tuning）。
这些技能旨在提高演习效率，同时保持或提升模型性能。

在广泛利用的参数高效微调(PEFT)方法中，LORA 及其变体由于避免了额外的推理本钱而得到了相称大的遍及。
LoRA显著降落了微调的本钱，同时得到与全模型微调附近的效果。
以是LoRA的一些改进方法也层出不穷，该方向也成了研究热点。
该方向的研究重点紧张在于「参数效率」、「保微调策略」、「高下文扩展」、「模型压缩」等。

英伟达提出了权重分解低阶适应(DORA)，增强了 LoRA 的学习能力和演习稳定性，同时避免了任何额外的推理开销。
实验表明DORA 在各种下贱任务上的模型微调都要优于LORA。

华盛顿大学提出了QLORA，该算法在保持完全的16位微调任务性能的情形下，可以实现单卡48G GPU微调650亿参数的大模型，作者公布了他们演习的系列模型Guanaco，与之前公开拓布的所有模型比较，在Vicuna基准测试中表现更好，只须要在单个GPU上微调24小时就能达到ChatGPT性能水平的99.3%。

MIT为了扩展Token高下文长度，提出了LongLORA微调算法，它能够在资源受限的情形下，极大的扩展预演习大模型(LLMS)的高下文长度，LongLORA可以让LLaMA2-7B的高下文从4K扩展至100K。

斯坦福提出了S-LORA，它是专为浩瀚 LORA 适配程序的可扩展做事而设计的系统，它将所有适配程序存储在主内存中，并将当前运行査询所利用的适配程序取到 GPU 内存中。
S-LORA 能够以较小的开销在单个 GPU 或多个 GPU 上为数千个 LORA 适配器供应做事(同时为 2000 个适配器供应做事)，并将增加的 LORA 打算开销降至最低。
比较之下，LLM-packed 须要掩护多个权重副本，并且由于 GPU 内存限定，只能为少于5 个适配器供应做事。

MoE

MoE实在也不是一项新的技能了，MoE全称为Mixed Expert Models。
该项技能最早是由剑桥的研究职员在1991年的一篇文章（“Adaptive Mixture of Local Experts”）中提出。
但是随着近年来大模型参数规模的不断拓展，以及大模型多任务的运用，该技能也成为了当前研究的热点。

我们都知道随着模型参数规模的不断增大，模型性能也会不断的提升，并会涌现呈现征象，这也是当前大模型爆火的紧张缘故原由。
然而，如何在有限的打算资源预算下，用更少的演习步数演习一个更大的模型呢？那么MoE技能紧张便是干这件事情的。

MoE具有演习资源需求低、演习速率快、推理本钱低、扩展性好以及具备多任务学习能力。
它的一个显著上风是它们能够在远少于 Dense 模型所需的打算资源下进行有效的预演习。
这意味着在相同的打算预算条件下，您可以显著扩大模型或数据集的规模。
特殊是在预演习阶段，与Dense 模型比较，MoE模型常日能够更快地达到相同的质量水平。
当前其研究重点紧张集中在「专家网络的协同」、「动态路由」、「专家激活率低」和「模型的可扩展性」等方向。
下面是一些最近的研究进展供大家参考：

2022年，Google 提出的 Switch Transformers 一定程度缓解了模型繁芜性高、下贱任务微调不稳定等问题。
Switch Transformers 简化了 MoE 路由算法，设计了直不雅观的改进模型，降落了通信和打算本钱。
Switch Transformers 的演习方法减轻了不稳定性，并且首次展示了用较低精度（bfloat16）格式演习大型稀疏模型的可能性。

北大针对MoE路由机制进行了改进，提出了一种新颖的动态Expert选择框架，对付较难的任务，本文方法会选择更多的Expert来处理，对付大略的任务就用少些，这样可以更有效地利用打算资源。
实验结果表明:本文动态路由方法在各种基准测试中都要优于传统的Tp-2路由方法均匀提高了0.7%，同时激活的参数不到90%。

微软针对MoE专家激活率低等问题，提出了多头稠浊专家(MH-MOE)。
MH-MOE 采取了多头机制，可将每个输入 token 分成多个子 token。
然后将这些子 token 分配给组多样化的专家并行处理，之后再无缝地将它们整合进原来的 token 形式，该方法专家激活率更高且扩展性更好，并且具有更细粒度的理解能力。

ByteDance针对大模型多模态场景提出了CuMo，将MOE运用于多模态LLM，该方法在视觉编码器和多层感知器(MLP)连接器中整合了Top-K稀疏门控MOE块，有效提升了模型在多模态任务上的性能，同时保持了较低的推理本钱。
在不同模型尺寸的多模态任务基准测试中达到了SOTA。