前沿分享微软成果：运用GPT-4合成数据来演习AI模型实现SOTA！_模子_措辞

2024-09-20 18:52:51 智能问答

夕小瑶科技说原创作者 | 谢年年、王二狗

前沿分享微软成果：运用GPT-4合成数据来演习AI模型实现SOTA！_模子_措辞智能问答

文本嵌入是各项NLP任务的根本，用于将自然措辞转换为向量表示。
现有的大部分方法常日采取繁芜的多阶段演习流程，先在大规模数据上演习，再在小规模标注数据上微调。
此过程依赖于手动网络数据制作正负样本对，缺少任务的多样性和措辞多样性。

此外，大部分方法采取BERT作为编码器，如非常经典的Sentence-BERT和SimCSE通过在推理数据集上对BERT进行微调学习文本嵌入。

但现在LLMs技能发展得风起云涌，能否用LLMs来战胜现有方法的限定，升级文本嵌入方法呢？

当然可以！

最近，微软发布了一种新颖的文本嵌入方法，利用专有的LLMs为93种措辞中各种文本嵌入任务天生合成数据，并且涉及了多个任务场景。

微软利用了Mistral-7B对合成数据和标记数据进行稠浊演习，成功登顶Huggingface排行榜，比之前的方法高2%。

论文标题:Improving Text Embeddings with Large Language Models

论文链接:https://arxiv.org/pdf/2401.00368.pdf

模型:https://huggingface.co/intfloat/e5-mistral-7b-instruct

数据：https://huggingface.co/datasets/andersonbcdefg/synthetic_retrieval_tasks

方法合成数据天生

作者利用GPT-4群策群力产生一系列潜在的检索任务，然后为每个任务天生(查询,正例,困难反例)三元组，如下图所示。

为了天生多样化的合成数据，作者提出了一个大略的分类法，将嵌入任务分为几个组，并针对每个组运用不同的提示模板：

非对称任务：包括查询和文档在语义上干系但并不是相互改写的任务。
根据查询和文档的长度，进一步分为四个子组：短-长匹配、长-短匹配、短-短匹配和长-长匹配。
短-长匹配任务涉及短查询和长文档，是商业搜索引擎中的范例情形。

对称任务：涉及具有相似语义但表面形式不同的查询和文档。
包括单语语义文本相似性（STS）和双语检索。

演习

给定一个干系的查询-文档配对（，），将以下指令模板运用于原始查询，天生一个新的查询：

个中，嵌入任务的一句话描述的占位符。

给定一个预演习的LLM，将[EOS]标记附加到查询和文档的末端，然后将它们输入LLM，通过获取末了一层的[EOS]向量来得到查询和文档的嵌入（）。

为了演习嵌入模型，采取了标准的InfoNCE丢失函数L，利用批内负样本和困难负样本进行打算。

个中打算查询q和文档d之间匹配分数的函数,本文采取温度缩放余弦相似度函数，是温度超参，在本实验中设为0.02。

实验合成数据统计

本文一共天生了500k个示例，个中包含150k个独特指令。
25%由GPT-3.5-Turbo天生，别的由GPT-4天生。
总的token花费约为180M。
紧张措辞为英语，覆盖了共计93种措辞。
对付75种低资源措辞，均匀每种措辞约有1k个示例。

模型微调与评估

模型选用Mistral-7b进行1个epoch微调，评估基准选用MTEB基准测试。

演习数据：利用天生的合成数据和包含13个公共数据集的凑集，在采样后得到约180万个样例。
为了与一些先前的事情进行公正比较，还报告了仅有标签监督的MS-MARCO数据集的结果。

紧张结果

▲表1

如上表所示，本文提出的模型“E5mistral-7b + full data”在MTEB基准测试中得到了最高的均匀得分，比之前的最前辈模型赶过2.4个点。

在“仅利用合成数据”的设置中，没有利用标记数据进行演习，其性能仍旧相称有竞争力。
天生式措辞建模和文本嵌入都须要模型对自然措辞有深刻的理解，。
基于嵌入任务定义，一种真正强大的轻量级模型该当能够自动天生演习数据，然后通过轻量级微调转换为嵌入模型。

▲表2

在表2中，作者还对几个商业文本嵌入模型进行了比较。
然而，由于这些模型缺少透明度和文档解释，不可能做到完备公正的比较。
作者紧张关注BEIR基准测试的检索性能，由于RAG是未来LLMs运用的主要趋势之一。
正如表2所示，本文的模型在性能上明显优于当前的商业模型。

多措辞检索

为了评估模型的多措辞能力，作者在包含18种措辞的MIRACL数据集上进行了评估。
该数据集包括人工注释的查询和干系性判断。

▲表3

如表3所示，该模型在高资源措辞特殊是英语上超过mE5large。
对付低资源措辞，本文的模型仍旧不足精良。
这是由于Mistral-7B紧张预演习于英语数据，未来将可以利用多措辞LLM弥合这一差距。

除此之外，作者还磋商剖析了几个问题。

剖析1. 比拟预演习真的主要吗？

弱监督比拟性预演习是现有文本嵌入模型取获胜利的关键成分之一。
例如，将随机裁剪的片段作为预演习的正样本对待，或者从各种来源网络并筛选文本对。

那么对付LLMs而言，比拟预演习还有用吗？

如上图所示，比拟预演习有益于XLM-Rlarge，在相同数据上微调时，其检索性能提高了8.2个点，与之前的研究结果同等。

然而，对付基于Mistral-7B的模型，比拟预演习对模型质量险些没有影响。
这意味着广泛的自回归预演习使LLMs能够获取良好的文本表示，只须要进行最少限度的微调即可将其转化为有效的嵌入模型，而无需比拟预演习。

个性化密码检索

为了评估模型的长高下文能力，作者引入了一项新的合成任务——个性化密码检索，如下图所示，包含多个文件，每个文件都有一个独特的人名和一个随机的密码，插入在随机的位置。
任务是从100个候选项中找回包含给定个人密码的文件。
通过这个过程测试模型将长高下文中的密码信息编码到嵌入中的能力。

作者通过改变滑动窗口大小和RoPE旋转基，比较了不同变体的性能。

结果表明，默认配置下，利用4k滑动窗口在4k个token内达到了100%的准确率，但随着高下文长度的增加，准确率迅速低落。
将滑动窗口大小天真地扩展到32k会导致更差的性能。
通过将RoPE旋转基准变动为，模型可以在32k个标记内实现超过90%的准确率。
但在短高下文不太适用。
结论

这篇事情证明了通过LLMs技能，文本嵌入的质量可以得到显著提升。
研究职员利用了专有的LLMs（如GPT-4），在多种措辞环境下天生了多样化的合成数据，并结合Mistral模型强大的措辞理解能力，在竞争激烈的MTEB基准测试中取得了SOTA。
与现有的多阶段方法比较，既大略又高效，不再须要中间预演习的环节。

用网友的话说便是“Amazing Amazing Amazing!”，省去了人工采集数据的繁琐步骤，每个人都可以轻松地天生自己的数据集，并演习强大的嵌入模型。
语义检索模型不给力导致天生模型性能受影响的局势，总算有希望翻篇儿了！