欢迎大家点赞和关注我的主页,以免错过最前沿的AI内容!

人工智能 演习模型_模子_数据 AI简讯

知识点根本模型是指基于深度神经网络和自监督学习技能,在大规模、来源广泛的数据集上演习的AI模型。
根本模型紧张有四个特点:基于深度神经网络和自监督学习技能;利用大规模、来源广泛的数据集演习;通过微调等方法可直接用于一系列下贱任务;参数规模越来越大。
根本模型包括各种预演习模型,如BERT、GPT-3、CLIP、DALL E等。
定义

模型是人工智能算法在数据上演习出来的产物,AI模型可以根据输入的数据进行推理,为人类的决策供应建议或依据。

一样平常的人工智能模型只能完成特定的任务,比如情绪分类模型只能对输入的句子进行情绪分类,而不能完成翻译、词性标注等任务。
根本模型是指能够完成一系列下贱任务的通用模型,由于这种模型是多个下贱任务模型的“根本”,以是被称为根本模型。

《论根本模型的机遇与风险》[1]一文提出,近年来,人工智能领域涌现了一种范式转变——人工智能系统的构建越来越多地基于一个通用模型,因此这个模型可以被称为根本模型。

基本型号有以下紧张特点:

1. 基于深度神经网络和自监督学习,但不局限于单一架构:深度神经网络与目前传统的深度学习模型类似,在算法上没有太大差异。
自监督学习技能意味着根本模型不须要太多的标记数据——它可以不依赖标签就学习数据集中的特色。

2. 利用大规模、来源广泛的数据集进行演习,而不是小型、单一或专用的数据集:根本模型须要在大规模、来源广泛的数据集上进行演习。
这将使模型更加通用——只有当它看到的数据足够丰富和多样化时,模型才能应对各种各样的情形。

3. 通过fine-tuning、zero-shot learning等办法,可以直接用在一系列下贱任务上(而不是单一的某一个),并取得一定的性能:fine-tuning的意思是:在演习好根本模型之后,让其在单一领域或任务长进修少量的数据,这样模型得到一定程度的调度,从而可以利用不才游任务上(比如感情分类、命名实体识别、翻译、措辞理解等)。
zero-shot learning是不须要学习一些数据,直接将模型利用到下贱任务上。

4、参数规模越来越大:根本模型的参数规模逐年扩大,比传统AI模型赶过多个数量级。

根本模型的观点是由美国斯坦福大学根本模型研究中央(CRFM)提出的,紧张研究者包括Percy Liang、Fei-Fei Li等。

根本模型包括预演习措辞模型,如BERT、GPT-3等,以及多模态预演习措辞模型,如CLIP、DALL·E等。
[1]

根本模式的机遇与寻衅

根本模型在措辞、视觉、机器人、推理检索、交互、理解等领域都有发展潜力。
以措辞为例,过去的 NLP 研究紧张侧重于针对特界说务(如翻译、情绪剖析、词性标注等)构建最佳模型,这导致 NLP 领域的模型种类繁多,但缺少通用能力。
根本模型可以同时办理多个 NLP 问题,研究职员可以更加专注于构建综合性能更强、通用性更强的根本模型。
对付下贱任务,只须要少量的标注数据,就可以让模型得到比过去更强的性能。

基于根本模型,科研开拓者可以构建各种下贱运用,如医疗、法律、教诲等运用。

此外,由于根本模型还处于快速发展阶段,还有一系列的技能领域须要探索,目前根本模型涉及的技能子领域包括:模型构建、演习、微调、评估、加速、数据、安全、鲁棒性、与人类对齐、模型理论、可阐明性等。

寻衅

在推动AI技能发展的同时,根本模型也带来了一系列社会寻衅。
社会寻衅包括不平等、虐待、环境问题、法律问题、经济问题和伦理问题。
例如在措辞方面,根本模型可能会天生误导性和事实上禁绝确的句子,乃至在推理过程中存在性别和种族歧视。
其余,由于根本模型学习了大量数据,可能会透露数据中的真实信息,例如家庭住址、信用卡账户密码、电子邮件地址等。

参考链接

[1]Bommasani, R.、Hudson, DA、Adeli, E.、Altman, R.、Arora, S.、von Arx, S.,... & Liang, P. (2021)。
论根本模型的机遇与风险。
arXiv 预印本 arXiv:2108.07258。