在强化学习中,有两个紧张的观点:智能体(Agent)和环境(Environment)。
智能体会在环境中实行行动,环境会根据智能体的行动给出反馈。
这种反馈常日以褒奖(Reward)的形式涌现,褒奖可以是正的也可以是负的。
智能体的目标是通过自己的行动最大化总褒奖。

揭秘未来人工智能:结合强化进修与合成数据生成的革命性路径_智能_数据 智能问答

强化学习的核心观点包括以下几个要素:

环境(Environment):智能体与之交互的外部环境,可以是真实天下或仿照环境。
状态(State):描述环境的特定情形或特色,智能体根据状态来做出决策。
行动(Action):智能体基于当前状态选择的特定行为。
褒奖(Reward):环境根据智能体的行动给出的反馈旗子暗记,用于评估行动的好坏。
策略(Policy):智能体的行动策略,决定在给定状态下选择哪个行动。
值函数(Value Function):评估某个状态或行动的代价,用于辅导智能体的决策。
学习算法(Learning Algorithm):用于更新智能体的策略和值函数,以优化行为的算法。

强化学习的一个关键特点是延迟褒奖,也便是说,智能体可能须要实行一系列的行动后才能得到褒奖。
这使得强化学习须要考虑长期的褒奖,而不仅仅是短期的褒奖。

强化学习已经被运用于许多不同的领域,包括游戏(如AlphaGo)、机器人掌握、自动驾驶、资源管理和推举系统等。

强化学习与下一代措辞模型

强化学习(Reinforcement Learning, RL)作为一种使模型通过与环境交互来学习最优行为的方法,在演习高性能措辞模型(如ChatGPT/GPT-4)方面展示了巨大潜力。
只管强化学习在措辞模型(LM)演习中并非范例的运用处景,但我们仍旧可以将文本天生视为RL的一种形式。
在这种情形下,我们的状态便是模型当前的输出,策略是措辞模型,它预测给定当前输入的下一个最可能的令牌。
褒奖是人类偏好,我们演习模型天生最大化这种褒奖的文本。

面临的寻衅

只管利用RL来微调LLM(例如,基于人类反馈的强化学习)被证明非常有效,但RL的数据效率低下是一个紧张问题。
为了网络RLHF所需的数据,我们须要人工手动注释大量偏好(例如,LLaMA-2是在超过100万人类偏好注释的根本上微调的)。
只管这种技能效果很好,但本钱极高,入门门槛也非常高,导致其在实际运用中面临寻衅。
沃尔夫博士指出,办理这一问题的关键在于两个方面:

提高RL在数据利用上的效率(用更少的数据)。
通过强大的措辞模型合成高质量数据。
合成数据天生的办理方案

最近的研究开始利用强大的LLM(例如GPT-4)来自动化RL微调的数据网络过程。
例如,Anthropic的Constitutional AI首先探索了利用LLM自动天生LLM对齐的有害数据。
谷歌提出的RLAIF(AI反馈的强化学习)利用LLM完备自动化RLHF的数据网络过程。
出人意料的是,利用LLM天生合成数据来微调RL效果非常好。

未来展望

只管我们不愿定AI/AGI的未来发展会是什么样,但如果我们坚持当前的下一个令牌预测范式(即预演习 -> SFT -> RLHF),并结合解码器唯一的变压器,险些可以肯定的是,结合RL的微调和通过强大LLM合成数据天生将在民主化/改进LLM中发挥主要浸染。
这种方法使尖端演习技能不仅限于拥有大量资金的研究小组。

#人工智能#

关注我,每天带你探索 AI 领域的最前沿资讯和知识!