【微教室】强化进修 : 像演习小狗一样演习人工智能_状况_情况
什么是强化学习?
强化学习是机器学习的一种,与监督学习、无监督学习并列为机器学习算法的三大支柱。它长于掌握在一定环境中能够自主行动的个体(Agent),并通过其与环境的交互()得到正或负的褒奖(),从而不断改进其行为()。
演习小狗
你可以把强化学习想象成演习一只小狗在固定的地方上厕所。一开始,根据小狗(Agent)的天性,它只会随地大小便,不会在固定的地方上厕所。但经由主人的刻意勾引或者机缘巧合,它会到家中的卫生间上厕所()。这时候,主人果断给狗狗吃零食()。小狗吃完零食后会感到非常愉快,会在这种情形下记住主人喂它零食。如果它在其他地方,比如寝室里排便,主人不但不会给它零食,还会严厉斥责它()。之后,每次它在精确的地方上厕所,主人都会用零食褒奖它,否则就会受随处分。久而久之,小狗就学会了精确的如厕行为。 小狗自然而然地想要得到更多的零食,以是下次它要上厕所时,它会根据自身的履历选择收益最高的行为,从历史履历中学习以得到更多褒奖,如此循环就会强化影象,这便是强化学习。
基于小狗上厕所的例子,我们可以理解强化学习的基本观点:
▷ 代理 — “小狗”:代理是实行动作的智能实体。
▷()——“Home”:agent所在的环境。
▷状态——“浴室”,“寝室”:代理所在的环境有多种状态。
▷()——“在浴室排便”、“在寝室排便”:当agent做出行为选择时,环境的状态也会随之发生改变。
▷褒奖()——“零食”、“骂”:当状态发生改变时,环境会给予相应的正面或负面的褒奖。
强化学习的核心思想是让智能体在环境中学习,每一个动作都会对应不同的褒奖,智能体通过不断试错和剖析,学会在不同情形下该做什么。
什么是强化学习机制?
强化学习可以看作一个大略的序列模型:
在时候t,个体处于状态St,会实行某个动作Ai,导致时候t+1的状态变为St+1,同时在时候t+1得到的褒奖为Rt+1,终极累计褒奖为
Gt=Rt+1+Rt+2+Rt+3+⋯+Rt+end
例如,当打算机学习如何玩飞鸟时,强化学习机制可以用一个循环来表示:
1、游戏开始时,小鸟在出生点得到一个初始状态S0;
2、S0状态,小鸟选择向上飞,实行第一个动作A0;
3、A0行为触发后,小鸟所处环境立即改变,状态更新为S1;
4、在S1状态下,如果小鸟没有碰到柱子,环境则给出正褒奖R1(分数+1);如果小鸟碰到了柱子,环境则给出负褒奖R1(分数-1)。
因此,这个循环的输出是状态、褒奖和动作的序列,而个体的目标是最大化预期累积褒奖。
强化学习任务有哪些类型?
强化学习中有两种类型的任务:阶段任务和连续任务。
“过关并拔旗”
阶段性任务常日有开始和结束,出发点和终点之间的状态、动作和褒奖都是有限的,共同构成一个封闭的关卡。当一个关卡结束,也便是到达终止状态时,智能体会打算终极累计的褒奖来评估自己的表现,然后凭借之前的试错履历开始下一轮关卡。关卡越多,智能体的履历越丰富,表现也会越好。
“没有最好,只有更好”
连续任务具有无限的状态、动作和褒奖,没有停滞状态。代理必须实时与环境交互,同时实时选择最佳动作,例如无人驾驶任务。此类任务通过韶光差分学习( )进行演习。强化学习会对每个韶光步骤进行剖析和总结,不会等到关卡结束才对结果进行评估。
强化学习方法有哪些?
以代价为根本
基于代价的方法的目标是优化代价函数。代价函数表示代理在每个状态下预测的最大未来褒奖。每个状态下的代价函数值是代理可以预期的未来总累积褒奖。代理利用此代价函数来决定在每个步骤中采纳什么行动,并选择具有较大代价的行动作为下一步辇儿为。
-基于
基于策略的方法的目标是优化策略函数。策略用于判断代理在每个韶光点的表现,并建立每个状态与其对应的最优动作之间的联系。策略有两种类型:确定性策略:某个状态下的策略将以 100% 的概率给出相同的动作;随机策略:某个状态下的策略给出多个动作的概率分布。
强化学习与监督学习最大的差异在于,人类不供应数据样本见告打算机哪些行为是对的、哪些行为是错的,而是让打算机在不断变革的环境中不断试错,找出哪些行为更好、哪些行为更坏。就如人类和动物一样,它们的天性便是趋利避害,这是生命经由千百万年的自然进化所形成的学习办法。强化学习只不过把主角换成了打算机,打算机模拟人类的学习办法,不断与环境互动,不断调度优化自身,以得到更高的收益。
以上内容由苏州研究院地理空间信息系统研究室赵依林供应。
本文系作者个人观点,不代表本站立场,转载请注明出处!