在生理学、认知神经科学和人工智能等领域,理解并建模人类与动物的行为是一项持续的寻衅。
这项研究中最有趣的方面之一,便是习气性行为(habitual behavior)和目标导向行为(goal-directed behavior)之间的相互浸染。
从人们日常事情生活的大略习气,到有方案的、繁芜的决策制订过程,无不表示着两种行为模式间的交互。
传统不雅观念认为,这些行为由大脑中的两个独立系统管理:习气性行为迅速且自动化,不须要考虑后果;而目标导向行为则缓慢且灵巧,会考虑此行为的后果。

重塑认知科学中的“行为”理解提升智能体决定筹划能力_习惯_导向 智能助手

图1:习气性行为(专注事情时吃零食)和目标导向行为(操持一顿减肥餐)的不同特色

然而,微软亚洲研究院与冲绳科学技能大学院大学的研究者们近期通过变分贝叶斯(variational Bayes)方法,提出了一个新颖的理论框架,寻衅了传统不雅观点,将习气性行为和目标导向行为这两种看似相互独立的行为进行了整合。
该框架为在机器学习和人工智能领域设计更高效且适应性强的系统供应了新的思路,同时也将有助于人们进一步理解神经系统的机理。
干系论文已在《自然-通讯》(Nature Communications)杂志上揭橥。

Synergizing Habits and Goals with Variational Bayes

论文链接:

https://www.nature.com/articles/s41467-024-48577-7

习气性行为和目标导向行为间的协同浸染

微软亚洲研究院的研究员们所提出的贝叶斯行为(Bayesian Behavior)框架,利用变分贝叶斯方法建模了感知运动任务中的行为,个中的核心创新点就在于引入了一个贝叶斯“意图”(intention)变量,从而有效地将习气性行为与目标导向行为进行了衔接。
习气性行为由感官输入打算的意图先验分布驱动,无需详细目标。
目标导向行为则由一个通过最小化变分自由能推断(active inference)的目标条件意图后验分布的勾引。

研究员们认为,习气性行为和目标导向行为不应被独立对待。
相反,这些行为共享神经路径,且可以相互借鉴补充。
例如,习气性行为虽然缺少灵巧性,但可通过练习来供应闇练的运动技能,目标导向行为此时便可以利用这些技能进行更繁芜的任务方案。
这种协同方法可通过以下两种机制实现:(1)最小化先验(习气性)和后验(目标导向)意图之间的差异;(2)先通过逆方差加权均匀将先验和后验意图结合成一个协赞许图,然后智能体(agent)再利用该意图与环境进行互动。

图2:(a) 贝叶斯行为框架概述;(b)和(c) 学习过程中和行为过程中的框架图

仿照实验:智能体行为模式的转变、调度与零样本方案能力

研究员们通过在视觉勾引的感知运动任务中的仿照实验对贝叶斯行为框架进行了测试,该实验采取的是T形迷宫(T-maze)环境。
实验结果显示,贝叶斯行为框架所得出的结论与神经科学和生理学实验的不雅观察数据相吻合:

1. 从目标导向到习气性行为的过渡:仿照实验结果表明,在反复学习同一任务的过程中,智能体的行为会自动地从缓慢的目标导向行为转变为更快的习气性行为。
这一过渡是由习气性意图的精确性的增加引起的,从而减少了目标导向方案的打算包袱。

2. 褒奖贬值后的行为变革:仿照实验还磋商了智能体在褒奖结果变革时,如何调度其行为,这与生理学中的结果贬值(outcome devaluation)的情境相似。
经由更大量的演习,智能体在习气性行为方面表现出了更强的执拗性。

3. 零样本(zero-shot)目标导向方案:该框架展示了智能体处理新目标而无需额外演习的能力。
通过利用现有的习气性行为,智能体能够有效地方案和实行新任务。

图3:经由演习的智能体 (a-c) 可以针对未见过的目标 (d, e) 实行目标导向的方案(例如瞥见更多的蓝色)

认知神经科学视角下的智能体决策机制

智能体在面对繁芜任务时,会通过内部模型来预测和方案行为。
这些模型基于智能体对环境的理解和先前履历的积累,使其能够在不断变革的环境中做出适应性决策。
那么,习气性行为和目标导向行为之间的动态交互是如何实现的?智能体的行为模式和决策过程又是如何运作的?

研究员们从认知神经科学和人工智能的交叉研究视角出发,给出了见地:

智能体如何在无模型的习气性行为和基于模型的目标导向行为之间进行取舍?

研究员们提出,智能体通过逆方差加权均匀将先验和后验意图,结合成一个协赞许图。
该方法通过意图分布的统计方差,能够自然地衡量行为的不愿定性。
同时,该方法许可智能体在演习过程中最小化自由能和强化学习丢失动态,从而可以自主地调度这一平衡。

智能体如何通过重复试验,从缓慢的目标导向行为自主过渡到快速的习气性行为?

仿照实验结果表明,在适应新任务时,习气性意图的方差最初很大,但由于无模型决策的大略性,该方差将伴随重复试验的增加而减少。
随着演习的进展,方差的减少将使得平衡逐渐方向于习气性意图。
研究员们还引入了一种机制,可以在协赞许图足够精确时,让智能体提前停滞目标导向的主动推理,节省打算资源,同时保持高行为精度。
这一创造阐明了为什么在广泛的演习过程中,智能体会从目标导向行为转变为习气性行为。

智能体如何为未经由演习的新目标实行目标导向的方案?

智能体应配备一个内部预测模型(world model),通过预测模型来搜索并方案目标导向意图。
目标导向意图是在习气性意图的约束下进行推断的。
这一约束确保了目标导向方案的有效性(不去搜索一些不习气的行为),并且利用了在习气性意图和共享策略网络中形成的底层运动技能。
该框架使得智能体能有效地将目标导向性行为泛化到新目标。

探索智能体行为的打算框架新范式

微软亚洲研究院贝叶斯行为框架的研究标志着人们对认知科学意义上的“行为”的理解有了新的打破。
研究员们通过贝叶斯行为框架整合习气性和目标导向行为,构建了一个能平衡效率和灵巧性的全面模型。
这项研究不仅推动了干系理论知识的发展,还为人工智能和机器人技能的实际运用供应了新的思路。
例如,将强化学习与主动推理相结合,可以增强自主智能体在繁芜环境中的决策能力。
此外,理解习气性和目标导向行为之间的相互浸染不仅有助于揭示神经系统的机理,还能为干系疾病的治疗策略供应辅导。
随着对认知科学和人工智能的不断探索,微软亚洲研究院的研究员们将会连续在跨学科研究中发挥创新思维的力量。

注:经由作者许可并基于 Creative Commons Attribution 4.0 International License (https://creativecommons.org/licenses/by/4.0/),本文复用原论文中部分图片。