长久以来,神经科学和人工智能领域有一个根深蒂固的共识:动物的学习效率主要取决于“学习率”这个固有参数,而与奖励本身的大小关系不大。因此,为了获得足够多的训练数据,实验室中通常给予动物极微小的奖励(如一小滴水)。2026年5月21日,霍华德·休斯医学研究所Luke T. Coddington团队(Sheng Gong为第一作者)在Science 在线发表题为“Reward magnitude determines reinforcement learning efficiency”的研究论文,该研究彻底挑战了这一传统,发现将奖励幅度提高一两个数量级,能使小鼠的学习效率飙升十倍以上。其核心机制在于,更大的奖励能引发大脑中多巴胺更持久、更强的释放,而这直接充当了学习的“加速器”。这项研究不仅揭示了多巴胺调节学习的新机制,也表明整个领域可能长期低估了动物的学习能力,并使用了“次优”的训练策略。
传统误区:为求数据,牺牲效率
经典理论认为,强化学习(动物和AI的核心学习方式)的效率由一个相对固定的“学习率”决定。研究者通常给予小鼠极微量的奖励(不足其日常需求的1%),旨在鼓励它们为获得更多奖励而不断重复行为,从而产生大量用于分析的学习“试次”。这被视为标准操作,但代价可能是学习过程被不必要地拉长了。
核心突破:奖励大小决定学习速度
研究团队设计了一系列复杂的任务,包括隐藏目标导航、高难度抓取运动技能和感觉决策。他们比较了标准微量奖励与提高10-100倍的“超大奖励” 对小鼠初始学习效率的影响。
结果令人震惊:
学习效率飙升:在“超大奖励”下,小鼠学会任务所需的尝试次数减少了一个数量级(即10倍以上)。例如,某些导航任务,标准奖励需数百上千次尝试,而超大奖励下仅需几次就能掌握。
表现质量不减:虽然学得快,但小鼠最终能达到的任务熟练度与标准奖励组无异,排除了“为求快而牺牲精度”的可能。
缩小个体差异:大奖励显著减少了不同小鼠在学习速度上的个体差异,使大多数个体都能快速进入高效学习状态。
从极少数但回报极高的案例中吸取经验教训,往往能迅速见效(图源自Science )
机制揭秘:多巴胺是核心“加速器”
研究从三个层面解释了“超大奖励”为何如此有效:
提高学习速率:奖励越大,学习新知识的速度越快。
增强学习保持:能更好地巩固和利用之前学到的经验。
提升任务专注度:让动物在实验中更投入,减少分心。
而将这三点串联起来的关键分子正是多巴胺。研究人员发现:
奖励大小编码:消费更大奖励时,大脑腹侧纹状体的多巴胺释放不仅幅度更高,持续时间也更长。
光遗传学验证:通过光遗传学手段,在给予标准奖励时人为延长多巴胺神经元的激活时间,可以部分模拟大奖励的效果(提高学习速率和专注度),但无法完全复制(例如,无法增强对先前学习的保持能力)。这表明多巴胺信号是主要但非唯一的介质。
深远意义:重塑实验范式与理论认知
这项研究具有多重深远影响:
修正理论模型:它直接将奖励大小与学习效率挂钩,挑战了“学习率固定”的传统强化学习模型,要求理论框架纳入奖励大小的动态调节作用。
优化实验设计:为动物行为学研究提供了强效的“加速”工具。在需要快速训练动物的复杂实验中(如神经环路解析),采用更大奖励可极大提升实验效率,减少动物使用量,符合“3R”原则。
揭示多巴胺新功能:明确了多巴胺信号不仅编码“奖励预测误差”(“惊喜”值),其信号幅度和时长本身就能调控学习的速度和专注度,深化了对多巴胺功能的理解。
启发AI与教育:为人工智能领域调整“奖励函数”以优化学习效率提供了生物学的启发。同时,对人类教育而言,它也隐喻了“即时、充分的正向反馈”对提升学习动力的根本性作用。
当然,研究也指出,大奖励并非在所有学习场景中都完美,例如在某些简单条件反射任务中可能干扰预期行为。但总体而言,这项工作像一道强光,照亮了被传统实验范式所忽视的动物学习的真实潜能,并指出了一个简单而强大的原理:要学得快,有时奖励必须给得足够“重磅”。
参考消息:https://www.science.org/doi/10.1126/science.aeb0813