华人学者一作！重赏之下必有勇夫的科学依据找到了：《Science》发现超级大奖励可“开挂”学习，多巴胺是幕后功臣

长久以来，神经科学和人工智能领域有一个根深蒂固的共识：动物的学习效率主要取决于“学习率”这个固有参数，而与奖励本身的大小关系不大。因此，为了获得足够多的训练数据，实验室中通常给予动物极微小的奖励（如一小滴水）。2026年5月21日，霍华德·休斯医学研究所Luke T. Coddington团队（Sheng Gong为第一作者）在Science 在线发表题为“Reward magnitude determines reinforcement learning efficiency”的研究论文，该研究彻底挑战了这一传统，发现将奖励幅度提高一两个数量级，能使小鼠的学习效率飙升十倍以上。其核心机制在于，更大的奖励能引发大脑中多巴胺更持久、更强的释放，而这直接充当了学习的“加速器”。这项研究不仅揭示了多巴胺调节学习的新机制，也表明整个领域可能长期低估了动物的学习能力，并使用了“次优”的训练策略。

传统误区：为求数据，牺牲效率

经典理论认为，强化学习（动物和AI的核心学习方式）的效率由一个相对固定的“学习率”决定。研究者通常给予小鼠极微量的奖励（不足其日常需求的1%），旨在鼓励它们为获得更多奖励而不断重复行为，从而产生大量用于分析的学习“试次”。这被视为标准操作，但代价可能是学习过程被不必要地拉长了。

核心突破：奖励大小决定学习速度

研究团队设计了一系列复杂的任务，包括隐藏目标导航、高难度抓取运动技能和感觉决策。他们比较了标准微量奖励与提高10-100倍的“超大奖励” 对小鼠初始学习效率的影响。

结果令人震惊：

学习效率飙升：在“超大奖励”下，小鼠学会任务所需的尝试次数减少了一个数量级（即10倍以上）。例如，某些导航任务，标准奖励需数百上千次尝试，而超大奖励下仅需几次就能掌握。

表现质量不减：虽然学得快，但小鼠最终能达到的任务熟练度与标准奖励组无异，排除了“为求快而牺牲精度”的可能。

缩小个体差异：大奖励显著减少了不同小鼠在学习速度上的个体差异，使大多数个体都能快速进入高效学习状态。

从极少数但回报极高的案例中吸取经验教训，往往能迅速见效（图源自Science ）

机制揭秘：多巴胺是核心“加速器”

研究从三个层面解释了“超大奖励”为何如此有效：

提高学习速率：奖励越大，学习新知识的速度越快。

增强学习保持：能更好地巩固和利用之前学到的经验。

提升任务专注度：让动物在实验中更投入，减少分心。

而将这三点串联起来的关键分子正是多巴胺。研究人员发现：

奖励大小编码：消费更大奖励时，大脑腹侧纹状体的多巴胺释放不仅幅度更高，持续时间也更长。

光遗传学验证：通过光遗传学手段，在给予标准奖励时人为延长多巴胺神经元的激活时间，可以部分模拟大奖励的效果（提高学习速率和专注度），但无法完全复制（例如，无法增强对先前学习的保持能力）。这表明多巴胺信号是主要但非唯一的介质。

深远意义：重塑实验范式与理论认知

这项研究具有多重深远影响：

修正理论模型：它直接将奖励大小与学习效率挂钩，挑战了“学习率固定”的传统强化学习模型，要求理论框架纳入奖励大小的动态调节作用。

优化实验设计：为动物行为学研究提供了强效的“加速”工具。在需要快速训练动物的复杂实验中（如神经环路解析），采用更大奖励可极大提升实验效率，减少动物使用量，符合“3R”原则。

揭示多巴胺新功能：明确了多巴胺信号不仅编码“奖励预测误差”（“惊喜”值），其信号幅度和时长本身就能调控学习的速度和专注度，深化了对多巴胺功能的理解。

启发AI与教育：为人工智能领域调整“奖励函数”以优化学习效率提供了生物学的启发。同时，对人类教育而言，它也隐喻了“即时、充分的正向反馈”对提升学习动力的根本性作用。

当然，研究也指出，大奖励并非在所有学习场景中都完美，例如在某些简单条件反射任务中可能干扰预期行为。但总体而言，这项工作像一道强光，照亮了被传统实验范式所忽视的动物学习的真实潜能，并指出了一个简单而强大的原理：要学得快，有时奖励必须给得足够“重磅”。

参考消息：https://www.science.org/doi/10.1126/science.aeb0813