揭示外侧OFC对S1的指导在小鼠的灵活决策中发挥着重要作用

原始文献：Banerjee, A., Parente, G., Teutsch, J.et al.Value-guided remapping of sensory cortex by lateral orbitofrontal cortex.Nature585,245–250 (2020).

动物具有根据环境变化适应性调节自身行为的能力。适应性行为的一个重点是价值引导的决策（value-guided decision making），即动物可根据过去得到的奖赏反馈情况灵活地改变自身的行为模式。行为灵活性的降低是自闭症、精神分裂症等ji病的症状之一。在哺乳动物中，前额叶皮层（prefrontal cortex）在灵活的决策行为中起着重要的作用，特别是其中的眼眶额叶皮层（orbitofrontal cortex，OFC）。动物通过感觉皮层处理接受到的各种外界刺激，对于动物做出恰当的决策是不可或缺的。OFC与感觉皮层和皮层下处理奖赏信息的脑分区有着丰富的连接，但OFC在灵活决策中具体发挥了什么作用，以及OFC对感觉皮层的影响仍是未知的。这篇文章中，研究人员用一个反转学习任务（reversal learning task）训练小鼠，发现外侧OFC神经元能够指导初级躯体感觉皮层（somatosensory cortex，S1）中部分神经元的重新映射（remapping），与小鼠的灵活决策行为密切相关。

研究人员通过一系列实验和分析，表明了外侧OFC对S1的指导在小鼠的灵活决策中发挥着重要作用。初次习得任务时，S1的部分神经元表现出了对带来奖励的刺激的选择性，规则改变后，外侧OFC神经元对S1的投射传达了指导信号，驱动了S1神经元对刺激的重新映射，使得小鼠可以灵活的改变其决策行为。

在反转学习任务中，小鼠的头部被固定，面前有一个伸舌头就可以碰到的出水口，它们通过胡须感受靠近的砂纸，不同粗糙程度的砂纸分别代表着舔/不舔的信号，只有在正确的信号下舔出水口，小鼠才能得到液体奖励。当小鼠学会这一任务后，研究人员将不同砂纸代表的信号反转，直至小鼠学会新的任务为止。

摘自原文Fig1，左图为行为学实验的设置，右图显示小鼠随着训练任务进行而展现的学习情况，可以看出正确率（绿）随着训练的进行不断提高，规则反转后正确率瞬间降低，随着继续学习又提高到高水平。错误率（红，未考虑遗漏掉正确信号的情况）则相反。

研究人员发现，用化学遗传学方法抑制S1（S1处理来自胡须的触觉信息）的神经元后，小鼠将不能习得Z初的任务。而抑制外侧OFC的神经元，则会阻碍小鼠习得反转后的新规则（rule switch）。不过抑制外侧OFC并不影响小鼠学会Z初的任务，也不影响小鼠将别的刺激（第三种砂纸）与奖励联系起来。

摘自原文Fig1，用病毒注射法向小鼠OFC或S1注射含有抑制型通道hM4Di的病毒，通过每天注射CNO抑制特定脑区的神经元活动。左图显示，抑制S1后小鼠无法习得Z初的任务。中图显示，规则反转后抑制外侧OFC，小鼠无法习得反转后的新规则。右图显示，抑制外侧OFC并不影响小鼠Z初的学习，以及对新刺激的学习。

研究人员接下来用在体双光子钙成像观察记录了表达有GCaMP6f的小鼠皮层2/3层神经元的钙信号。下图左侧显示了外侧OFC单个神经元的活动情况，左上为成功得到奖励的情况，左下为正确判断没有奖励的情况。可以看出该神经元的活动主要集中在奖励给予阶段（R，reward），小鼠在学会任务后（LE），神经元的活动有一定上升。而规则反转后，当小鼠获得意料外的奖励时（RN，原规则下无法得到奖励，但小鼠在新规则下获得了奖励），神经元活动显著上升，而当小鼠学会新规则后（RE）神经元活动降低。外侧OFC神经元的整体活动也与此一致，即展现出了规则反转后神经元活动的显著上升。

摘自原文Fig2，左图显示外侧OFC单个神经元的活动，右图显示记录到的外侧OFC神经元整体活动情况。

对S1神经元的观测则展现了不同的特点。想对于外侧OFC的神经元，S1神经元的活动更多位于刺激阶段（S，stimulus），且面对有奖赏刺激和无奖赏刺激均有反应。从S1神经元的整体活动来看，无论是初始学习还是规则反转后的学习，在小鼠学会任务后（LE和RE），S1神经元在面对有奖赏刺激时的活动都显著更高（在学会任务之前则是无差异的）。

摘自原文Fig2，左图显示S1单个神经元的活动，右图显示记录到的S1神经元整体活动情况。

上述结果提示，外侧OFC的神经元对奖励结果有着较强的响应，而S1的神经元则更多的响应感受到的刺激，并且会随着小鼠的学习，对导向奖励的刺激表现出更强的响应。研究人员接下来利用记录到的整个训练周期中神经元的活动情况，比较每个神经元在规则反转前后面对不同刺激（正确判断情况下的有奖励刺激-hit和无奖励刺激-CR）的响应程度，计算了每个神经元的不同情况下的选择系数（selectivity index，细节见Methods，大致就是神经元活动在面对有无奖励的刺激下的差异程度）。通过比较不同学习阶段小鼠神经元的选择系数，可以判断神经元究竟是对奖励结果还是刺激本身具有选择性。研究人员发现外侧OFC的神经元始终表现出较高的结果选择性（即始终有高的选择系数，神经元响应有奖励的刺激）；S1的神经元有很大一部分一开始表现出刺激选择性（即规则反转后，神经元的选择系数也反转，响应原规则下带来奖励的刺激），当小鼠学会反转的规则后，S1神经元又变得偏向于结果选择。

摘自原文Fig3，每张图的每个点表示一个神经元，分布在右上角的点表示其活动对奖励有选择性，右下角的点则表示神经元对带来奖励的刺激有选择性。S1的神经元在规则反转后展现出对（原规则下带来奖励的）刺激的选择性（左下），而当小鼠习得反转后的规则后（右下），神经元更多偏向于结果（奖励）的选择。

小鼠决策行为的灵活性就体现在对反转规则的重新学习上，重新学习过程也带来了S1神经元活性的重新映射（即选择性改变）。通过向小鼠的S1注射表达荧光蛋白的逆行AAV病毒，研究人员验证了外侧OFC到S1的神经投射。用化学遗传学方法抑制外侧OFC的神经元后，S1的神经元的选择性不再改变。下图为小鼠不同神经元在奖励给予阶段活动情况的选择系数分布图。作为对照的S1（中）神经元的选择系数有明显的重新排布特征，即选择系数由正到负（表示规则反转后，神经元依然对原规则下的奖励刺激起响应），经过重新学习后选择系数又变回正（神经元对新规则下的奖励刺激其响应），而抑制OFC后的S1神经元（下）则没有此特点。

自原文Fig4，小鼠神经元在奖励给予阶段活动情况的选择系数分布图。

综合来看，研究人员通过上述一系列实验和分析，表明了外侧OFC对S1的指导在小鼠的灵活决策中发挥着重要作用。初次习得任务时，S1的部分神经元表现出了对带来奖励的刺激的选择性，规则改变后，外侧OFC神经元对S1的投射传达了指导信号，驱动了S1神经元对刺激的重新映射（remapping），使得小鼠可以灵活的改变其决策行为。

如果您也对动物实验感兴趣，欢迎关注和推荐关注知乎帐号：脑苛学 和 \/信公众号：bioviewer，专注于动物神经科学与行为学的实验知识的方法传播与分享交流，您可以推荐给您身边的朋友、同学以及老师，我们会定期更新您需要的相关实验方法的视频和文章，希望能对大家带来帮助！

上一篇：光遗传学技术在脑Ji病神经环路研究中的应用（2）
下一篇：通过Y-迷宫实验，如何来评估动物的学习记忆成绩？