2026-06-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-26 15:55 UTC+8

强化学习在化学反应网络中的实现：以光趋性作为好奇心驱动的探索

该研究将单细胞藻类的趋光行为重新建模为一种信息驱动的传感器运动过程，通过部分可观察马尔可夫决策过程（POMDP）与化学反应网络常微分方程（CRN-ODE）结合，利用逆强化学习从实验轨迹中推断行为目标，展示了细胞内生化网络如何支持自适应信息寻求行为。

来源arXiv Machine Learning作者: Ruyi Tang (LCQB-AG), Gr\'egoire Sergeant-Perthuis (LCQB-AG), David Colliaux

生物系统在充满噪声和不完整感官信号的环境中导航。单细胞藻类的趋光性传统上被建模为基于刺激-响应规则的机械式运行-翻滚过程。然而，这种描述忽略了生物体主动采样环境以减少感官歧义的能力。来自一项新研究的研究人员从最小认知的视角出发，将这种导航重新定义为主观、信息驱动的传感器运动过程。

为了实现这一目标，他们提出了一个将部分可观察马尔可夫决策过程（POMDP）与生化反应动力学相结合的框架。在这个框架中，环境变量被视为隐藏的，细胞通过无记忆贝叶斯步骤从每个观测中更新一个最小内部状态。这些内部动力学平衡了朝向光的定向探索与重定向，并且可以通过化学反应网络常微分方程（CRN-ODE）来实现。该模型包含用于光感受的生物物理观测过程和一个化学上可计算的信息增益多项式界限。

研究团队使用逆强化学习（IRL）对30条实验记录的衣藻（Chlamydomonas）轨迹进行了分析。他们推断出了与观察到的趋光运动一致的行为目标，并将所得动力学与标准随机模拟算法（SSA）基线进行了基准测试。结果显示，模型能够再现经验性的光对齐分布，与基于该数据集的客观SSA基线相当。

在这个框架中，运行-翻滚交替被理解为一种信息获取策略：翻滚重新定向细胞以采样新的感官配置并解决感官歧义。这一发现展示了细胞内生化网络如何在细胞导航中支持自适应信息寻求行为。值得注意的是，该论文已被2026年ALIFE会议（加拿大滑铁卢）接收为口头报告，表明其学术价值得到了国际同行的认可。