2026-06-26 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-26 16:55 UTC+9

化学反応ネットワークにおける強化学習の実装：好奇心駆動型探索としての走光性への応用

この研究は、単細胞藻類の走光性を情報駆動型の感覚運動プロセスとして再構築し、部分観測可能マルコフ決定過程（POMDP）と化学反応ネットワーク常微分方程式（CRN-ODE）を結び付ける枠組みを提案。30本のクラミドモナス軌跡に対する逆強化学習を用いて行動目標を推論し、ラン・タンブル交代が情報獲得戦略として現れることを示し、細胞内生化学ネットワークが適応的な情報探索行動をどのように支えるかを実証している。

ソースarXiv Machine Learning著者: Ruyi Tang (LCQB-AG), Gr\'egoire Sergeant-Perthuis (LCQB-AG), David Colliaux

生物システムは、ノイズが多く不完全な感覚信号を用いて環境をナビゲートする。単細胞藻類の走光性は、従来、刺激応答ルールに基づく機械的なラン・タンブル過程としてモデル化されてきた。しかし、このような記述は、生物が感覚の曖昧さを減らすために能動的に環境をサンプリングする能力を見落としている。新たな研究の研究者らは、最小限の認知の視点から、このナビゲーションを主観的で情報駆動型の感覚運動プロセスとして再定義した。

そのために、彼らは部分観測可能マルコフ決定過程（POMDP）と生化学反応ダイナミクスを結び付ける枠組みを提案した。環境変数は隠されており、細胞は無記憶ベイズステップを通じて各観測から最小限の内部状態を更新する。これらの内部ダイナミクスは、光への志向と探索的な再配向のバランスをとり、化学反応ネットワーク常微分方程式（CRN-ODE）によって実装できる。このモデルには、光受容のための生物物理学的観測プロセスと、情報利得の化学的に計算可能な多項式境界が含まれている。

研究チームは、30本の実験的に記録されたクラミドモナスの軌跡に対して逆強化学習（IRL）を用い、観察された走光性運動と一致する行動目標を推論し、得られたダイナミクスを標準的な確率シミュレーションアルゴリズム（SSA）ベースラインとベンチマークした。彼らのモデルは、経験的な光整列分布を再現し、このデータセットにおける客観的SSAベースラインと同等であった。

この枠組みにおいて、ラン・タンブル交代は情報獲得戦略として現れる：タンブルは細胞を再配向して新しい感覚構成をサンプリングし、感覚の曖昧さを解消する。これにより、細胞内生化学ネットワークが細胞ナビゲーションにおける適応的な情報探索行動をどのように支えるかが示されている。本論文は、2026年のALIFE会議（カナダ、ウォータールー）で口頭発表として採択されており、その学術的価値が国際的に認められている。