2026-06-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-26 15:55 UTC+8

強化學習在化學反應網絡中的實現：以光趨性作為好奇心驅動的探索

該研究將單細胞藻類的趨光行為重新建模為一種信息驅動的傳感器運動過程，通過部分可觀察馬爾可夫決策過程（POMDP）與化學反應網絡常微分方程（CRN-ODE）結合，利用逆強化學習從實驗軌跡中推斷行為目標，展示了細胞內生化網絡如何支持自適應信息尋求行為。

來源arXiv Machine Learning作者: Ruyi Tang (LCQB-AG), Gr\'egoire Sergeant-Perthuis (LCQB-AG), David Colliaux

生物系統在充滿噪聲和不完整感官信號的環境中導航。單細胞藻類的趨光性傳統上被建模為基於刺激-響應規則的機械式運行-翻滾過程。然而，這種描述忽略了生物體主動採樣環境以減少感官歧義的能力。來自一項新研究的研究人員從最小認知的視角出發，將這種導航重新定義為主觀、信息驅動的傳感器運動過程。

為了實現這一目標，他們提出了一個將部分可觀察馬爾可夫決策過程（POMDP）與生化反應動力學相結合的框架。在這個框架中，環境變量被視為隱藏的，細胞通過無記憶貝葉斯步驟從每個觀測中更新一個最小內部狀態。這些內部動力學平衡了朝向光的定向探索與重定向，並且可以通過化學反應網絡常微分方程（CRN-ODE）來實現。該模型包含用於光感受的生物物理觀測過程和一個化學上可計算的信息增益多項式界限。

研究團隊使用逆強化學習（IRL）對30條實驗記錄的衣藻（Chlamydomonas）軌跡進行了分析。他們推斷出了與觀察到的趨光運動一致的行為目標，並將所得動力學與標準隨機模擬算法（SSA）基線進行了基準測試。結果顯示，模型能夠再現經驗性的光對齊分佈，與基於該數據集的客觀SSA基線相當。

在這個框架中，運行-翻滾交替被理解為一種信息獲取策略：翻滾重新定向細胞以採樣新的感官配置並解決感官歧義。這一發現展示了細胞內生化網絡如何在細胞導航中支持自適應信息尋求行為。值得注意的是，該論文已被2026年ALIFE會議（加拿大滑鐵盧）接收為口頭報告，表明其學術價值得到了國際同行的認可。