2026-06-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-26 15:55 UTC+8

強化學習在化學反應網路中的實現：以光趨性作為好奇心驅動的探索

該研究將單細胞藻類的趨光行為重新建模為一種資訊驅動的感測器運動過程，透過部分可觀察馬爾可夫決策過程（POMDP）與化學反應網路常微分方程（CRN-ODE）結合，利用逆強化學習從實驗軌跡中推斷行為目標，展示了細胞內生化網路如何支援自適應資訊尋求行為。

來源arXiv Machine Learning作者: Ruyi Tang (LCQB-AG), Gr\'egoire Sergeant-Perthuis (LCQB-AG), David Colliaux

生物系統在充滿噪聲和不完整感官訊號的環境中導航。單細胞藻類的趨光性傳統上被建模為基於刺激-響應規則的機械式執行-翻滾過程。然而，這種描述忽略了生物體主動取樣環境以減少感官歧義的能力。來自一項新研究的研究人員從最小認知的視角出發，將這種導航重新定義為主觀、資訊驅動的感測器運動過程。

為了實現這一目標，他們提出了一個將部分可觀察馬爾可夫決策過程（POMDP）與生化反應動力學相結合的框架。在這個框架中，環境變數被視為隱藏的，細胞透過無記憶貝葉斯步驟從每個觀測中更新一個最小內部狀態。這些內部動力學平衡了朝向光的定向探索與重定向，並且可以透過化學反應網路常微分方程（CRN-ODE）來實現。該模型包含用於光感受的生物物理觀測過程和一個化學上可計算的資訊增益多項式界限。

研究團隊使用逆強化學習（IRL）對30條實驗記錄的衣藻（Chlamydomonas）軌跡進行了分析。他們推斷出了與觀察到的趨光運動一致的行為目標，並將所得動力學與標準隨機模擬演算法（SSA）基線進行了基準測試。結果顯示，模型能夠再現經驗性的光對齊分佈，與基於該資料集的客觀SSA基線相當。

在這個框架中，執行-翻滾交替被理解為一種資訊獲取策略：翻滾重新定向細胞以取樣新的感官配置並解決感官歧義。這一發現展示了細胞內生化網路如何在細胞導航中支援自適應資訊尋求行為。值得注意的是，該論文已被2026年ALIFE會議（加拿大滑鐵盧）接收為口頭報告，表明其學術價值得到了國際同行的認可。