2026-06-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-26 16:13 UTC+8

強化學習實現自主微型機器人在模擬毛細血管中的導航與干預

研究人員開發了基於物理的血液毛細血管網路模擬，利用深度強化學習訓練微型機器人透過趨化性導航。他們系統繪製了導航的物理極限，發現了禁止區域，並觀察到智慧體自主發現多種通用策略。無需重新訓練，這些智慧體即可執行毛細血管流的定向阻塞與疏通，恢復健康基準水平。

來源arXiv Robotics作者: Jannik Drotleff, Samuel Tovey, Paul Hohenberger, Christoph Lohrmann, Julian Ho{\ss}bach, Konstantin Nikolaou, Christian Holm

近日，arXiv上釋出了一項引人注目的研究，展示了深度強化學習（Deep RL）在訓練自主微型機器人於模擬毛細血管網路中導航並進行干預方面的突破性進展。這項研究為靶向藥物輸送和溶栓治療等醫療應用開闢了新的可能性。

在過去，針對微型機器人導航的強化學習研究大多侷限於理想化的幾何模型，這些模型忽略了人體內實際存在的複雜流體動力學、分支血管結構以及密集的細胞障礙。為了克服這些侷限，研究團隊構建了一個物理上高度逼真的毛細血管網路模擬環境。該模擬不僅包含了基於真實流體動力學的流場，還精確模擬了紅細胞的運動行為，並採用了從解剖學資料衍生的分支幾何結構。

在這樣的環境中，研究人員訓練深度強化學習智慧體透過化學趨化性（chemotaxis）進行導航。他們系統性地探索了不同機器人尺寸和游泳速度下的導航物理極限，並揭示了一個關鍵的“禁止區域”——在該區域內，布朗運動和血流速度超過了機器人的推進能力，導致導航無法實現。

值得注意的是，那些成功完成導航任務的智慧體獨立發現了一系列通用策略，包括“旋轉移動”（run-and-rotate）和“搜尋定位”（energy-efficient search-and-sit）策略。這些策略與機器人的具體引數無關，展現了智慧體的自適應能力。

更令人驚歎的是，這些經過訓練的智慧體無需任何額外的重新訓練，就能夠執行毛細血管流的定向阻塞和疏通操作，從而將血流量恢復到健康的基線水平。這一結果表明，強化學習為在複雜生物環境中開發自主微型機器人干預策略提供了一個切實可行的框架。

研究人員認為，該模擬平臺和RL框架未來有望擴充套件到更復雜的血管網路，並最終應用於精準醫療，例如靶向藥物遞送或清除血栓等。這項工作的意義在於，它首次證明了在接近真實的生理條件下，強化學習能夠訓練出具備實用技能的微型機器人智慧體。