評估AI代理在神經科學數據到發現流水線中的案例研究
本實證研究評估了通用編碼代理在果蠅光遺傳學數據到發現流水線上的表現。代理可以解決單個階段,但在缺乏預定義標準、需要科學判斷時表現掙扎。端到端自動化仍超出當前能力。
代理型人工智能工具為自動化科學研究流水線中的軟件開發瓶頸提供了一條有希望的途徑,尤其是那些需要領域專家花費數天到數月構建的階段。科學家們關心的是正確性和穩健性,而非實現細節。本文介紹了一項實證研究,評估通用編碼代理在果蠅光遺傳學數據到發現流水線上的表現。該研究使用的任務規模遠超現有基準,數據集數量級更大,評估標準基於領域專家的標準。
研究顯示,代理能夠解決幾個獨立的流水線階段,表明階段級自動化是可行的。然而,通過分析代理的代碼迭代,研究人員發現,當沒有預定義的迭代標準時,代理最掙扎,因為它們必須運用科學判斷來評估當前解決方案。這是一個關鍵且開放性的挑戰。模仿科學實踐,代理有時會嘗試通過視覺檢查中間輸出來進行自我評估,但大多數情況下它們無法正確解讀所見或據此採取行動。
正確完成端到端流水線需要將所有階段串聯成功,這超出了代理當前的能力。研究還指出了現有基準中基本未涉及的挑戰,包括計算資源管理以及對大型保留數據集的泛化能力。最後,研究者提煉了構建科學任務和針對開放式問題制定嚴格評估標準的原則,為未來AI在科學自動化中的應用提供了方向。