AI代理的有用性
本文探討了AI代理的實用性,作者從自身研究經歷出發,指出儘管AI技術發展迅速,但個人在空閒時間對AI代理的需求有限。作者反思了數字極簡主義哲學,並討論了AI代理在程式設計、寫作和研究中的實際應用,強調人類參與的重要性。
關於AI代理的有用性
2026年4月8日
代理式AI正經歷其高光時刻(有人說是十年)。過去兩年,我一直在研究基於LLM的代理,但研究(涉及公共資助專案和學術同行評審)進展緩慢,無法跟上整個科技行業日新月異的發展步伐,尤其是當AI工具本身被用於輔助程式設計新工具和框架時。小規模實驗很快就會被新的前沿模型和大型公司的突破性工具所淘汰。現在,實驗最先進的AI模型比以往任何時候都更容易(只需連線API),但要在保持相關性的同時進行穩健的實驗,時間上卻頗具挑戰。
儘管發展速度極快,但技術的普及程度緩解了緊迫感。大多數改進至今都已出現在開源模型和開源軟體中。任何護城河都無法長期堅守,競爭對手經常超越彼此。許多研究都是公開的,甚至嚴密保守的秘密也可能因非常簡單的錯誤而洩露。我既不作為公民也不作為研究者擔心在AI競賽中“落後”,因為這項技術是如此易於獲取。然而,商業經理和CEO們顯然看法不同,他們急於儘快採用AI,而沒有充分評估為什麼、如何以及以何種成本。這些工具仍然全新,關於如何有效使用它們存在著大量不同的建議。我尤其感興趣的是人們對AI代理有用性的看法分歧之大,這也是促使我寫這篇文章的原因。
代理的缺失
我發現AI代理有很多引人入勝之處,但最有趣的是它們在業餘時間對我幾乎沒有用處。在工作中,它們在某種意義上至關重要,因為我以研究它們為生。為此,我實驗編碼代理,以瞭解它們將如何以及會如何影響軟體工程;毫無疑問,計算機程式設計已被永久改變。但當我合上工作筆記型電腦時,我沒有絲毫讓AI代理為我做任何事的衝動。
我想知道,我對AI代理代表我行動的需求缺乏,究竟是一種特權地位的體現,是我生活中關注重點的結果,還是它們實際上並不像宣傳的那樣有用。在很多方面,我顯然是特權的——享有免費教育、廣泛的社會服務、免費醫療和免受審查的自由,這使得過上穩定、安全的生活更加容易,無需與強大機構鬥爭以維護我的權利。我提到這一點,是因為大量軼事證據表明LLM如何幫助人們解決涉及繁瑣官僚流程的各種挑戰。由於我目前不面臨這些問題,我無法過多評論AI代理在這些情況下的有用性,而且我顯然因此而特權。不過,我要評論的是,個體層面的好處與集體層面的後果之間通常存在差異。
至於更日常的事務,我遵循數字極簡主義哲學,其自然效果是我希望用數字裝置完成的事情很少。這或許就是AI代理讓我覺得多餘的主要原因之一。它們(仍然)侷限於數字領域,鑑於我在那裡沒什麼想完成的,我自然不會有需求。此外,正如我在關於外包思考的文章中所述,我認為某些平凡的活動對我們健康有益,因此我不太傾向於自動化流程。我觀察到許多人花費大量時間和金錢使用這些工具,但這似乎幾乎總是增加了花在電腦上的時間,而不是減少了。
生產力與價值
如上所述,審視並呈現我自己的立場,是為了圍繞此類代理的價值展開討論。我注意到,像西蒙·威利森這樣的有影響力人物評論了AI代理帶來的明顯需求和價值。像OpenClaw這樣的AI工具流行表明需求很高,但我不確定能否以流行度來判斷其價值。有足夠多的例子表明,既受歡迎又有害的事物是存在的。
埃德·齊特龍今年早些時候在BlueSky上表達了對AI有限有用性的強烈觀點,質疑AI是否只能讓“一些工程師更快地做一些事情”,等等。一位回應者觀察到,齊特龍只是在描述生產力提高而沒有認識到這一點。在我看來,這裡的缺失環節是,齊特龍話裡話外是說,開發者生產力的簡單提速並不一定帶來價值提升,而價值不能以程式碼行數或開發速度來衡量。毫無疑問,我們對“價值”實際含義的看法存在巨大差異,這在比較例如歐洲和美國的立場時尤為明顯。後者通常與生產力增長和經濟增長等相對單一的方面相關,但這不一定是我們改善生活質量所需要的。
最近關於AI的文章,如達里奧·阿莫迪的《技術的青春期》和馬特·舒默的《大事正在發生》,為炒作推波助瀾。舒默敦促每個人都使用AI,並弄清楚如何很好地使用它——例如每天花一定時間使用AI。AI的真正好處對我來說仍不清楚,但我同意意識到這項技術是什麼以及它能做什麼的重要性。然而,我們即將到達一個點,舒默的建議應該反過來。我堅持每天花時間在沒有其他輸入的情況下寫作和反思——不是來自AI,不是來自搜尋引擎或網際網路,只是用筆在紙上寫作。在我的研究中,我與LLM和AI代理互動很多,我嘗試最新模型和工具的新功能。但是,我總會保留一些工作時間用於自己的反思和發展。即使在擁有LLM之前,線上搜尋並找到他人的想法和解決方案也太容易了,而不是獨立做出努力。
AI研究中的AI代理
我在工作中做的幾乎所有事情都是數字化的,因此使用LLM和AI代理的潛力在技術上非常巨大。然而,我在各種用例中的經歷好壞參半。請求對散文的反饋對我來說似乎沒有益處,至少從長遠來看。這似乎是語言模型的完美任務:告訴我文本是否結構良好,是否有意義,論點是否薄弱,哪些可以改進等等。LLM可能真正幫助我改進文本,我並不是說我的散文寫得比訓練在數字圖書館上的數學模型更好。然而,在我測試LLM用於寫作(例如,改進報告草稿)時,LLM經常引導我走上一條讓我最終得到不滿意結果的道路,一條我不能代表的東西,一條如果不是被“樂於助人的助手”說服去調整文本,我就不會寫出的東西。每個人都可以讓LLM寫些東西,但我是受僱並被信任去寫基於我的知識和經驗認為是重要和真實的東西。
程式設計和軟體開發是我迄今測試的最有前途的用例。我一直在實驗編碼代理,如GitHub Copilot、OpenAI的Codex、Claude Code和Goose,使用各種LLM作為引擎。在2025年秋季,我發現編碼代理非常笨拙,產生不必要的程式碼量,很快就使整個專案難以管理。內聯自動補全功能似乎比代理方法更可取。現在,情況發生了變化,我可以用編碼代理構建較小的原型和專案,同時保持我所需的監督和洞察水平。
我知道許多開發者幾個月來一直在使用編碼代理進行“放手”開發,自己編寫很少或沒有程式碼行。我屬於謹慎派,我格外注意瞭解我的軟體專案是如何設計和實現的。下面是我為編碼代理測試過的指令示例,根據我的偏好和用例來提高它們的可用性:
核心原則
進行最小、集中的更改。如有疑問,做得更少而不是更多。
程式碼更改
- 每個請求優先修改最多1-2個檔案
- 保持更改集中在請求的特定功能上
- 除非明確要求,否則避免重構工作程式碼
編寫程式碼之前
說明你的計劃:
- 你將修改或建立哪個檔案
- 更改的大致範圍
- 對現有功能的任何潛在副作用
在繼續進行大更改(>100行或多個檔案)之前等待批准。
上述指令可能看起來過於嚴格,但這類指南使編碼代理更有幫助,在我看來。
AI代理也被視為加速研究的一種方式。我有一個想法,做一篇相對簡單的研究論文,涉及少量文獻綜述,想看看AI代理表現如何,從資料收集到完成論文。由GPT-5.4驅動的OpenAI Codex,具有“額外高的推理努力”,令人印象深刻地生成了連貫的內容,儘管它並不是很有趣或相關。我還嘗試讓同一個代理重現我為另一篇論文所做的分析和討論。同樣,它是連貫的,但沒有產生有趣的研究。
毫無疑問,在這方面取得了巨大進步。AI代理現在幾乎可以處理任何格式的資料集,製作指令碼進行分析,生成圖表和表格,生成討論並將全部內容編譯成PDF,無需人工干預。即使結果本身並不特別有趣,它仍然意味著資料分析指令碼的生成和視覺化現在可以快得多。結果的解釋並不那麼容易外包,即使LLM能生成一致且相關的討論,仍然存在一個問題:如果沒有人類檢視結果並認為它們有趣且有用,這些結果是否真的被解釋。
隨著代理框架和驅動它們的LLM的改進,有可能將更多研究步驟和質量控制外包給代理。基於當前最先進水平,我可以預見一個AI代理能夠產生邏輯性和有價值的研究的未來。我更擔心人類參與過程的減少。“人在環中”是AI研究中一個流行的術語,但我們應該避免將其視為二元對立,而應更多地視為人類參與的光譜。更大程度的自動化很快會導致更少的人類能動性,而不是一些AI提供商吹捧的自我賦權。現實世界中的研究不僅是理想主義的知識追求,它塑造了我們的社會和政策。在研究過程中保持人類的參與和一致性(包括那些不參與開發前沿AI模型的人類和社群)將是未來的一項重要任務。
一個有趣的附帶說明是,在描述我的工作時,我變得非常小心使用“AI研究者”這個詞。此時,無法知道這是指研究AI的人類還是做研究的AI代理。