Claude Code 及其未來展望
新一代AI編碼工具如Claude Code正展現出強大的自主工作能力,能夠獨立完成複雜任務並自我糾錯。文章介紹了Claude Code的功能,如長時間自主運行、上下文壓縮、技能和子代理機制,並探討了其對編程領域的深遠影響。儘管目前主要面向程序員,但預示着AI在知識工作中的更廣泛應用。
Claude Code,作為新一代人工智能編碼工具的佼佼者,最近展示了令人矚目的能力。我給它下達了一個任務:“開發一個基於網頁或軟件的創業點子,能讓我每月賺1000美元,並且所有工作都由你完成——包括生成想法和實現它。我不需要做任何事,只需運行你給我的一個程序。它不需要我具備任何編碼知識,所以請確保一切運轉良好。”AI只問了三個選擇題,隨後決定我應該以39美元的價格向專業用户出售包含500個提示詞(prompts)的套餐。接着,它獨立工作了整整一小時十四分鐘,創建了數百個代碼文件和提示詞。最後,它給了我一個文件,只需運行即可創建並部署一個能正常運營的網站(雖然其中充斥着粗糙的虛假營銷聲明),該網站就出售它承諾的那套500個提示詞。你實際上可以看到它上線的網站,不過我已經移除了銷售鏈接——那個鏈接原本確實有效並能收款。我強烈懷疑,如果我無視良心真的出售這些提示詞包,我能輕鬆賺到承諾的1000美元。
Claude Code沒有友好的界面,但你可以看到我如何提出單一請求,AI對此進行詢問,然後獨立工作超過一小時,最後準確地給出了我要求的東西,沒有任何明顯的錯誤。
這就是工作中的Claude Code,它代表了在過去一個月左右突然出現的AI能力飛躍的新一代編碼工具。這些新工具之所以突然變得強大,並非源於單一突破,而是兩大進步的結合。首先,最新的AI能夠執行遠超以往的自主工作,同時在編程任務中自我糾正許多錯誤。其次,AI被賦予了一個“代理框架”(agentic harness),包含一系列工具和方法,使其能夠以新的方式解決問題。這兩大因素疊加,導致大型AI公司的最新技術取得了巨大飛躍。
METR跟蹤了AI能自主完成(以人類專業人員所需時間為衡量)且成功率50%的任務時長。這一時長呈指數級增長,並在過去幾個月裏大幅提升。這只是AI能力的一個衡量標準,但與其他大多數指標也高度相關。
不幸的是,對於大多數希望嘗試AI的人來説,這些新工具是為程序員設計的。我的意思是,它們確實是專為程序員打造的:它們假設你理解Python命令和編程最佳實踐,並且被封裝在看起來像20世紀80年代計算機實驗室的界面中。它們還明確旨在通過適合現有程序員工作流程的方法,幫助分析、排查和編寫代碼。從很多方面來看,這很遺憾,因為這些系統實際上對所有類型的知識工作者都有廣泛用途,通過觀察它們的能力(並親自嘗試),我認為你可以學到很多關於AI未來的知識。在這篇文章中,我們將重點關注Claude Code(由Opus 4.5驅動),但它與主要競爭對手OpenAI的Codex(由GPT-5.2驅動)和Google的Antigravity(由Gemini 3驅動)的工作原理類似。
回到Claude Code啓動創業公司的例子,儘管它實際表現令人印象深刻,但僅僅觸及了該工具能力的一小部分。在那個案例中,我只使用了Claude Code進行編碼,但如果我要求它對實時網站進行不同角色用户的測試並給我一份報告,它會部署其眾多工具之一——與電腦上網頁瀏覽器的連接。Claude會控制瀏覽器,像人類一樣滾動瀏覽它創建的網站。在第一次測試中,它給了我一份相當樂觀的報告,但由於我知道AI往往有諂媚傾向,我還要求它提供一份更批判性的報告。第二份報告更好地指出了潛在問題(並發現了網站上粗糙的虛假評論)。作為下一步,我可以輕鬆要求它實施其建議,從而在幾乎不需要我輸入的情況下繼續這個過程。
魔術技巧
Claude Code如此出色的一個重要原因是它在代理框架中使用了各種技巧,使其非常智能的AI——Opus 4.5——能夠克服LLM的許多問題。例如,在AI進行用户研究時,一個有趣的事情發生了:它的上下文窗口滿了。正如你所知,AI一次只能“記住”有限的信息。這個上下文窗口通常按人類標準相當長(15萬字或更多),但它會很快被填滿,因為它包含整個對話、AI讀取的每個文檔、拍攝的每張圖像以及幫助引導AI的初始系統提示。AI沒有真正的長期記憶,所以一旦上下文窗口滿了,它就無法記住更多內容。如果你只是進行隨意聊天,這其實不是問題。與ChatGPT的任何長對話都有滾動上下文窗口,AI會不斷忘記對話最舊的部分,但通常能通過即興發揮基於最近討論來跟上。然而,如果你在做實際工作,AI在閲讀新代碼時忘記部分代碼就會成為大問題。
工作中的壓縮。Claude Code以不同方式處理這個問題。當上下文耗盡時,它會停止並“壓縮”到目前為止的對話,記下停止時的確切位置。然後它清空上下文窗口,Claude Code的新版本讀取筆記並回顧進展——想象一下電影《記憶碎片》中失憶的主角每次醒來沒有記憶時,會看着身上的紋身作為參考。這些筆記給了Claude繼續前進所需的一切。這就是為什麼Claude能連續運行數小時,它會仔細記錄沿途所做的工作,並生成可參考的中間成果,如軟件片段和報告。
這不是Claude Code用來繞過AI侷限的唯一技巧。另一個是使用技能。如讀者所知,用户必須通過提示詞(prompts)引導AI做事。這些提示詞充當指令,隨着AI變得智能,它們執行復雜提示(甚至長達百頁的提示)的能力大大提高。然而,這些長提示會佔用大量上下文窗口,並且需要在正確的時間給AI正確的提示。這要麼意味着作為人類,你必須不斷提示AI,要麼需要設計一個複雜的自動化系統來持續向AI輸入提示。
技能解決了這個問題。它們是由AI決定何時使用的指令,不僅包含提示,還包含AI完成任務所需的一套工具。它需要知道如何構建一個出色的網站嗎?它會加載“網站創建者技能”,該技能解釋瞭如何構建網站以及構建時要用的工具。它需要構建一個Excel電子表格嗎?它會加載帶有自己指令和工具的“Excel技能”。再做一個電影類比,就像《黑客帝國》中的尼奧將武術指令上傳到大腦並習得新技能:“我會功夫。”技能可以讓AI按需切換知識,從而覆蓋整個流程。例如,Jesse Vincent發佈了一套有趣的免費技能,讓Claude Code能夠處理完整的軟件開發過程,按需學習技能,從頭腦風暴和規劃開始,一直到測試代碼。技能創建技術上非常簡單,用普通語言完成,AI實際上可以幫助你創建它們(稍後會詳細介紹)。
一個技能文本的例子,這裏展示的是Anthropic發佈的“設計技能”。注意它是用普通語言編寫的,並信任AI做出決策。
除了技能,Claude Code還有其他手段來管理有限的上下文窗口並解決難題。它還可以創建子代理——實際上是啓動其他專門的AI來解決特定問題。這在很多方面都很有用。由於Opus是一個大型昂貴的模型,它可以將來回較簡單的任務委託給更便宜更快的模型。它還允許Claude同時運行多個不同進程,使其像團隊而非個人工作。而且這些模型可以非常專業化,擁有自己的上下文窗口。例如,我構建了專門用於研究和圖像創建的子代理。主AI模型在需要時會“僱傭”這些代理來完成專門工作。
你甚至不需要創建自己的工具。任何人都可以分享技能或子代理,而希望讓AI代理與其產品配合使用的公司可以採用一種稱為模型上下文協議(MCP)的方法,賦予任何AI指令和訪問權限。有來自出版商的MCP讓AI訪問科學研究論文進行研究,來自支付公司的MCP讓AI分析財務數據,來自軟件供應商的MCP讓AI使用特定軟件產品,等等。結果是一個高度靈活的系統,其中像Claude Opus 4.5這樣聰明的通才AI可以按需應用專業化的技能,並根據需要使用工具,同時跟蹤自己的工作。
Claude Code特別強大,因為它能在你的電腦上操作你的文件。所以現在你擁有了一個能做人類在機器上幾乎任何事情(前提是有人類權限)的AI。它可以讀取你所有文件並創建新文件(PowerPoint和Word歸根結底只是代碼,Claude知道如何編寫代碼),使用你的瀏覽器上網,為你編寫和執行程序等。當然,AI並非完美無缺,給AI訪問你的瀏覽器和電腦的權限會帶來各種新風險。AI可能會刪除不應刪除的文件,執行產生意外後果的代碼,或訪問瀏覽器中的敏感數據。儘管有這些警告,我將給你一個Claude Code的快速入門,但請做好備份,使用專用文件夾,並且不要讓它訪問任何你無法承受損失的東西。
業餘者的Claude Code指南
儘管我一直在使用Claude Code的命令行界面(如截圖所示),但有一種更簡單的方法(從昨天開始!)來訪問Claude Code。你可以通過Claude桌面版(可在此處下載安裝)來實現。目前,桌面版的功能比命令行界面略少,但對於業餘愛好者來説要容易得多。
現在,只需授權AI訪問一個文件夾(記住Claude可以對文件夾內的文件做任何事,所以如果敏感請小心並做好備份),然後你就可以開始與AI合作:讓它研究和編寫報告,將其訪問你的信用卡記錄以整理成電子表格並告知任何異常,要求它進行數據可視化,或其他你喜歡的任何事。我前面提到的最強大的選項是通過以“/”開頭的斜槓命令訪問——輸入/agents可以設置子代理,/skills可以創建或下載技能等(桌面版支持的斜槓命令有限,但完整功能即將推出)。有很多人使用Claude Code的方式,所以你可以嘗試找出適合你的方法,但我也建議你用它真正編程,即使你不是程序員。
例如,在寫這篇文章時,我會偶爾打開一個Claude Code窗口,讓AI為我構建一個遊戲作為樂趣:一個文明興衰的模擬歷史,發展出自己的語言、文化、經濟。每隔幾分鐘,我會給AI另一個看似不可能的要求:確保世界有自身的板塊構造和天氣;記錄統治者的家譜;構建一個AI來戲劇性總結事件等等。每次修改後,AI都會進行遊戲測試並生成新版本。與之前的“氛圍編碼”體驗不同,AI從未卡住或陷入循環,一切都很順利。請看下面的視頻。我確信其中充滿了專業程序員會發現的漏洞,但你可以在這裏下載結果(AI也處理了這部分)。
這一切意味着什麼?如果你是一名程序員,你應該已經在探索這些工具。如果你與編程相關(處理數據的學者,希望嘗試代碼的設計師,任何想嘗試構建想象之物的人),這是你實驗的時刻。但這裏有更深層次的含義:藉助合適的框架,當今的AI能夠進行真實、持續且確實重要的工作,而這反過來正開始改變我們處理任務的方式。
不出所料,這一切從編程開始。AI界最著名的程序員之一Andrej Karpathy最近發帖説:“我從未感到作為程序員如此落後。這個行業正在被大幅重構,因為程序員貢獻的代碼部分越來越稀疏且間隔。我有一種感覺,如果我恰當地整合過去大約一年裏出現的工具,我本可以強大10倍,而未能獲得這種提升絕對是技能問題。”不要讓當前Claude Code的笨拙或其對編程的專門化迷惑你。能夠使AI處理其他知識任務的新框架即將出現,隨之而來的還有它們將帶來的變革。