我們執行了一個複雜任務——使用Claude Fable模型分析LangChain倉庫
一項詳細的實驗,比較了五個Claude模型(Opus、Fable、Sonnet、Sonnet 4.6、Haiku)對LangChain Python單倉的完整審計。Fable在評分上與Opus持平(A-),但在生成可操作的里程碑和快速勝利方面表現出色。文章展示了發現、優缺點,並推薦多模型流程。
Anthropic 最近推出了 Claude Fable 模型。為了瞭解它在實際複雜任務中的表現,我們在 CTRL NODE 平臺上進行了一項實驗:使用五個不同的 Claude 模型(Opus 4.8、Fable 5、Sonnet 5、Sonnet 4.6 和 Haiku 4.5)對 LangChain Python 單倉庫執行相同的深度審計任務。每個模型都收到了相同的四階段提示:發現、審計、策略和任務計劃。所有發現必須基於證據並引用具體檔案和行號。
實驗設定非常嚴謹。我們克隆了 LangChain 倉庫,並在 CTRL NODE 中為每個模型建立了一個代理,所有代理共享同一工作目錄。每個代理獨立執行提示,輸出完整的 Markdown 報告和互動式 HTML 儀表板。
結果令人印象深刻。Fable 給出了 A- 的整體評級,與 Opus 相同,但比 Haiku 的 A 更誠實。Fable 的強項在於策略制定和任務分解。它提出了四個戰略主題、明確的非目標以及包含里程碑 M0 到 M3 的詳細計劃,每個專案都有工作量評估、風險和驗收標準。它還發現了一些其他模型忽略的問題,例如 vendored Mustache 引擎的獨立安全面以及顯式停用的 McCabe 複雜性檢查。
然而,Fable 並非完美。它沒有發現 Opus 抓住的某些威脅,如 TOCTOU/DNS 重新繫結攻擊或預設啟用的 Shell 工具主機執行。Sonnet 5 則更好地對映了 SSRF 傳輸的採用情況。這表明不同模型有不同的盲點。
實驗還顯示,Haiku 在快速探索方面表現出色,但給出了一個事實錯誤——錯誤地聲稱 CI 中有鎖檔案驗證。Sonnet 4.6 在操作和 CI 方面表現良好,但缺乏對新 SSRF 功能的深入分析。
總的來說,這項實驗證明了一個關鍵點:模型選擇是一個工作流程決策,而不是簡單的層級選擇。最佳實踐是使用 Haiku 進行初步探索,Sonnet 進行主要審計,Opus 進行威脅審查,Fable 進行戰略規劃。沒有人能夠取代完整的管道。CTRL NODE 平臺使得這種多模型協調變得簡單,使用者可以在同一個專案中註冊不同模型的代理,並比較它們的輸出。
我們鼓勵讀者在自己的倉庫上重新實驗。只需將倉庫克隆到 Bridge 基礎路徑下,建立一個 Claude 專案並指向它,然後為不同的模型值複製任務五次。比較輸出,您會發現每個模型的價值。更多詳細資訊和所有報告均可從文章參考資料中獲得。