我们运行了一个复杂任务——使用Claude Fable模型分析LangChain仓库
一项详细的实验,比较了五个Claude模型(Opus、Fable、Sonnet、Sonnet 4.6、Haiku)对LangChain Python单仓的完整审计。Fable在评分上与Opus持平(A-),但在生成可操作的里程碑和快速胜利方面表现出色。文章展示了发现、优缺点,并推荐多模型流程。
Anthropic 最近推出了 Claude Fable 模型。为了了解它在实际复杂任务中的表现,我们在 CTRL NODE 平台上进行了一项实验:使用五个不同的 Claude 模型(Opus 4.8、Fable 5、Sonnet 5、Sonnet 4.6 和 Haiku 4.5)对 LangChain Python 单仓库执行相同的深度审计任务。每个模型都收到了相同的四阶段提示:发现、审计、策略和任务计划。所有发现必须基于证据并引用具体文件和行号。
实验设置非常严谨。我们克隆了 LangChain 仓库,并在 CTRL NODE 中为每个模型创建了一个代理,所有代理共享同一工作目录。每个代理独立运行提示,输出完整的 Markdown 报告和交互式 HTML 仪表板。
结果令人印象深刻。Fable 给出了 A- 的整体评级,与 Opus 相同,但比 Haiku 的 A 更诚实。Fable 的强项在于策略制定和任务分解。它提出了四个战略主题、明确的非目标以及包含里程碑 M0 到 M3 的详细计划,每个项目都有工作量评估、风险和验收标准。它还发现了一些其他模型忽略的问题,例如 vendored Mustache 引擎的独立安全面以及显式禁用的 McCabe 复杂性检查。
然而,Fable 并非完美。它没有发现 Opus 抓住的某些威胁,如 TOCTOU/DNS 重新绑定攻击或默认启用的 Shell 工具主机执行。Sonnet 5 则更好地映射了 SSRF 传输的采用情况。这表明不同模型有不同的盲点。
实验还显示,Haiku 在快速探索方面表现出色,但给出了一个事实错误——错误地声称 CI 中有锁文件验证。Sonnet 4.6 在操作和 CI 方面表现良好,但缺乏对新 SSRF 功能的深入分析。
总的来说,这项实验证明了一个关键点:模型选择是一个工作流程决策,而不是简单的层级选择。最佳实践是使用 Haiku 进行初步探索,Sonnet 进行主要审计,Opus 进行威胁审查,Fable 进行战略规划。没有人能够取代完整的管道。CTRL NODE 平台使得这种多模型协调变得简单,用户可以在同一个项目中注册不同模型的代理,并比较它们的输出。
我们鼓励读者在自己的仓库上重新实验。只需将仓库克隆到 Bridge 基础路径下,创建一个 Claude 项目并指向它,然后为不同的模型值复制任务五次。比较输出,您会发现每个模型的价值。更多详细信息和所有报告均可从文章参考资料中获得。