2026-07-03 07:01 UTC+8站内改写2 分钟阅读更新: 2026-07-03 07:35 UTC+8

我们运行了一个复杂任务——使用Claude Fable模型分析LangChain仓库

一项详细的实验，比较了五个Claude模型（Opus、Fable、Sonnet、Sonnet 4.6、Haiku）对LangChain Python单仓的完整审计。Fable在评分上与Opus持平（A-），但在生成可操作的里程碑和快速胜利方面表现出色。文章展示了发现、优缺点，并推荐多模型流程。

来源Hacker News AI作者: ctrlnode-ai

Anthropic 最近推出了 Claude Fable 模型。为了了解它在实际复杂任务中的表现，我们在 CTRL NODE 平台上进行了一项实验：使用五个不同的 Claude 模型（Opus 4.8、Fable 5、Sonnet 5、Sonnet 4.6 和 Haiku 4.5）对 LangChain Python 单仓库执行相同的深度审计任务。每个模型都收到了相同的四阶段提示：发现、审计、策略和任务计划。所有发现必须基于证据并引用具体文件和行号。

实验设置非常严谨。我们克隆了 LangChain 仓库，并在 CTRL NODE 中为每个模型创建了一个代理，所有代理共享同一工作目录。每个代理独立运行提示，输出完整的 Markdown 报告和交互式 HTML 仪表板。

结果令人印象深刻。Fable 给出了 A- 的整体评级，与 Opus 相同，但比 Haiku 的 A 更诚实。Fable 的强项在于策略制定和任务分解。它提出了四个战略主题、明确的非目标以及包含里程碑 M0 到 M3 的详细计划，每个项目都有工作量评估、风险和验收标准。它还发现了一些其他模型忽略的问题，例如 vendored Mustache 引擎的独立安全面以及显式禁用的 McCabe 复杂性检查。

然而，Fable 并非完美。它没有发现 Opus 抓住的某些威胁，如 TOCTOU/DNS 重新绑定攻击或默认启用的 Shell 工具主机执行。Sonnet 5 则更好地映射了 SSRF 传输的采用情况。这表明不同模型有不同的盲点。

实验还显示，Haiku 在快速探索方面表现出色，但给出了一个事实错误——错误地声称 CI 中有锁文件验证。Sonnet 4.6 在操作和 CI 方面表现良好，但缺乏对新 SSRF 功能的深入分析。

总的来说，这项实验证明了一个关键点：模型选择是一个工作流程决策，而不是简单的层级选择。最佳实践是使用 Haiku 进行初步探索，Sonnet 进行主要审计，Opus 进行威胁审查，Fable 进行战略规划。没有人能够取代完整的管道。CTRL NODE 平台使得这种多模型协调变得简单，用户可以在同一个项目中注册不同模型的代理，并比较它们的输出。

我们鼓励读者在自己的仓库上重新实验。只需将仓库克隆到 Bridge 基础路径下，创建一个 Claude 项目并指向它，然后为不同的模型值复制任务五次。比较输出，您会发现每个模型的价值。更多详细信息和所有报告均可从文章参考资料中获得。