AI News HubLIVE
站内改写3 分钟阅读

两个AI代理运营我的新闻网站;一个接地气的大门让它们保持诚实

该网站使用Claude Fable 5作为监督者,MiniMax-M3作为日常撰写者,通过Git仓库协作。在第一天出现了五个故障,每个都变成了永久性护栏。运行成本每月仅几十英镑。

来源Hacker News AI作者: doofle

2026年6月9日,Anthropic发布了Claude Fable 5,这是一款面向软件工程和代理任务的强大模型。当晚,我们的创始人用Claude Code和一个产品规格向一个空文件夹提问:如果代理真的这么能干,它能建立一个出版物并运行它吗?不到24小时后,您正在阅读的网站上线了,充满了研究过的文章,并按自己的时间表发布。这篇是完整的构建日志:我们用了什么,成本多少,出了什么问题,以及小企业可以从中借鉴什么。

架构:一个监督者、一个工作马和一个人工 设计原则是:不要用一个模型做所有事。监督者(Claude Fable 5)负责架构、构建平台、编写编辑规则、审查输出、事实核查和修复故障。出版商(Hermes,运行MiniMax-M3)负责日常扫描RSS源、每天三次起草文章。人类设置方向、委托任务、批准不确定的内容,并拥有标准。每天只需几分钟。

两个代理从不直接对话;它们共享一个Git仓库。Hermes提交文章,服务器在每次推送时重建网站。每个动作都是一个提交,人类可以阅读、差异比较和回滚。Git作为桥梁意味着整个操作天然有审计跟踪。

小时级构建 平台在第一天晚上搭建:监督者用Astro搭建静态网站,撰写并搜索了20篇带有真实链接的文章,建立了搜索引擎的结构化数据,添加了基于同意的分析(PostHog)、搜索功能、自托管字体以及程序化生成的社交分享图片。托管在Vercel上,每次Git推送自动重建。

服务器在夜间设置:Hermes运行在Hetzner VPS上(4 vCPU、8GB RAM,每月费用不到两杯咖啡)。监督者加固了服务器(防火墙、fail2ban、仅密钥SSH),在Docker中安装了代理栈,配置了MiniMax-M3,生成了部署密钥,并在GitHub上注册——全部通过SSH无人值守完成。

编辑大脑:在Hermes写任何东西之前,监督者编写了它必须遵守的规则书:读者是谁(团队领导、个体经营者、内部拥护者、技术所有者),他们关心什么(省钱、省时、数据控制、英国角度),语气("像个聪明的同事,而不是顾问"),形式(700–900字,含快速版本框和具体收获),以及硬性规则——最重要的是永远不要编造统计数据、引语或URL。

流水线:每天三个定时任务(英国时间07:30、12:30、18:00),每个任务:从八个可信源获取候选故事,按编辑标准评分,跳过已有内容,根据规则书起草,通过验证器(检查结构、分类法、字数以及每个引用链接是否有效),获取许可照片,发布,提交,推送,然后检查实时URL——如果部署失败,自动回滚提交并记录原因。代码中强制限制:每天最多三篇自主文章,最多一篇评论文章,并指示如果故事薄弱则跳过时段。

委托:人类可以通过链接(网页、X帖子甚至YouTube主题演讲)发送任务。Hermes读取(对于视频,读取转录),在相同规则下起草,并阶段到预览URL供批准后再发布。第一个真实委托是对All-In流动性峰会主题演讲的分析,从三个演讲转录中综合,每个引语都经过事实核查。

五个故障——以及为什么这是好消息 透明条款:并非一切第一次就成功。第一天五个故障,每个现在都是永久护栏。

  1. 作者编造了一个统计数据:在第一篇受监督的文章中,MiniMax-M3添加了一个看似合理但不在任何来源中的价格比较。监督者的事实核查在发布前捕获了它。修复:反捏造门——草稿只能引用实际给出的URL,在代码中强制执行,而不是在提示中。
  2. 格式怪癖破坏了网站构建:第一篇全自主文章使用了网站模式拒绝的奇特元数据结构,构建失败,网站两小时无法部署任何内容,直到监督者修复。修复:发布前更严格的验证,以及验证并回滚步骤——一篇坏文章现在会在几分钟内自行删除。
  3. YouTube屏蔽了服务器:数据中心IP遇到“确认你不是机器人”墙,因此Hermes无法读取转录。修复:监督者从外部获取被屏蔽的来源并将文本发送到服务器,同时保留原始URL作为引用记录。
  4. 模型思考过度:在处理一个大三转录综合任务时,M3的内部推理消耗了全部输出预算,返回空答案。修复:自适应预算,当此情况发生时增长。
  5. 它发明了自己的类别名称:"professional-services"等近似标签,而不是网站的精确分类。修复:写作合同中的明确允许列表,加上修复近似值的机械归一化器。

这个列表是监督者模型的真正论据。廉价工作马加上硬性门加上昂贵审查者,在读者看到捏造内容之前捕获了所有故障,并将每个故障转化为规则。没有一个修复需要人类编写代码。

成本 堆栈有意平凡:约10欧元/月的VPS,每天三篇文章的按token计费MiniMax使用(每篇几分钱),免费托管和分析层级,免费照片许可,以及创始人的现有Claude订阅用于监督者。总运行成本每月仅几十英镑——比过去一个照片订阅还少,却有一个研究、写作、插图、发布和监控自己的出版物。

借鉴此堆栈 这种模式几乎可以转移到小公司的任何重复性知识工作流中:报告、投标、产品描述、客户更新。

  • 分割角色:前沿模型作为架构师/审查者;廉价模型用于批量工作。为琐碎工作支付溢价是代理AI预算中最常见的错误。
  • 在代理和世界之间放置验证器:模式检查、源检查、速率限制——在代码中,而不是在提示中。提示是请求;门是规则。
  • 让每个动作都是提交:Git免费提供审计、差异和单命令回滚。
  • 部署后验证并自动回滚:“它说它发布了”不等于“它在线了”。
  • 在代理开始之前编写规则书——并将每个人工修正反馈进去。我们的规则书在两天内修改了五次,每次修改都使下一个输出更好。
  • 为任何涉及声誉的事情保留人工按纽,并有一个人类回复的地址:[email protected]

难点 代理没有判断力;它们有由有判断力的东西编写的规则。每日文章不错且在进步,但编辑大脑由监督者修正,监督者由人类引导——这里的自主性是逐层获得的,而不是假设的。X监控被搁置,直到API成本证明其合理。而且这整个报告只覆盖了一天的运营:实验是每天三篇文章连续几个月质量能否保持。我们也会发布后续报告——包括故障。