兩個AI代理運營我的新聞網站;一個接地氣的大門讓它們保持誠實
該網站使用Claude Fable 5作為監督者,MiniMax-M3作為日常撰寫者,透過Git倉庫協作。在第一天出現了五個故障,每個都變成了永久性護欄。執行成本每月僅幾十英鎊。
2026年6月9日,Anthropic釋出了Claude Fable 5,這是一款面向軟體工程和代理任務的強大模型。當晚,我們的創始人用Claude Code和一個產品規格向一個空資料夾提問:如果代理真的這麼能幹,它能建立一個出版物並執行它嗎?不到24小時後,您正在閱讀的網站上線了,充滿了研究過的文章,並按自己的時間表釋出。這篇是完整的構建日誌:我們用了什麼,成本多少,出了什麼問題,以及小企業可以從中借鑑什麼。
架構:一個監督者、一個工作馬和一個人工 設計原則是:不要用一個模型做所有事。監督者(Claude Fable 5)負責架構、構建平臺、編寫編輯規則、審查輸出、事實核查和修復故障。出版商(Hermes,執行MiniMax-M3)負責日常掃描RSS源、每天三次起草文章。人類設定方向、委託任務、批准不確定的內容,並擁有標準。每天只需幾分鐘。
兩個代理從不直接對話;它們共享一個Git倉庫。Hermes提交文章,伺服器在每次推送時重建網站。每個動作都是一個提交,人類可以閱讀、差異比較和回滾。Git作為橋樑意味著整個操作天然有審計跟蹤。
小時級構建 平臺在第一天晚上搭建:監督者用Astro搭建靜態網站,撰寫並搜尋了20篇帶有真實連結的文章,建立了搜尋引擎的結構化資料,新增了基於同意的分析(PostHog)、搜尋功能、自託管字型以及程式化生成的社交分享圖片。託管在Vercel上,每次Git推送自動重建。
伺服器在夜間設定:Hermes執行在Hetzner VPS上(4 vCPU、8GB RAM,每月費用不到兩杯咖啡)。監督者加固了伺服器(防火牆、fail2ban、僅金鑰SSH),在Docker中安裝了代理棧,配置了MiniMax-M3,生成了部署金鑰,並在GitHub上註冊——全部透過SSH無人值守完成。
編輯大腦:在Hermes寫任何東西之前,監督者編寫了它必須遵守的規則書:讀者是誰(團隊領導、個體經營者、內部擁護者、技術所有者),他們關心什麼(省錢、省時、資料控制、英國角度),語氣("像個聰明的同事,而不是顧問"),形式(700–900字,含快速版本框和具體收穫),以及硬性規則——最重要的是永遠不要編造統計資料、引語或URL。
流水線:每天三個定時任務(英國時間07:30、12:30、18:00),每個任務:從八個可信源獲取候選故事,按編輯標準評分,跳過已有內容,根據規則書起草,透過驗證器(檢查結構、分類法、字數以及每個引用連結是否有效),獲取許可照片,釋出,提交,推送,然後檢查即時URL——如果部署失敗,自動回滾提交併記錄原因。程式碼中強制限制:每天最多三篇自主文章,最多一篇評論文章,並指示如果故事薄弱則跳過時段。
委託:人類可以透過連結(網頁、X帖子甚至YouTube主題演講)傳送任務。Hermes讀取(對於影片,讀取轉錄),在相同規則下起草,並階段到預覽URL供批准後再發布。第一個真實委託是對All-In流動性峰會主題演講的分析,從三個演講轉錄中綜合,每個引語都經過事實核查。
五個故障——以及為什麼這是好訊息 透明條款:並非一切第一次就成功。第一天五個故障,每個現在都是永久護欄。
- 作者編造了一個統計資料:在第一篇受監督的文章中,MiniMax-M3新增了一個看似合理但不在任何來源中的價格比較。監督者的事實核查在釋出前捕獲了它。修復:反捏造門——草稿只能引用實際給出的URL,在程式碼中強制執行,而不是在提示中。
- 格式怪癖破壞了網站構建:第一篇全自主文章使用了網站模式拒絕的奇特後設資料結構,構建失敗,網站兩小時無法部署任何內容,直到監督者修復。修復:釋出前更嚴格的驗證,以及驗證並回滾步驟——一篇壞文章現在會在幾分鐘內自行刪除。
- YouTube遮蔽了伺服器:資料中心IP遇到“確認你不是機器人”牆,因此Hermes無法讀取轉錄。修復:監督者從外部獲取被遮蔽的來源並將文本傳送到伺服器,同時保留原始URL作為引用記錄。
- 模型思考過度:在處理一個大三轉錄綜合任務時,M3的內部推理消耗了全部輸出預算,返回空答案。修復:自適應預算,當此情況發生時增長。
- 它發明了自己的類別名稱:"professional-services"等近似標籤,而不是網站的精確分類。修復:寫作合同中的明確允許列表,加上修復近似值的機械歸一化器。
這個列表是監督者模型的真正論據。廉價工作馬加上硬性門加上昂貴審查者,在讀者看到捏造內容之前捕獲了所有故障,並將每個故障轉化為規則。沒有一個修復需要人類編寫程式碼。
成本 堆疊有意平凡:約10歐元/月的VPS,每天三篇文章的按token計費MiniMax使用(每篇幾分錢),免費託管和分析層級,免費照片許可,以及創始人的現有Claude訂閱用於監督者。總執行成本每月僅幾十英鎊——比過去一個照片訂閱還少,卻有一個研究、寫作、插圖、釋出和監控自己的出版物。
借鑑此堆疊 這種模式幾乎可以轉移到小公司的任何重複性知識工作流中:報告、投標、產品描述、客戶更新。
- 分割角色:前沿模型作為架構師/審查者;廉價模型用於批次工作。為瑣碎工作支付溢價是代理AI預算中最常見的錯誤。
- 在代理和世界之間放置驗證器:模式檢查、源檢查、速率限制——在程式碼中,而不是在提示中。提示是請求;門是規則。
- 讓每個動作都是提交:Git免費提供審計、差異和單命令回滾。
- 部署後驗證並自動回滾:“它說它釋出了”不等於“它線上了”。
- 在代理開始之前編寫規則書——並將每個人工修正反饋進去。我們的規則書在兩天內修改了五次,每次修改都使下一個輸出更好。
- 為任何涉及聲譽的事情保留人工按紐,並有一個人類回覆的地址:[email protected]。
難點 代理沒有判斷力;它們有由有判斷力的東西編寫的規則。每日文章不錯且在進步,但編輯大腦由監督者修正,監督者由人類引導——這裡的自主性是逐層獲得的,而不是假設的。X監控被擱置,直到API成本證明其合理。而且這整個報告只覆蓋了一天的運營:實驗是每天三篇文章連續幾個月質量能否保持。我們也會發布後續報告——包括故障。