2026-06-06 18:33 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

週末構建本地AI工作流的經驗教訓

在週末構建了一個多智能體視頻編輯工具後，作者分享了三個關鍵教訓：中間丟失問題、偏見覆合問題，以及Whisper並非萬能。儘管紙面上的架構看似完美，實際輸出卻很差。

來源Hacker News AI作者: stefanopetrilli

像所有人一樣，我最近也對智能體（Agent）產生了濃厚興趣！我終於花時間學習了多智能體工作流：我提出了一個簡單的用例，構建了第一個迭代版本，然後看着它被混亂的現實擊碎。然後我學到了一些東西。這篇文章分享了三個教訓：中間丟失問題、偏見覆合問題，以及Whisper並非靈丹妙藥。

我構建的工具勉強可用，已在GitHub上開源。它是一個多智能體視頻編輯器，輸入視頻後通過去除所有無用部分輸出縮短版本，只保留精華。別指望它能達到生產級魔法，但我認為它挺有趣的。

在最初的簡單方案中，我設想：將視頻通過語音轉文本模型獲得完整轉錄，然後將轉錄輸入編輯器智能體，由其決定最重要的片段，再將完整轉錄和選定片段輸入審查智能體，由其判斷所選部分是否保留了信息。編輯器與審查智能體來回迭代，直到審查智能體同意編輯器的選擇。最後用FFmpeg拼接最終視頻。理論上完美，但實際上輸出看起來糟透了。你可以自己看看：原視頻（鏈接）。

這三個教訓分別對應：大型語言模型在處理長文本時容易丟失中間部分的信息（中間丟失）；多個AI代理的偏見會相互疊加（偏見覆合）；Whisper在處理噪聲或不同口音時表現不佳（非萬能）。這些經驗對任何嘗試構建本地AI工作流的人都有參考價值。

為了應對這些挑戰，作者建議在構建多智能體系統時，注意上下文窗口的限制，避免過長的輸入導致信息丟失。同時，在設計審查機制時，應考慮如何減少偏見累積，例如引入隨機化或多樣性。對於語音識別，可以選擇更強大的模型或結合多種預處理技術。這些教訓雖然來自視頻編輯場景，但適用於許多AI工作流。

總之，這個週末項目雖然產出不盡人意，但提供了寶貴的實踐洞察。如果你也在探索多智能體系統，不妨從這些小而具體的用例開始，逐步迭代改進。