週末にローカルAIワークフローを構築して得た教訓
週末にマルチエージェントビデオエディタを構築した後、著者は3つの重要な教訓を共有しています:途中で情報が失われる問題、バイアスが複合する問題、そしてWhisperが万能ではないという気づきです。
誰もがそうであるように、私も最近エージェントに夢中です!やっとマルチエージェントワークフローを学ぶ時間を取れました:簡単なユースケースを考え、最初のイテレーションを構築し、それが現実の複雑さに打ち砕かれるのを見ました。そして、いくつかのことを学びました。この投稿では、3つの学びを共有します:途中で情報が失われる問題、バイアス複合問題、そしてWhisperが銀の弾丸ではないことです。
私が構築したツールは一応動作し、GitHubで公開しています。これはマルチエージェントビデオエディタで、動画を入力として受け取り、無駄な部分を削除してエッセンスだけを残した短縮版を出力します。プロダクション対応の魔法は期待しないでください。
最初の単純な解決策は次の通りです:動画を音声認識モデルにかけて完全なトランスクリプトを取得し、そのトランスクリプトをエディターエージェントに入力して最も重要なセグメントを決定させ、さらに完全なトランスクリプトと選択されたセグメントをレビューアエージェントに入力して、選択された部分がメッセージを保持しているか判断させます。エディターエージェントとレビューアエージェントは、レビューアがエディターの選択に同意するまでやり取りを繰り返します。最後にFFmpegで最終動画をステッチします。理論上は完璧ですが、実際の出力はひどいものでした。
自分で確認できます:元の動画(リンク)。
これらの教訓は、長いテキストで中間部分の情報が失われる問題、複数のAIエージェントのバイアスが複合する問題、そしてWhisperがノイズや異なるアクセントで苦戦することを示しています。ローカルAIワークフローを構築しようとする人にとって貴重な洞察です。
これらの課題に対処するために、著者はマルチエージェントシステムを構築する際、コンテキストウィンドウの制限に注意し、入力が長くなりすぎて情報が失われるのを防ぐことを提案しています。また、レビューメカニズムを設計する際には、ランダム化や多様性を取り入れてバイアスの蓄積を減らすことを考慮すべきです。音声認識に関しては、より強力なモデルを選択するか、複数の前処理技術を組み合わせることができます。これらの教訓はビデオ編集のシナリオに由来しますが、多くのAIワークフローに適用可能です。
要するに、この週末プロジェクトの成果は期待外れでしたが、実践的な洞察を提供してくれました。もしあなたもマルチエージェントシステムを探求しているなら、このような小さく具体的なユースケースから始めて、徐々に改善していくことをお勧めします。