私のAIスキルが、私のAIスキルを説明するこのビデオを編集しました – Arcturus Labs
著者はAIツールCursorとAssemblyAIを使用して、メタプロセスで自動動画編集ツールを作成し、その仕組みを説明するデモ動画を自身のツールで編集することに成功しました。記事では発想から実装、最終成果までの全過程を詳細に説明し、関連コードを公開しています。
AIの素晴らしい時代にあって、私は自動動画編集ツールを作成しました。そして、この記事の最後にあるウォークスルー動画は、私が作成したツールによって編集されています。その方法を説明します。
すべてはある動画から始まりました:「Hamel HusseinとShaw TalebiによるAIエージェントを構築してビデオを編集する」。彼らはAI支援動画編集のプロセスを説明しており、私はそれに触発され、非常にメタなプロセスで再現しようと試みました。自分で作る代わりに、Cursorエージェントにその動画を見せて、実質的に同じものをローカルで作る方法を理解するよう指示しました。
エージェントはまずyt-dlpを使ってトランスクリプトをダウンロードしました。トランスクリプトを入手したら、それを読んでプロセスを可能な限り複製するリポジトリをセットアップするよう指示しました。また、create-skillスキルを使ってすべてをエージェントスキルとしてパッケージ化するよう指示しました。(最近は何もかもがメタですね!)数分間動作し、戻ってきたとき、私がやるべきことはAssemblyAIのAPIキーを設定することだけでした。
AssemblyAIは素晴らしい発見でした。これは音声認識サービスで、重要なことに、「えーと」「あのー」といった失敗を保持し、すべての単語の正確な開始時間と終了時間を提供します。このタイミングこそが自動カットを可能にするものです。また、試用も簡単で、サインアップするだけで約185時間分の無料の録音済み文字起こしが得られます。もちろん申し込みました!
自分がカメラに向かって話している動画をアップロードし、文字起こし、無言部分のカット、「えーと」などの除去を指示しました。結果は…ほとんど成功しました。問題は、カットポイントで各単語の末尾が切れてしまうことでした。そのため、使える動画ではありませんでしたが、実際にここまでできたことに驚きました。
2回目の試行では同じタスクを与えましたが、クリッピングの問題を指摘し、何が悪いのかを解明するよう依頼しました。エージェントはいくつかのアイデアを提案し、どうしたいか尋ねてきました。私は「最善と思うことをやってください」と答えました🤣(これは単なるサイドプロジェクトなので、コード品質はあまり気にしていません)。さらに約30秒間実行し、次の動画を処理させたところ、結果は悪くありませんでした。わずか5分ほどの投資でこれだけの結果が出たのは本当に印象的です。
そしてここに至ります。3回目の試行がウォークスルー動画です。OBSでカメラに向かって編集スイートの構築方法を説明しています(繰り返しますが、OBSの使い方はよくわかりませんが、AIにポイントを尋ねて、なんとかごまかせる程度にはなりました)。
自動編集されたウォークスルー動画(上)は、ツールの仕組みを説明するもので、ツール自身によって編集されています。下は編集前の同じ録画です。スクリプトを読んでいて、多くの間がありました。その違いは顕著です。
このスキルを試したい場合は、このリポジトリにあります。ただし、注意点:まだ荒削りです。デフォルトではFinal Cut Proにエクスポートされますが、代わりにクリップを直接結合するよう依頼すればそれも可能です。また、各動画プロジェクトのファイル管理方法もやや変則的です。しかし、核となるアイデアは機能しており、それが重要です。自由に入手して、遊んで、自分のものにしてください。コピーのコピーを——ちょうど私がShaw Talebiのアプローチから自分自身のものを作ったように。
ちなみに、この記事は上記の編集済みウォークスルーのトランスクリプトから半自動的に生成されました。このアプローチについても、また再帰的なブログ記事を書こうと思います!