フロンティアは今日オープンソースである:GLM-5.2 が Opus 4.8 を上回る
AI 耐性のあるバックエンドコーディングテストにおいて、GLM-5.2 が Opus 4.8 を上回る高品質なコードと文字起こしを生成しました。これを受け、著者は音声認識とマルチモーダル LLM を融合したオープンソースツール offmute-v2 をリリース。実験の詳細、技術的比較、注意点を解説します。
GLM-5.2 が、AI による不正を防ぐために特別に設計されたバックエンドプログラミングテストにおいて、Opus 4.8 を明らかに上回る結果を残しました。このテストは、3 つの既存プロジェクト(offmute、meeting-diary、ipgu)の機能を統合するというもので、GLM-5.2 は一回の試行で即座に動作する高品質なコードを生成したのに対し、Opus 4.8 はいくつかの問題を抱えていました。
この成功を基に、著者は待望の offmute-v2 を完全オープンソースとして公開しました。offmute-v2 は、従来の音声認識モデルとマルチモーダル大規模言語モデルを組み合わせたマルチステップパイプラインであり、正確なタイムスタンプと話者ラベルを備えた文字起こしを生成します。ブラウザ上でも動作し、拡張が容易で、プロバイダの追加も簡単です。精度、フォーマット、コストの面で前身を大きく上回っています。
実験では、両モデルに同一のプロンプト、2 つのテスト用音声ファイル(ノイズの多い講演と複数話者のポッドキャスト)、および人手で確認した文字起こしサンプルが提供されました。両モデルとも Claude Code 上で実行され、フレームワークの差異は排除されました。GLM 版は初回使用時にキャッシュ関連のバグが1つ見つかったのみでしたが、Opus 版は音声ファイルの互換性問題が発生しました。総合的に、GLM 版の出力品質とコードの可読性が優れていました。
技術的な核心は、LLM と ASR の出力を Needleman-Wunsch グローバルアライメントアルゴリズムで融合する点です。両モデルは独立してこの手法に到達し、コスト重みに至るまでほぼ同一の実装となりました。注目すべきは、Opus のコードコメントには「Hirschberg-free banded variant」を使用すると記されていたものの、実際のコードは単純な全行列 DP であったことです。このようなコメントと実装の不一致は、人間によるレビューでのみ発見できる典型的な問題です。
コスト比較では、GLM-5.2 が約 2.09 億トークンを消費したのに対し、Opus 4.8 は約 2.866 億トークンを消費しており、GLM がわずかに効率的でした。
著者は、このテストが「バイブコーディング」と呼ばれる安易な AI 依存に対してどのように罰則を設けているかを強調しています。プロンプトが適切に保持されず、依存関係が乱雑になり、テストデータが実際の複雑さを反映しないなどの問題が発生しやすいのです。offmute-v2 は、これらの落とし穴を避けるために設計された堅牢なツールとして位置づけられています。
ただし、完璧ではありません。両バージョンとも初期のバグが存在し、Opus 版は動画ファイルにのみ対応する問題、GLM 版はキャッシュの誤動作が確認されました。それでも、これらの問題は容易に修正可能であり、著者はこのリリースを「分水嶺」と表現しています。オープンソースの力で最先端の AI 機能が誰でも利用できるようになりつつあることを示す好例です。