2026-05-24 22:28 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

バイトダンス研究：長文書訓練におけるLMMへの質問が文字起こしより効果的であることを発見

バイトダンスSeedと香港科技大学の研究により、マルチモーダルモデルの長文書処理訓練において、質問応答ペアが文字認識タスクよりもはるかに効果的であることが示された。開発されたMMProLongはQwen2.5-VLをベースに、512,000トークンの入力まで安定して動作し、より大規模なモデルを凌駕する。訓練データの長さの多様性が重要で、短文例は必須ではない。

ソースThe Decoder著者: Jonathan Kemper

記事インテリジェンス

エンジニア上級

要点

質問応答訓練が長文書性能を大幅に向上させる一方、純粋なOCR訓練は性能を低下させる。
MMProLongは128kトークンで訓練されたにもかかわらず、512kトークン入力で安定して動作する。
訓練データの長さの多様性が重要で、超長文書への特化は効果的でない。
この能力は長動画理解など未訓練のタスクにも転移する。

重要な理由

このニュースが重要なのは、質問応答訓練が長文書性能を大幅に向上させる一方、純粋なOCR訓練は性能を低下させるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

マルチモーダルAIモデルはますます長い文書を処理することが期待されているが、その訓練方法は通常企業秘密である。新たな研究により、文字認識を訓練タスクとして使用すると性能が低下し、質問応答ペアがはるかに効果的であることが示された。

バイトダンスSeedと香港科技大学（HKUST）の研究者らは、画像言語モデルを効率的に長文書で訓練する方法を研究した。成果であるMMProLongは、AlibabaのオープンソースモデルQwen2.5-VLをベースに構築され、より大規模な競合モデルを打ち負かした。

現代のマルチモーダルAIモデルは、PDFページのコレクション、数時間の動画、または複数のステップにわたってタスクを記憶するエージェントなど、ますます長い入力を処理する必要がある。OpenAI、Google、AlibabaなどのAIラボは、最大100万トークンのコンテキストウィンドウを誇り、テキストだけでなく数千のページ画像や動画フレームも保持できる。しかし著者らによると、技術レポートはモデルがどのようなデータをどのような混合で見るべきかをほとんど明らかにしていない。

研究の中心的な発見は明白に思えるかもしれない。マルチモーダルモデルが100ページの文書内の正しい箇所を見つけることを学習するには、すべてのページのテキストを書き起こしてもほとんど役に立たない。それらのページのどこかに答えが埋もれている質問をすることがより効果的である。

研究者らは両方のアプローチを直接比較した。一方の設定では、モデルは文書の全ページまたは選択された数ページに対してテキスト認識を実行し、残りのページは気を散らすものとしてコンテキスト内に残された。もう一方の設定では、研究者らは別のモデル（バイトダンスのSeed 2.0）を使用して、文書の個々のセクションに対する質問応答ペアを生成した。そして、質問を文書全体とともに訓練に取り入れ、モデルが長いコンテキスト内で関連する箇所を見つけることを強制した。

純粋なテキスト認識訓練タスクは、開始点と比較して実際に性能を悪化させた。一方、質問応答訓練は明確な利点をもたらした。モデルは、特定の目標を持って情報をフィルタリングし分類する必要がある場合にのみ、長いテキストをナビゲートすることを学習する。

さらに、3つの追加の発見があった。まず、モデルに非常に長い文書だけを与えるのは価値がなく、短い例と長い例の幅広い混合がより確実に機能する。長コンテキスト能力は特定の長さに結びついたスキルではなく、異なる距離にわたる柔軟な検索を必要とする。第二に、本当のボトルネックは関連箇所を見つけることであり、推論ではないことが判明し、抽出タスクを重視し計算タスクを少量混ぜる混合が最良の結果をもたらした。第三に、訓練に短い例を加えることは厳密には必要ではない。モデルは長い質問応答データのみで訓練されても、短いタスクの能力をほぼ維持した。データ形式自体が役立っている可能性がある。コンテキストが非常に長い場合でも、タスクはおなじみの指示追従形式の質問応答インタラクションとして構成されている。

このレシピと控えめな訓練予算で、MMProLongはInternVL3-38BやGemma3-27Bなど、はるかに大規模なオープンモデルを打ち負かす。モデルは128,000トークンで訓練されたにもかかわらず、256,000および512,000トークンの入力長で安定しており、元のモデルはそれらの範囲で急激に性能が低下する。

この能力は、モデルが特別に訓練されたことのないタスク、例えば長い動画の理解にも転移する。追加の転移実験では、このレシピはより強力なQwen3-VL-8Bでも効果的であることが証明された。

この研究は、同じ問題に対するDeepSeekの広く議論された研究とはまったく異なる陣営からのものである点でも興味深い。DeepSeekはテキストを画像として処理し、大幅に圧縮することでAIモデルの長い記憶を拡張しようとしているが、バイトダンスSeedは逆のアプローチ、すなわちアーキテクチャではなく訓練データを最適化する方法を取っている。