2026-05-24 21:28 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

字節跳動研究發現：用提問訓練多模態模型比要求其轉錄文本更有效

字節跳動Seed與香港科技大學的研究表明，透過問答對訓練多模態模型處理長文件，比使用字元識別任務效果更好。他們開發的MMProLong模型基於Qwen2.5-VL，在長達512,000 token的輸入上保持穩定，效能超越InternVL3-38B等更大模型。研究還發現，訓練資料長度多樣性比專注超長文本更重要，且短示例並非必須。

來源The Decoder作者: Jonathan Kemper

多模態AI模型本應處理越來越長的文件，但它們的訓練方法通常屬於商業機密。一項新研究表明，將字元識別作為訓練任務實際上會損害效能，而問答對則有效得多。

來自字節跳動Seed和香港科技大學（HKUST）的研究人員探索瞭如何高效訓練影像語言模型處理長文件。其成果MMProLong基於阿里巴巴開源的Qwen2.5-VL構建，在多項基準測試中擊敗了更大的競爭對手。

現代多模態AI模型需要處理越來越長的輸入：整個PDF頁面集合、數小時的影片、或跨步驟記憶任務的智慧體。OpenAI、Google、阿里巴巴等AI實驗室宣稱上下文視窗可達100萬token，不僅能容納文本，還能容納數千張頁面影像或影片幀。但作者指出，技術報告幾乎沒有透露模型應該看到什麼資料以及如何混合。

研究的關鍵發現是：對於多模態模型學習在100頁文件中定位正確資訊，轉錄每頁文本幾乎無幫助。更有效的方法是提出答案隱藏在那些頁面中的問題。研究人員直接對比了兩種方法：一種讓模型對所有頁面或部分選定頁面進行文本識別，其餘頁面作為干擾；另一種使用單獨的模型（字節跳動的Seed 2.0）為文件各段落生成問答對，然後將問題連同整個文件一起訓練，迫使模型在長上下文中定位相關段落。

實驗結果顯示，純文本識別作為訓練任務實際上比起點更差，而問答訓練帶來了明顯提升。模型只有在需要以特定目標篩選和分類資訊時，才能學會導航長文本。

此外，研究還有三個發現：首先，主要餵給模型超長文件並不值得，長短混合更可靠；長上下文能力並非繫結特定長度，而是需要跨不同距離靈活搜尋。其次，真正的瓶頸是尋找相關段落而非推理，因此偏向提取任務並混合少量計算任務能獲得最佳結果。第三，令人驚訝的是，訓練中並不需要短的示例：模型即使只接受長問答資料訓練，也能保持短任務能力。資料格式本身可能起了作用：即使上下文很長，任務仍以熟悉的指令遵循格式呈現為問答互動。

憑藉這套方法和適度的訓練預算，MMProLong擊敗了InternVL3-38B和Gemma3-27B等更大的開源模型。該模型僅在128k token上訓練，但在256k和512k輸入長度時仍保持穩定，而原始模型在這些範圍急劇崩潰。這種能力還遷移到模型從未專門訓練的任務上，如理解長影片。在額外的遷移實驗中，該配方在更強的Qwen3-VL-8B上也有效。

這項研究也值得關注，因為它與DeepSeek在該問題上的廣泛研究來自完全不同的路線：DeepSeek試圖透過將文本作為影像處理並大幅壓縮來擴充套件AI模型的長記憶，而字節跳動Seed則採取相反方法——最佳化訓練資料而非架構。