字節跳動研究發現:用提問訓練多模態模型比要求其轉錄文本更有效
字節跳動Seed與香港科技大學的研究表明,透過問答對訓練多模態模型處理長文件,比使用字元識別任務效果更好。他們開發的MMProLong模型基於Qwen2.5-VL,在長達512,000 token的輸入上保持穩定,效能超越InternVL3-38B等更大模型。研究還發現,訓練資料長度多樣性比專注超長文本更重要,且短示例並非必須。
文章情報
要點
- 問答訓練顯著提升長文件效能,而純文本識別反而有害。
- MMProLong僅用128k token訓練就能穩定處理512k token輸入。
- 長度多樣性優於專注超長文本,短示例並非必需。
- 模型能力可遷移至長影片理解等未訓練任務。
為什麼重要
這條新聞值得關注,因為問答訓練顯著提升長文件效能,而純文本識別反而有害。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
多模態AI模型本應處理越來越長的文件,但它們的訓練方法通常屬於商業機密。一項新研究表明,將字元識別作為訓練任務實際上會損害效能,而問答對則有效得多。
來自字節跳動Seed和香港科技大學(HKUST)的研究人員探索瞭如何高效訓練影像語言模型處理長文件。其成果MMProLong基於阿里巴巴開源的Qwen2.5-VL構建,在多項基準測試中擊敗了更大的競爭對手。
現代多模態AI模型需要處理越來越長的輸入:整個PDF頁面集合、數小時的影片、或跨步驟記憶任務的智慧體。OpenAI、Google、阿里巴巴等AI實驗室宣稱上下文視窗可達100萬token,不僅能容納文本,還能容納數千張頁面影像或影片幀。但作者指出,技術報告幾乎沒有透露模型應該看到什麼資料以及如何混合。
研究的關鍵發現是:對於多模態模型學習在100頁文件中定位正確資訊,轉錄每頁文本幾乎無幫助。更有效的方法是提出答案隱藏在那些頁面中的問題。研究人員直接對比了兩種方法:一種讓模型對所有頁面或部分選定頁面進行文本識別,其餘頁面作為干擾;另一種使用單獨的模型(字節跳動的Seed 2.0)為文件各段落生成問答對,然後將問題連同整個文件一起訓練,迫使模型在長上下文中定位相關段落。
實驗結果顯示,純文本識別作為訓練任務實際上比起點更差,而問答訓練帶來了明顯提升。模型只有在需要以特定目標篩選和分類資訊時,才能學會導航長文本。
此外,研究還有三個發現:首先,主要餵給模型超長文件並不值得,長短混合更可靠;長上下文能力並非繫結特定長度,而是需要跨不同距離靈活搜尋。其次,真正的瓶頸是尋找相關段落而非推理,因此偏向提取任務並混合少量計算任務能獲得最佳結果。第三,令人驚訝的是,訓練中並不需要短的示例:模型即使只接受長問答資料訓練,也能保持短任務能力。資料格式本身可能起了作用:即使上下文很長,任務仍以熟悉的指令遵循格式呈現為問答互動。
憑藉這套方法和適度的訓練預算,MMProLong擊敗了InternVL3-38B和Gemma3-27B等更大的開源模型。該模型僅在128k token上訓練,但在256k和512k輸入長度時仍保持穩定,而原始模型在這些範圍急劇崩潰。這種能力還遷移到模型從未專門訓練的任務上,如理解長影片。在額外的遷移實驗中,該配方在更強的Qwen3-VL-8B上也有效。
這項研究也值得關注,因為它與DeepSeek在該問題上的廣泛研究來自完全不同的路線:DeepSeek試圖透過將文本作為影像處理並大幅壓縮來擴充套件AI模型的長記憶,而字節跳動Seed則採取相反方法——最佳化訓練資料而非架構。