2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

微軟研究表明：詳細描述比模型規模更重要，Lens以38億引數高效生成影像

微軟研究院推出僅38億引數的文本到影像模型Lens，利用GPT-4.1生成的8億條詳細描述進行訓練，在多個基準測試中媲美數倍於其規模的模型，訓練計算量僅為同類模型的五分之一。Lens-Turbo可在不到一秒內生成影像，程式碼和權重以MIT許可證開源。

來源The Decoder作者: Jonathan Kemper

微軟研究院近日釋出了名為Lens的文本到影像生成模型，該模型引數僅為38億，卻在多個基準測試中與規模遠大於它的模型表現相當，而訓練計算量僅為同類模型的五分之一。這一成果得益於其獨特的訓練資料和架構選擇。

Lens的核心優勢在於其訓練資料集Lens-800M，該資料集包含8億個影像-文本對，其中文本描述由GPT-4.1生成，平均長度約100詞。相比之下，網路上常見的替代文本往往簡短模糊甚至完全錯誤，稀釋了學習訊號。消融研究明確表明，使用這些長描述訓練的效果顯著優於短描述或混合描述。

在訓練過程中，研究團隊在每個批次中混合了不同解析度和寬高比的影像——從豎屏到橫屏。儘管模型僅在固定影像尺寸上訓練，卻能泛化到未見的格式和高達約兩百萬畫素的解析度，從而節省了高解析度資料的昂貴訓練開銷。

架構方面，Lens採用了多種變分自編碼器的變體，最終選擇FLUX.2的語義VAE，它在文本到影像訓練中表現最佳，同時加速了收斂。文本編碼器採用OpenAI的GPT-OSS，這是一個開源語言模型。更強的語言編碼器帶來了兩大好處：模型學習更快，且能處理從未訓練過的語言提示——Lens僅使用英文影像-文本對訓練，卻能接受中文、法語、日語和西班牙語的輸入。

預訓練完成後，Lens透過強化學習階段進行微調。研究人員設計了自定義的Lens-RL-8K提示集，涵蓋人物、動物、場景、食物、虛構世界和UI設計等十大類別。GPT-4.1為每個提示生成匹配的評估標準，而較小的GPT-4.1-mini充當獎勵模型。消融顯示，縮小RL集或移除某個類別（如文本重提示）會損害受影響區域的效能，證明了RL提示多樣性的重要性。

為了改善使用者互動，Lens在影像生成模型前放置了一個推理器（reasoner），預設使用GPT-5.5，也可選用GPT-OSS而無需額外記憶體。推理器負責將使用者的模糊輸入重寫為詳細提示。微軟還描述了一種無需額外訓練即可迭代改進推理器系統提示的方法，該方法在更大規模的Qwen-Image模型上也取得了積極效果。

在推理速度上，微軟構建了蒸餾變體Lens-Turbo，僅需四步推理即可生成影像。標準模型在H100 GPU上生成1百萬畫素影像約需三秒，而Lens-Turbo不到一秒。在提示忠實度、文本渲染和複雜場景的基準測試中，Lens優於FLUX.2-Klein和Z-Image，部分測試中甚至超越了五倍引數規模的Qwen-Image。

不過，Lens在日文和法文等語言的文本渲染上存在不足，研究人員歸因於資料覆蓋的缺口。微軟已按照MIT許可證開源Lens的程式碼和模型權重，可在Hugging Face和GitHub獲取。微軟強調Lens僅用於研究目的，不適合生產環境，且因其訓練資料部分來源於網路，模型可能生成有偏見或不當的內容，使用者需自行新增安全措施。