マイクロソフトリサーチ、詳細なキャプションがモデル規模よりも重要であることを実証する画像生成モデルLensを発表
マイクロソフトリサーチは、GPT-4.1で生成された8億件の詳細なキャプションで訓練された38億パラメータのテキストから画像を生成するモデルLensを発表。訓練計算量は同等モデルの5分の1で、複数のベンチマークではるかに大規模なモデルに匹敵。Lens-Turboは1秒未満で画像生成。MITライセンスで公開。
マイクロソフトリサーチは、テキストから画像を生成するモデル「Lens」を発表しました。このモデルはわずか38億パラメータでありながら、複数のベンチマークで数倍の規模を持つ競合モデルと同等以上の性能を発揮し、訓練に必要な計算量は同等モデルの約5分の1です。この効率性は、GPT-4.1を用いて生成された8億件の詳細なキャプション(平均約100語)を訓練データとして使用したことに起因します。従来のウェブ上の代替テキストは曖昧で誤りを含むことが多く、学習信号を弱めていましたが、Lens-800Mデータセットはその問題を解決しました。
訓練では、バッチごとに異なる解像度やアスペクト比の画像を混合し、固定サイズで訓練されたモデルが未見のフォーマットや最大約200万ピクセルの解像度に一般化できるようになりました。アーキテクチャでは、FLUX.2のセマンティックVAEとOpenAIのGPT-OSSテキストエンコーダを採用し、モデルの収束を加速し、英語以外の言語(中国語、フランス語、日本語、スペイン語)のプロンプトも処理可能にしました。
事前訓練後、強化学習フェーズでカスタムプロンプトセットLens-RL-8Kを使用して微調整。GPT-4.1が評価基準を生成し、GPT-4.1-miniが報酬モデルとして機能します。多様なプロンプトが重要であり、カテゴリを削除すると性能が低下することが確認されました。
さらに、ユーザーの曖昧な入力を詳細なプロンプトに書き換えるリーズナー(推論器)がモデルの前に配置され、デフォルトではGPT-5.5が使用されますが、GPT-OSSも利用可能です。リーズナーのシステムプロンプトを追加訓練なしで反復改善する手法も開発され、大規模モデルQwen-Imageにも適用可能です。
高速推論のための蒸留版Lens-Turboは4ステップで画像を生成し、H100 GPU上で1メガピクセルの画像を標準モデルが約3秒かかるところを1秒未満で生成。ベンチマークでは、FLUX.2-KleinやZ-Imageを上回り、5倍のパラメータを持つQwen-Imageを凌ぐ場合もあります。ただし、日本語やフランス語のテキストレンダリングには弱点があり、データカバレッジの不足が原因とされています。
マイクロソフトはLensのコードとモデルチェックポイントをMITライセンスで公開し、Hugging FaceとGitHubで提供しています。研究目的のみに限定され、本番環境での使用は推奨されません。訓練データがウェブソースを含むため、バイアスや不適切なコンテンツを生成する可能性があり、ユーザー自身で安全対策を追加する必要があります。