画像スタイル学習を単一のモデル順伝播に圧縮
研究チームはi2L(画像からLoRAへ)フレームワークを提案。スタイルLoRA学習を単一の順伝播に償却し、スタイルごとの最適化を不要にする。画像エンコーダ、学習可能なLoRAクエリ、圧縮デコードヘッドを用いてLoRA重みを予測し、Z-Image、FLUX.2、Hidream-O1でスタイル忠実度、プロンプト整合性、知覚品質においてベースラインを上回る。
最近、arXivに掲載された論文「Compressing Image Style Training into a Single Model Forward」(arXiv:2606.13809)において、Zhongjie Duan氏とYingda Chen氏によってi2L(image-to-LoRA)と呼ばれる革新的なフレームワークが提案されました。この論文は2026年6月11日に提出され、11ページ9図で構成されています。i2Lは、拡散モデルを用いたスタイル転送における推論効率とスタイル忠実度のトレードオフを解決することを目的としています。
従来のアダプタベースの手法は効率的ですが、スタイルを外部条件として注入するため、参照画像の特定の外観を弱めたり、参照のセマンティクスを生成画像にコピーしてしまう問題がありました。一方、LoRAのような最適化ベースのパーソナライズ手法はスタイルをより効果的に内面化できますが、新しいスタイルごとに個別の学習プロセスが必要です。i2Lは、スタイルLoRA学習を単一の順伝播に償却することで、これらの制限を克服します。1つ以上の参照画像が与えられると、i2Lはテキストから画像へのモデルのLoRA重みを即座に予測し、スタイルごとの最適化を不要にします。
i2Lのアーキテクチャは、画像エンコーダ、学習可能なLoRAクエリ、および圧縮デコードヘッドを組み合わせて適応低ランク行列を生成します。学習時には、意味的に多様なスタイルペアを使用し、予測器が参照コンテンツのコピーを抑制しつつ外観の手がかりを保持するように促します。Z-Image、FLUX.2、Hidream-O1を用いた実験では、i2Lはスタイル忠実度、プロンプト整合性、知覚品質において既存のベースラインを上回る結果を示しました。
i2Lは明示的なLoRA重みを生成するため、非対称な分類器フリーガイダンス、マルチ参照スタイル融合、そしてControlNet等の制御可能生成モジュールとの合成もサポートします。これにより、i2Lはアートスタイル化やパーソナライズド画像生成など、幅広い応用が期待されます。