2026-06-04 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

POLARIS: 小規模モデルによる長編小説生成のガイド

POLARISは、小型オープンウェイトモデルの長文創作能力を大幅に向上させるトレーニング手法です。LLMを審査員とする報酬と人間参照注入をGRPOフレームワークで組み合わせ、9Bモデルがより大規模なモデルと同等の性能を達成し、長さの汎化にも優れています。

ソースarXiv Computational Linguistics著者: Rishanth Rajendhran, Jenna Russell, Mohit Iyyer, John Frederick Wieting

大規模言語モデルは長文創作で優れた性能を示しますが、小型のオープンウェイトモデルは苦戦します。生成される物語は要求された長さに遠く及ばないか、長さが増すにつれて品質が著しく低下します。この問題に対処するため、Rishanth Rajendhranら4名の研究者はPOLARIS（Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting）を提案しました。本成果はarXiv（識別番号2606.04095）に2026年6月2日に提出されました。

POLARISは低計算コストのGRPOトレーニング手法で、2つの主要要素から成ります。1つはフロンティアLLMを審査員とし、構造化されたストーリー品質ルーブリックをオンライン報酬として使用すること。もう1つは人間参照注入（HRI）で、各GRPOグループ内で教師強制された人間執筆のストーリーを高報酬アンカーとして利用します。このレシピをQwen3.5-9Bに適用し、100の短編アンソロジーから得た約1400のプロンプト・ストーリーペアと4基のNVIDIA A100 GPUを用いてPOLARIS-9Bを訓練しました。

評価の結果、POLARIS-9Bは5つのベンチマーク（分布内・分布外のプロンプトとルーブリックを含む）で、より大規模なオープンウェイトモデルと競合し、長さ指示への追従性がより高いことが示されました。これらのベンチマークは多様な文体と長さ要求をカバーしています。盲検評価では、POLARIS-9BはベースのQwen3.5-9Bよりも好まれ、Qwen3.5-27Bと同等と判断されました。訓練は最大4000語のストーリーのみで行いましたが、POLARIS-9Bは訓練長の3倍（12000語）までの長さを要求するプロンプトでも品質を維持します。この領域では、ほとんどのオープンウェイトモデルが品質や長さ順守の両方で大幅に劣化します。

さらに、本研究は長さ汎化が創作モデルの有意義なストレステストであり、近接したモデルを区別する有用な指標であることを示唆しています。POLARISの成功は、適切に設計されたトレーニング戦略により、小規模モデルでも複雑な長文生成タスクで満足のいく結果が得られることを示しています。この発見は、モデル選定、推論コスト最適化、評価ベンチマークの改善に潜在的な影響を与えるでしょう。