2026-06-04 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

POLARIS：引導小模型撰寫長篇小説

POLARIS是一種針對小型開源模型的訓練方法，通過GRPO策略結合LLM裁判和人類參考注入，顯著提升了長文本創作能力。訓練後的9B模型在長度遵循度和質量上可與27B模型媲美，並展現出強大的長度泛化能力。

來源arXiv Computational Linguistics作者: Rishanth Rajendhran, Jenna Russell, Mohit Iyyer, John Frederick Wieting

大型語言模型在長文本創作方面表現優異，但小型開源模型往往力不從心。它們生成的故事要麼長度嚴重不足，要麼隨着篇幅增加質量急劇下降。針對這一問題，由Rishanth Rajendhran等四位研究者組成的團隊提出了POLARIS（Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting）方法，旨在大幅提升小模型的寫作能力。該成果發表於arXiv，編號2606.04095，提交於2026年6月2日。

POLARIS的核心在於一種低計算成本的GRPO訓練策略，包含兩個關鍵組件：一是將前沿LLM作為裁判，依據結構化的故事質量評分標準提供在線獎勵；二是人類參考注入（HRI），即在每個GRPO組中強制加入人類撰寫的故事作為高獎勵錨點。研究者將該方法應用於Qwen3.5-9B模型，使用約1400個提示-故事對的數據集（來自100部短篇小説集），僅用4塊NVIDIA A100 GPU便訓練出POLARIS-9B模型。

實驗結果顯示，POLARIS-9B在五個基準測試中（涵蓋分佈內和分佈外提示與評分標準）與更大的開源模型不相上下，且在遵循長度指令方面更為精準。這些基準測試覆蓋了多種寫作風格和長度要求。盲評中，人類評審員更偏愛POLARIS-9B而非基線Qwen3.5-9B，且認為其與Qwen3.5-27B水平相當。尤為值得一提的是，儘管訓練數據僅包含最多4000詞的故事，但POLARIS-9B在要求生成三倍訓練長度（即12000詞）的故事時仍能保持質量，而在這一區間內，大多數開源模型的質量和/或長度遵循度都會大幅下降。

該研究還指出，長度泛化能力可作為衡量創意寫作模型的重要壓力測試，能夠有效區分性能相近的模型。POLARIS的成功表明，通過精心設計的訓練策略，小模型同樣可以在複雜的長文本生成任務中達到令人滿意的表現。這一發現對於模型選型、推理成本優化以及評估基準的改進都具有潛在影響。