AI News HubLIVE
站内改写1 分鐘閱讀

POLARIS:引導小模型撰寫長篇小説

POLARIS是一種針對小型開源模型的訓練方法,通過GRPO策略結合LLM裁判和人類參考注入,顯著提升了長文本創作能力。訓練後的9B模型在長度遵循度和質量上可與27B模型媲美,並展現出強大的長度泛化能力。

來源arXiv Computational Linguistics作者: Rishanth Rajendhran, Jenna Russell, Mohit Iyyer, John Frederick Wieting

大型語言模型在長文本創作方面表現優異,但小型開源模型往往力不從心。它們生成的故事要麼長度嚴重不足,要麼隨着篇幅增加質量急劇下降。針對這一問題,由Rishanth Rajendhran等四位研究者組成的團隊提出了POLARIS(Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting)方法,旨在大幅提升小模型的寫作能力。該成果發表於arXiv,編號2606.04095,提交於2026年6月2日。

POLARIS的核心在於一種低計算成本的GRPO訓練策略,包含兩個關鍵組件:一是將前沿LLM作為裁判,依據結構化的故事質量評分標準提供在線獎勵;二是人類參考注入(HRI),即在每個GRPO組中強制加入人類撰寫的故事作為高獎勵錨點。研究者將該方法應用於Qwen3.5-9B模型,使用約1400個提示-故事對的數據集(來自100部短篇小説集),僅用4塊NVIDIA A100 GPU便訓練出POLARIS-9B模型。

實驗結果顯示,POLARIS-9B在五個基準測試中(涵蓋分佈內和分佈外提示與評分標準)與更大的開源模型不相上下,且在遵循長度指令方面更為精準。這些基準測試覆蓋了多種寫作風格和長度要求。盲評中,人類評審員更偏愛POLARIS-9B而非基線Qwen3.5-9B,且認為其與Qwen3.5-27B水平相當。尤為值得一提的是,儘管訓練數據僅包含最多4000詞的故事,但POLARIS-9B在要求生成三倍訓練長度(即12000詞)的故事時仍能保持質量,而在這一區間內,大多數開源模型的質量和/或長度遵循度都會大幅下降。

該研究還指出,長度泛化能力可作為衡量創意寫作模型的重要壓力測試,能夠有效區分性能相近的模型。POLARIS的成功表明,通過精心設計的訓練策略,小模型同樣可以在複雜的長文本生成任務中達到令人滿意的表現。這一發現對於模型選型、推理成本優化以及評估基準的改進都具有潛在影響。