POLARIS:引导小模型撰写长篇小说
POLARIS是一种针对小型开源模型的训练方法,通过GRPO策略结合LLM裁判和人类参考注入,显著提升了长文本创作能力。训练后的9B模型在长度遵循度和质量上可与27B模型媲美,并展现出强大的长度泛化能力。
大型语言模型在长文本创作方面表现优异,但小型开源模型往往力不从心。它们生成的故事要么长度严重不足,要么随着篇幅增加质量急剧下降。针对这一问题,由Rishanth Rajendhran等四位研究者组成的团队提出了POLARIS(Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting)方法,旨在大幅提升小模型的写作能力。该成果发表于arXiv,编号2606.04095,提交于2026年6月2日。
POLARIS的核心在于一种低计算成本的GRPO训练策略,包含两个关键组件:一是将前沿LLM作为裁判,依据结构化的故事质量评分标准提供在线奖励;二是人类参考注入(HRI),即在每个GRPO组中强制加入人类撰写的故事作为高奖励锚点。研究者将该方法应用于Qwen3.5-9B模型,使用约1400个提示-故事对的数据集(来自100部短篇小说集),仅用4块NVIDIA A100 GPU便训练出POLARIS-9B模型。
实验结果显示,POLARIS-9B在五个基准测试中(涵盖分布内和分布外提示与评分标准)与更大的开源模型不相上下,且在遵循长度指令方面更为精准。这些基准测试覆盖了多种写作风格和长度要求。盲评中,人类评审员更偏爱POLARIS-9B而非基线Qwen3.5-9B,且认为其与Qwen3.5-27B水平相当。尤为值得一提的是,尽管训练数据仅包含最多4000词的故事,但POLARIS-9B在要求生成三倍训练长度(即12000词)的故事时仍能保持质量,而在这一区间内,大多数开源模型的质量和/或长度遵循度都会大幅下降。
该研究还指出,长度泛化能力可作为衡量创意写作模型的重要压力测试,能够有效区分性能相近的模型。POLARIS的成功表明,通过精心设计的训练策略,小模型同样可以在复杂的长文本生成任务中达到令人满意的表现。这一发现对于模型选型、推理成本优化以及评估基准的改进都具有潜在影响。