2026-06-04 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

POLARIS：引导小模型撰写长篇小说

POLARIS是一种针对小型开源模型的训练方法，通过GRPO策略结合LLM裁判和人类参考注入，显著提升了长文本创作能力。训练后的9B模型在长度遵循度和质量上可与27B模型媲美，并展现出强大的长度泛化能力。

来源arXiv Computational Linguistics作者: Rishanth Rajendhran, Jenna Russell, Mohit Iyyer, John Frederick Wieting

大型语言模型在长文本创作方面表现优异，但小型开源模型往往力不从心。它们生成的故事要么长度严重不足，要么随着篇幅增加质量急剧下降。针对这一问题，由Rishanth Rajendhran等四位研究者组成的团队提出了POLARIS（Policy Optimization with LLM-as-a-judge rewards and Anchored-Reference Injection for Storywriting）方法，旨在大幅提升小模型的写作能力。该成果发表于arXiv，编号2606.04095，提交于2026年6月2日。

POLARIS的核心在于一种低计算成本的GRPO训练策略，包含两个关键组件：一是将前沿LLM作为裁判，依据结构化的故事质量评分标准提供在线奖励；二是人类参考注入（HRI），即在每个GRPO组中强制加入人类撰写的故事作为高奖励锚点。研究者将该方法应用于Qwen3.5-9B模型，使用约1400个提示-故事对的数据集（来自100部短篇小说集），仅用4块NVIDIA A100 GPU便训练出POLARIS-9B模型。

实验结果显示，POLARIS-9B在五个基准测试中（涵盖分布内和分布外提示与评分标准）与更大的开源模型不相上下，且在遵循长度指令方面更为精准。这些基准测试覆盖了多种写作风格和长度要求。盲评中，人类评审员更偏爱POLARIS-9B而非基线Qwen3.5-9B，且认为其与Qwen3.5-27B水平相当。尤为值得一提的是，尽管训练数据仅包含最多4000词的故事，但POLARIS-9B在要求生成三倍训练长度（即12000词）的故事时仍能保持质量，而在这一区间内，大多数开源模型的质量和/或长度遵循度都会大幅下降。

该研究还指出，长度泛化能力可作为衡量创意写作模型的重要压力测试，能够有效区分性能相近的模型。POLARIS的成功表明，通过精心设计的训练策略，小模型同样可以在复杂的长文本生成任务中达到令人满意的表现。这一发现对于模型选型、推理成本优化以及评估基准的改进都具有潜在影响。