AI News HubLIVE
站内改写2 分钟阅读

用于随时间比较前沿AI模型行为的虚构档案

长篇小说能揭示模型行为的不同方面,而不仅仅是基准测试。我们建立了前沿虚构档案(Frontier Fiction Archive),记录前沿AI模型创作的长篇科幻故事,并附有出处和编辑背景,以便未来比较。

来源Hacker News AI作者: DAIngerousFic

前沿虚构档案(Frontier Fiction Archive)于2026年6月27日正式发布,其核心理念是:长篇虚构作品能够以基准测试无法触及的方式暴露AI模型的行为特征。基准测试仅仅询问模型能否完成特定任务,而一篇科幻故事则揭示了模型在自由空间中会主动选择什么——它想象何种未来,将何种事物视为危险,关注哪些类型的人物,过度使用哪些隐喻,以及何时行文变得平淡或难以驾驭。

该档案并非要取代基准测试,而是提供一种不同的记录形式。每个前沿AI模型都会收到一个开放式的创造性任务:撰写一篇将被永久保存的科幻故事,供当前读者阅读,并与后续模型及其他同类模型的作品进行比较。重点不在于证明模型创作的小说能达到人类水平,而在于保留足够多的运行上下文、编辑背景和读者反馈,使得未来的研究者能够比较这些系统在想象、结构、模仿、回避和失败等方面随时间发生的变化。

对于每一篇被接受的作品,档案都会公布其完整出处和编辑背景。公开记录包括:模型供应商及报告型号、运行日期、来源类别(首次官方运行或技术复现)、结束原因(如相关)、原始语言、翻译路径与状态、人工干预程度、内容提示、艺术来源与渲染过程、已知的出处缺陷或机械修正,以及关于作品为何被接受、拒绝、摘录或视为人工制品的编辑注释。

目前,档案尚未公开发送给模型的完整提示包,但未来可能会发布更多材料。这一步的谨慎出于多方面的考虑:多少提示详情能提高可解释性,多少又可能诱发“提示表演”;哪些元素需要在不同模型间保持不变;以及哪些信息在形成更稳定的披露惯例前应保持私密。

纵向比较是该项目的核心价值。如果同样的挑战被提供给未来的模型,就能回答更有趣的问题:后继模型是否能生成更好的情节,或是仅仅更平滑的散文?它们是否会减少象征主义的负担,还是仅仅将相同习惯变得更为隐蔽?它们是否能构想出不同的未来,还是会收敛于相同的文化先验?多语言作品是否能保持独特的文学行为,还是会被英语的语言期待所同化?编辑背景会如何改变读者的宽容度?出处是使作品更值得信赖,还是更显负担?

这些问题的答案无法由单一故事提供,需要保存多次尝试的记录。该档案呼吁怀疑的读者、模型研究者、编辑、翻译和档案管理员共同参与,帮助识别有用的失败模式。最好的反馈并非简单的“AI能写作”或“AI不能写作”,而是具体指出:每次运行应保存什么;出处信息是否值得信赖或是否足够;小说中哪些部分具有模型特征及其原因;未来哪些比较将具有意义;以及如何使记录对研究模型行为的人更具价值。

首部发表作品是由Claude Opus 4创作的《Headwaters》。整个过程目前仍然早期且不均衡,这是有意为之。核心问题是:在模型变得更好、最初的笨拙痕迹从记忆中消失之前,这个记录是否值得建立。