2026-06-28 08:13 UTC+8站内改写2 分钟阅读更新: 2026-06-28 08:19 UTC+8

用于随时间比较前沿AI模型行为的虚构档案

长篇小说能揭示模型行为的不同方面，而不仅仅是基准测试。我们建立了前沿虚构档案（Frontier Fiction Archive），记录前沿AI模型创作的长篇科幻故事，并附有出处和编辑背景，以便未来比较。

来源Hacker News AI作者: DAIngerousFic

前沿虚构档案（Frontier Fiction Archive）于2026年6月27日正式发布，其核心理念是：长篇虚构作品能够以基准测试无法触及的方式暴露AI模型的行为特征。基准测试仅仅询问模型能否完成特定任务，而一篇科幻故事则揭示了模型在自由空间中会主动选择什么——它想象何种未来，将何种事物视为危险，关注哪些类型的人物，过度使用哪些隐喻，以及何时行文变得平淡或难以驾驭。

该档案并非要取代基准测试，而是提供一种不同的记录形式。每个前沿AI模型都会收到一个开放式的创造性任务：撰写一篇将被永久保存的科幻故事，供当前读者阅读，并与后续模型及其他同类模型的作品进行比较。重点不在于证明模型创作的小说能达到人类水平，而在于保留足够多的运行上下文、编辑背景和读者反馈，使得未来的研究者能够比较这些系统在想象、结构、模仿、回避和失败等方面随时间发生的变化。

对于每一篇被接受的作品，档案都会公布其完整出处和编辑背景。公开记录包括：模型供应商及报告型号、运行日期、来源类别（首次官方运行或技术复现）、结束原因（如相关）、原始语言、翻译路径与状态、人工干预程度、内容提示、艺术来源与渲染过程、已知的出处缺陷或机械修正，以及关于作品为何被接受、拒绝、摘录或视为人工制品的编辑注释。

目前，档案尚未公开发送给模型的完整提示包，但未来可能会发布更多材料。这一步的谨慎出于多方面的考虑：多少提示详情能提高可解释性，多少又可能诱发“提示表演”；哪些元素需要在不同模型间保持不变；以及哪些信息在形成更稳定的披露惯例前应保持私密。

纵向比较是该项目的核心价值。如果同样的挑战被提供给未来的模型，就能回答更有趣的问题：后继模型是否能生成更好的情节，或是仅仅更平滑的散文？它们是否会减少象征主义的负担，还是仅仅将相同习惯变得更为隐蔽？它们是否能构想出不同的未来，还是会收敛于相同的文化先验？多语言作品是否能保持独特的文学行为，还是会被英语的语言期待所同化？编辑背景会如何改变读者的宽容度？出处是使作品更值得信赖，还是更显负担？

这些问题的答案无法由单一故事提供，需要保存多次尝试的记录。该档案呼吁怀疑的读者、模型研究者、编辑、翻译和档案管理员共同参与，帮助识别有用的失败模式。最好的反馈并非简单的“AI能写作”或“AI不能写作”，而是具体指出：每次运行应保存什么；出处信息是否值得信赖或是否足够；小说中哪些部分具有模型特征及其原因；未来哪些比较将具有意义；以及如何使记录对研究模型行为的人更具价值。

首部发表作品是由Claude Opus 4创作的《Headwaters》。整个过程目前仍然早期且不均衡，这是有意为之。核心问题是：在模型变得更好、最初的笨拙痕迹从记忆中消失之前，这个记录是否值得建立。