用於隨時間比較前沿AI模型行為的虛構檔案
長篇小說能揭示模型行為的不同方面,而不僅僅是基準測試。我們建立了前沿虛構檔案(Frontier Fiction Archive),記錄前沿AI模型創作的長篇科幻故事,並附有出處和編輯背景,以便未來比較。
前沿虛構檔案(Frontier Fiction Archive)於2026年6月27日正式釋出,其核心理念是:長篇虛構作品能夠以基準測試無法觸及的方式暴露AI模型的行為特徵。基準測試僅僅詢問模型能否完成特定任務,而一篇科幻故事則揭示了模型在自由空間中會主動選擇什麼——它想象何種未來,將何種事物視為危險,關注哪些型別的人物,過度使用哪些隱喻,以及何時行文變得平淡或難以駕馭。
該檔案並非要取代基準測試,而是提供一種不同的記錄形式。每個前沿AI模型都會收到一個開放式的創造性任務:撰寫一篇將被永久儲存的科幻故事,供當前讀者閱讀,並與後續模型及其他同類模型的作品進行比較。重點不在於證明模型創作的小說能達到人類水平,而在於保留足夠多的執行上下文、編輯背景和讀者反饋,使得未來的研究者能夠比較這些系統在想象、結構、模仿、迴避和失敗等方面隨時間發生的變化。
對於每一篇被接受的作品,檔案都會公佈其完整出處和編輯背景。公開記錄包括:模型供應商及報告型號、執行日期、來源類別(首次官方執行或技術復現)、結束原因(如相關)、原始語言、翻譯路徑與狀態、人工干預程度、內容提示、藝術來源與渲染過程、已知的出處缺陷或機械修正,以及關於作品為何被接受、拒絕、摘錄或視為人工製品的編輯註釋。
目前,檔案尚未公開傳送給模型的完整提示包,但未來可能會發布更多材料。這一步的謹慎出於多方面的考慮:多少提示詳情能提高可解釋性,多少又可能誘發“提示表演”;哪些元素需要在不同模型間保持不變;以及哪些資訊在形成更穩定的披露慣例前應保持私密。
縱向比較是該專案的核心價值。如果同樣的挑戰被提供給未來的模型,就能回答更有趣的問題:後繼模型是否能生成更好的情節,或是僅僅更平滑的散文?它們是否會減少象徵主義的負擔,還是僅僅將相同習慣變得更為隱蔽?它們是否能構想出不同的未來,還是會收斂於相同的文化先驗?多語言作品是否能保持獨特的文學行為,還是會被英語的語言期待所同化?編輯背景會如何改變讀者的寬容度?出處是使作品更值得信賴,還是更顯負擔?
這些問題的答案無法由單一故事提供,需要儲存多次嘗試的記錄。該檔案呼籲懷疑的讀者、模型研究者、編輯、翻譯和檔案管理員共同參與,幫助識別有用的失敗模式。最好的反饋並非簡單的“AI能寫作”或“AI不能寫作”,而是具體指出:每次執行應儲存什麼;出處資訊是否值得信賴或是否足夠;小說中哪些部分具有模型特徵及其原因;未來哪些比較將具有意義;以及如何使記錄對研究模型行為的人更具價值。
首部發表作品是由Claude Opus 4創作的《Headwaters》。整個過程目前仍然早期且不均衡,這是有意為之。核心問題是:在模型變得更好、最初的笨拙痕跡從記憶中消失之前,這個記錄是否值得建立。