2026-06-28 08:13 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-28 08:19 UTC+8

用於隨時間比較前沿AI模型行為的虛構檔案

長篇小說能揭示模型行為的不同方面，而不僅僅是基準測試。我們建立了前沿虛構檔案（Frontier Fiction Archive），記錄前沿AI模型創作的長篇科幻故事，並附有出處和編輯背景，以便未來比較。

來源Hacker News AI作者: DAIngerousFic

前沿虛構檔案（Frontier Fiction Archive）於2026年6月27日正式釋出，其核心理念是：長篇虛構作品能夠以基準測試無法觸及的方式暴露AI模型的行為特徵。基準測試僅僅詢問模型能否完成特定任務，而一篇科幻故事則揭示了模型在自由空間中會主動選擇什麼——它想象何種未來，將何種事物視為危險，關注哪些型別的人物，過度使用哪些隱喻，以及何時行文變得平淡或難以駕馭。

該檔案並非要取代基準測試，而是提供一種不同的記錄形式。每個前沿AI模型都會收到一個開放式的創造性任務：撰寫一篇將被永久儲存的科幻故事，供當前讀者閱讀，並與後續模型及其他同類模型的作品進行比較。重點不在於證明模型創作的小說能達到人類水平，而在於保留足夠多的執行上下文、編輯背景和讀者反饋，使得未來的研究者能夠比較這些系統在想象、結構、模仿、迴避和失敗等方面隨時間發生的變化。

對於每一篇被接受的作品，檔案都會公佈其完整出處和編輯背景。公開記錄包括：模型供應商及報告型號、執行日期、來源類別（首次官方執行或技術復現）、結束原因（如相關）、原始語言、翻譯路徑與狀態、人工干預程度、內容提示、藝術來源與渲染過程、已知的出處缺陷或機械修正，以及關於作品為何被接受、拒絕、摘錄或視為人工製品的編輯註釋。

目前，檔案尚未公開傳送給模型的完整提示包，但未來可能會發布更多材料。這一步的謹慎出於多方面的考慮：多少提示詳情能提高可解釋性，多少又可能誘發“提示表演”；哪些元素需要在不同模型間保持不變；以及哪些資訊在形成更穩定的披露慣例前應保持私密。

縱向比較是該專案的核心價值。如果同樣的挑戰被提供給未來的模型，就能回答更有趣的問題：後繼模型是否能生成更好的情節，或是僅僅更平滑的散文？它們是否會減少象徵主義的負擔，還是僅僅將相同習慣變得更為隱蔽？它們是否能構想出不同的未來，還是會收斂於相同的文化先驗？多語言作品是否能保持獨特的文學行為，還是會被英語的語言期待所同化？編輯背景會如何改變讀者的寬容度？出處是使作品更值得信賴，還是更顯負擔？

這些問題的答案無法由單一故事提供，需要儲存多次嘗試的記錄。該檔案呼籲懷疑的讀者、模型研究者、編輯、翻譯和檔案管理員共同參與，幫助識別有用的失敗模式。最好的反饋並非簡單的“AI能寫作”或“AI不能寫作”，而是具體指出：每次執行應儲存什麼；出處資訊是否值得信賴或是否足夠；小說中哪些部分具有模型特徵及其原因；未來哪些比較將具有意義；以及如何使記錄對研究模型行為的人更具價值。

首部發表作品是由Claude Opus 4創作的《Headwaters》。整個過程目前仍然早期且不均衡，這是有意為之。核心問題是：在模型變得更好、最初的笨拙痕跡從記憶中消失之前，這個記錄是否值得建立。