2026-06-23 03:45 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-23 04:06 UTC+8

本地測試AI社交模擬能否預測現實的工具

一位開發者構建了一個本地運行的工具，用於測試多智能體社交模擬（如MiroFish）是否比單個LLM更能預測公眾反應。初步結果（n=5合成案例，小模型）顯示，單個LLM在情感方向上與粗略的模擬持平，在反對意見召回上勝出，而聚合信號（如病毒性、極化）為噪聲。該項目強調侷限性，並呼籲社區添加真實案例和更好的適配器，以正確評估模擬引擎。

來源Hacker News AI作者: zzvimercm

一位基礎設施工程師近日發佈了一個名為“mirofish-calibration”的開源項目，旨在公正地評估多智能體社交模擬引擎（如MiroFish、OASIS、CAMEL-AI）的預測能力。該工具完全本地運行，基於Ollama，無需雲服務，強調主權和透明性。

項目背景是，當前社交模擬領域承諾通過輸入文檔、生成數百個AI角色來預測公眾反應，但缺乏校準和對比基準。作者認為，許多演示只展示一個案例，而從未與單個LLM的簡單基線進行比較。因此，他構建了一個可復現的測試框架。

初步測試使用5個合成案例和Qwen2.5:7B模型，比較了三種預測器：迷你模擬（無交互）、單LLM（零樣本調用）和總是“混合”的啞基線。結果發現，在情感方向準確性上，迷你模擬（64%）與單LLM（52%）差異不大，但單LLM在反對意見召回率上大幅領先（84% vs 71%）。更關鍵的是，模擬聲稱擅長的聚合信號（如病毒性量級、極化程度）在5個樣本上表現為噪聲：斯皮爾曼相關係數在多次運行間符號翻轉，無統計意義。添加模擬交互輪次（MiroFish的核心論點）並未改善結果。

作者強調，這並非對MiroFish的最終判決，而是一個方法演練。當前測試存在多項限制：樣本量小（n=5）、案例為合成、模擬實現粗糙、僅使用單一小模型。真正的驗證需要大量真實案例、多個隨機種子以及真正的MiroFish引擎。

項目提供了清晰的架構：案例文件（YAML）包含刺激和地面真相；可互換的預測器；多種指標（情感方向、反對意見召回/精確率、量級和極化的秩相關）；以及生成誠實報告的工具。快速啓動只需安裝依賴、配置Ollama並運行幾個命令。

作者鼓勵社區貢獻：添加後截止日期的真實案例（避免LLM記憶），實現MiroFish適配器（harness/adapters/mirofish.py），並在N≥30下運行以克服噪聲。項目採用MIT許可證，旨在推動AI代理領域的自我證明，而非僅僅展示工作。

通過這個工具，作者希望將舉證責任轉移到模擬類別上，促使開發者用方法而非演示來驗證其引擎的預測能力。