AI News HubLIVE
站內改寫1 分鐘閱讀

本地測試AI社交模擬能否預測現實的工具

一位開發者構建了一個本地運行的工具,用於測試多智能體社交模擬(如MiroFish)是否比單個LLM更能預測公眾反應。初步結果(n=5合成案例,小模型)顯示,單個LLM在情感方向上與粗略的模擬持平,在反對意見召回上勝出,而聚合信號(如病毒性、極化)為噪聲。該項目強調侷限性,並呼籲社區添加真實案例和更好的適配器,以正確評估模擬引擎。

來源Hacker News AI作者: zzvimercm

一位基礎設施工程師近日發佈了一個名為“mirofish-calibration”的開源項目,旨在公正地評估多智能體社交模擬引擎(如MiroFish、OASIS、CAMEL-AI)的預測能力。該工具完全本地運行,基於Ollama,無需雲服務,強調主權和透明性。

項目背景是,當前社交模擬領域承諾通過輸入文檔、生成數百個AI角色來預測公眾反應,但缺乏校準和對比基準。作者認為,許多演示只展示一個案例,而從未與單個LLM的簡單基線進行比較。因此,他構建了一個可復現的測試框架。

初步測試使用5個合成案例和Qwen2.5:7B模型,比較了三種預測器:迷你模擬(無交互)、單LLM(零樣本調用)和總是“混合”的啞基線。結果發現,在情感方向準確性上,迷你模擬(64%)與單LLM(52%)差異不大,但單LLM在反對意見召回率上大幅領先(84% vs 71%)。更關鍵的是,模擬聲稱擅長的聚合信號(如病毒性量級、極化程度)在5個樣本上表現為噪聲:斯皮爾曼相關係數在多次運行間符號翻轉,無統計意義。添加模擬交互輪次(MiroFish的核心論點)並未改善結果。

作者強調,這並非對MiroFish的最終判決,而是一個方法演練。當前測試存在多項限制:樣本量小(n=5)、案例為合成、模擬實現粗糙、僅使用單一小模型。真正的驗證需要大量真實案例、多個隨機種子以及真正的MiroFish引擎。

項目提供了清晰的架構:案例文件(YAML)包含刺激和地面真相;可互換的預測器;多種指標(情感方向、反對意見召回/精確率、量級和極化的秩相關);以及生成誠實報告的工具。快速啓動只需安裝依賴、配置Ollama並運行幾個命令。

作者鼓勵社區貢獻:添加後截止日期的真實案例(避免LLM記憶),實現MiroFish適配器(harness/adapters/mirofish.py),並在N≥30下運行以克服噪聲。項目採用MIT許可證,旨在推動AI代理領域的自我證明,而非僅僅展示工作。

通過這個工具,作者希望將舉證責任轉移到模擬類別上,促使開發者用方法而非演示來驗證其引擎的預測能力。