2026-06-23 03:45 UTC+8站内改写1 分钟阅读更新: 2026-06-23 04:06 UTC+8

本地测试AI社交模拟能否预测现实的工具

一位开发者构建了一个本地运行的工具，用于测试多智能体社交模拟（如MiroFish）是否比单个LLM更能预测公众反应。初步结果（n=5合成案例，小模型）显示，单个LLM在情感方向上与粗略的模拟持平，在反对意见召回上胜出，而聚合信号（如病毒性、极化）为噪声。该项目强调局限性，并呼吁社区添加真实案例和更好的适配器，以正确评估模拟引擎。

来源Hacker News AI作者: zzvimercm

一位基础设施工程师近日发布了一个名为“mirofish-calibration”的开源项目，旨在公正地评估多智能体社交模拟引擎（如MiroFish、OASIS、CAMEL-AI）的预测能力。该工具完全本地运行，基于Ollama，无需云服务，强调主权和透明性。

项目背景是，当前社交模拟领域承诺通过输入文档、生成数百个AI角色来预测公众反应，但缺乏校准和对比基准。作者认为，许多演示只展示一个案例，而从未与单个LLM的简单基线进行比较。因此，他构建了一个可复现的测试框架。

初步测试使用5个合成案例和Qwen2.5:7B模型，比较了三种预测器：迷你模拟（无交互）、单LLM（零样本调用）和总是“混合”的哑基线。结果发现，在情感方向准确性上，迷你模拟（64%）与单LLM（52%）差异不大，但单LLM在反对意见召回率上大幅领先（84% vs 71%）。更关键的是，模拟声称擅长的聚合信号（如病毒性量级、极化程度）在5个样本上表现为噪声：斯皮尔曼相关系数在多次运行间符号翻转，无统计意义。添加模拟交互轮次（MiroFish的核心论点）并未改善结果。

作者强调，这并非对MiroFish的最终判决，而是一个方法演练。当前测试存在多项限制：样本量小（n=5）、案例为合成、模拟实现粗糙、仅使用单一小模型。真正的验证需要大量真实案例、多个随机种子以及真正的MiroFish引擎。

项目提供了清晰的架构：案例文件（YAML）包含刺激和地面真相；可互换的预测器；多种指标（情感方向、反对意见召回/精确率、量级和极化的秩相关）；以及生成诚实报告的工具。快速启动只需安装依赖、配置Ollama并运行几个命令。

作者鼓励社区贡献：添加后截止日期的真实案例（避免LLM记忆），实现MiroFish适配器（harness/adapters/mirofish.py），并在N≥30下运行以克服噪声。项目采用MIT许可证，旨在推动AI代理领域的自我证明，而非仅仅展示工作。

通过这个工具，作者希望将举证责任转移到模拟类别上，促使开发者用方法而非演示来验证其引擎的预测能力。