2026-06-07 03:02 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

五个实验室，五个思维：用小型模型构建多模型金融戏剧

本文介绍了《千令牌之林》v2版本，这是一个基于多个小型语言模型的多智能体经济模拟游戏。玩家扮演隐匿的金融家，通过借贷、提供内幕消息（真假皆有）、做空和贿赂来影响市场，而每个智能体（动物角色）使用来自不同实验室的小型模型（GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微调Qwen 0.5B）。文章详细讨论了异构模型集成的技术挑战（如vLLM服务层、CUDA工具链）、信息不对称的防火墙设计、记忆管理（采用有界摘要而非完整历史）以及实验结果（真相防火墙零泄露、内幕消息优势、微调模型高可靠性）。最终结论是：小型模型是可靠的格式生成器但推理不可靠，异构模型群体更有趣且配置成本低，秘密信息必须通过数据流防火墙保护，持久记忆需有界以保持模型专注。

来源Hugging Face Blog

《千令牌之林》v2版重塑了多智能体经济模拟游戏的玩法。在第一版中，五个森林动物在一个微调后的0.5B模型上互相交易商品，玩家只能旁观世界的变化。而在v2版中，玩家成为森林的“庇护人”——一个幕后的金融家，可以通过放贷、提供内幕消息（可以是真实的也可以是虚假的）、做空市场、贿赂以及撮合联盟来影响整个生态。同时，还有一个法官角色会追查你利用内幕消息交易的行为。

最根本的变化在于每个智能体现在由不同实验室的小型模型驱动。当前版本使用了四个模型：OpenAI的GPT-OSS-20B、OpenBMB的MiniCPM3-4B、NVIDIA的Nemotron-Mini-4B，以及一个自制的微调Qwen 0.5B。这种异质性并非为了标新立异，而是因为一个真正有趣的市场需要参与者之间存在根本差异。不同的训练数据和后训练过程使得这些小型模型的行为各具特色——猫头鹰囤积的方式与狐狸投机的方式截然不同。智能体委员会变成了一场活生生的辩论，而不是一段预设的脚本。

在工程实现上，最大的教训是：主要的摩擦几乎全部来自服务层而非模型层。当前版本的vLLM（0.22.1）在加载时会JIT编译内核，需要CUDA工具包（nvcc）存在。一个精简的基础镜像不包含它，导致所有四个模型都报“找不到nvcc”错误，直到我改用CUDA开发镜像才解决。这并非某个模型特有的问题，而是vLLM版本的普遍现象。修复一个镜像就解决了一切。此外，GPT-OSS-20B使用其原生的MXFP4量化，可以在24GB L4 GPU上运行；MiniCPM3需要trust_remote_code；Nemotron则直接加载。每个模型都有一些小问题，但每个都只需一行配置即可解决。最关键的是，v1版本中建立的容忍JSON解析与修复层对于处理异构模型输出至关重要——不同的分词器和格式化习惯会产生不同的畸形输出，解析器会丢弃无法修复的部分，模拟过程永不崩溃。

信息不对称是v2版的核心玩法之一。你可以向某个智能体耳语一条内幕消息，可能是真实的（对未来市场走势的真实预测，这是你的真正优势），也可能是虚假的（诱饵）。如果利用真实的内部消息获利，你的“热度”就会上升，超过阈值就会引发法官的调查，导致罚款、资产冻结甚至流放。为了让游戏真实，消息的真假标识必须对智能体隐藏。它们看到的只是谣言文本，绝不能看到背后的标记。这是一个安全属性，而不是用户界面上的小问题。小型模型智能体使得这个问题更加尖锐：模型可能会复述提示中的任何内容。因此，隐藏标记完全放在提示之外（存在于玩家的账本中），在构造公共事件记录时被剥离，事件叙述者只总结公开的事件。有一个测试会在每一轮中扫描每个智能体的完整提示，检查是否包含被禁止的标记。这个测试是整个套件中最重要的一个。当你向智能体提供秘密信息时，假设它会泄露，除非测试证明不会。

智能体之间的记忆和关系通过有界的摘要来管理。每个智能体携带对玩家和其他智能体的有符号情感值，这些值受事件影响（例如你做空它的作物、偿还贷款、与对手结盟等）。情感值高的智能体会更合作，而敌对的智能体则可能拒绝贷款或给出更差的报价。关键在于提示中从不放入原始历史记录，而是使用一行分桶摘要，例如“你对Oona感到友好，对庇护人保持警惕”，只包含最强的几种情感。注释信息虽保留但有限制，并不展示给模型。这种设计使得行为偏差部分来自摘要的引导，部分来自规则（例如强烈敌对的智能体确定性地拒绝），因此是可观察、可测试的，而不是一种猜测。

实验结果表明，异构模型委员会运行良好：真相防火墙零泄露；真实的内部消息确实能带来正收益；微调后的0.5B模型在可靠性上超越了其3B的教师模型——没有自买自卖的行为，所有报价均有效。一次代表性运行展示了完整的v2机制：内幕消息、关系网络、杠杆和风险。

总结而言，小型模型是可靠的格式生成器，但推理能力不可靠。通过结构化设计、提示工程和微调，可以弥补这一缺陷。异构模型群体比同构群体更有趣，且一旦服务层稳固，配置成本极低。向智能体提供秘密信息时，防火墙应存在于数据流中，并通过测试验证，而非仅仅依赖提示指令。持久记忆是让智能体感觉生动的最廉价方式，只要提示中只出现有界摘要。