AI News HubLIVE
站内改写3 分钟阅读

五个实验室,五个思维:用小型模型构建多模型金融戏剧

本文介绍了《千令牌之林》v2版本,这是一个基于多个小型语言模型的多智能体经济模拟游戏。玩家扮演隐匿的金融家,通过借贷、提供内幕消息(真假皆有)、做空和贿赂来影响市场,而每个智能体(动物角色)使用来自不同实验室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微调Qwen 0.5B)。文章详细讨论了异构模型集成的技术挑战(如vLLM服务层、CUDA工具链)、信息不对称的防火墙设计、记忆管理(采用有界摘要而非完整历史)以及实验结果(真相防火墙零泄露、内幕消息优势、微调模型高可靠性)。最终结论是:小型模型是可靠的格式生成器但推理不可靠,异构模型群体更有趣且配置成本低,秘密信息必须通过数据流防火墙保护,持久记忆需有界以保持模型专注。

《千令牌之林》v2版重塑了多智能体经济模拟游戏的玩法。在第一版中,五个森林动物在一个微调后的0.5B模型上互相交易商品,玩家只能旁观世界的变化。而在v2版中,玩家成为森林的“庇护人”——一个幕后的金融家,可以通过放贷、提供内幕消息(可以是真实的也可以是虚假的)、做空市场、贿赂以及撮合联盟来影响整个生态。同时,还有一个法官角色会追查你利用内幕消息交易的行为。

最根本的变化在于每个智能体现在由不同实验室的小型模型驱动。当前版本使用了四个模型:OpenAI的GPT-OSS-20B、OpenBMB的MiniCPM3-4B、NVIDIA的Nemotron-Mini-4B,以及一个自制的微调Qwen 0.5B。这种异质性并非为了标新立异,而是因为一个真正有趣的市场需要参与者之间存在根本差异。不同的训练数据和后训练过程使得这些小型模型的行为各具特色——猫头鹰囤积的方式与狐狸投机的方式截然不同。智能体委员会变成了一场活生生的辩论,而不是一段预设的脚本。

在工程实现上,最大的教训是:主要的摩擦几乎全部来自服务层而非模型层。当前版本的vLLM(0.22.1)在加载时会JIT编译内核,需要CUDA工具包(nvcc)存在。一个精简的基础镜像不包含它,导致所有四个模型都报“找不到nvcc”错误,直到我改用CUDA开发镜像才解决。这并非某个模型特有的问题,而是vLLM版本的普遍现象。修复一个镜像就解决了一切。此外,GPT-OSS-20B使用其原生的MXFP4量化,可以在24GB L4 GPU上运行;MiniCPM3需要trust_remote_code;Nemotron则直接加载。每个模型都有一些小问题,但每个都只需一行配置即可解决。最关键的是,v1版本中建立的容忍JSON解析与修复层对于处理异构模型输出至关重要——不同的分词器和格式化习惯会产生不同的畸形输出,解析器会丢弃无法修复的部分,模拟过程永不崩溃。

信息不对称是v2版的核心玩法之一。你可以向某个智能体耳语一条内幕消息,可能是真实的(对未来市场走势的真实预测,这是你的真正优势),也可能是虚假的(诱饵)。如果利用真实的内部消息获利,你的“热度”就会上升,超过阈值就会引发法官的调查,导致罚款、资产冻结甚至流放。为了让游戏真实,消息的真假标识必须对智能体隐藏。它们看到的只是谣言文本,绝不能看到背后的标记。这是一个安全属性,而不是用户界面上的小问题。小型模型智能体使得这个问题更加尖锐:模型可能会复述提示中的任何内容。因此,隐藏标记完全放在提示之外(存在于玩家的账本中),在构造公共事件记录时被剥离,事件叙述者只总结公开的事件。有一个测试会在每一轮中扫描每个智能体的完整提示,检查是否包含被禁止的标记。这个测试是整个套件中最重要的一个。当你向智能体提供秘密信息时,假设它会泄露,除非测试证明不会。

智能体之间的记忆和关系通过有界的摘要来管理。每个智能体携带对玩家和其他智能体的有符号情感值,这些值受事件影响(例如你做空它的作物、偿还贷款、与对手结盟等)。情感值高的智能体会更合作,而敌对的智能体则可能拒绝贷款或给出更差的报价。关键在于提示中从不放入原始历史记录,而是使用一行分桶摘要,例如“你对Oona感到友好,对庇护人保持警惕”,只包含最强的几种情感。注释信息虽保留但有限制,并不展示给模型。这种设计使得行为偏差部分来自摘要的引导,部分来自规则(例如强烈敌对的智能体确定性地拒绝),因此是可观察、可测试的,而不是一种猜测。

实验结果表明,异构模型委员会运行良好:真相防火墙零泄露;真实的内部消息确实能带来正收益;微调后的0.5B模型在可靠性上超越了其3B的教师模型——没有自买自卖的行为,所有报价均有效。一次代表性运行展示了完整的v2机制:内幕消息、关系网络、杠杆和风险。

总结而言,小型模型是可靠的格式生成器,但推理能力不可靠。通过结构化设计、提示工程和微调,可以弥补这一缺陷。异构模型群体比同构群体更有趣,且一旦服务层稳固,配置成本极低。向智能体提供秘密信息时,防火墙应存在于数据流中,并通过测试验证,而非仅仅依赖提示指令。持久记忆是让智能体感觉生动的最廉价方式,只要提示中只出现有界摘要。