2026-06-07 03:02 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

五個實驗室，五個思維：用小型模型構建多模型金融戲劇

本文介紹了《千令牌之林》v2版本，這是一個基於多個小型語言模型的多智慧體經濟模擬遊戲。玩家扮演隱匿的金融家，透過借貸、提供內幕訊息（真假皆有）、做空和賄賂來影響市場，而每個智慧體（動物角色）使用來自不同實驗室的小型模型（GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微調Qwen 0.5B）。文章詳細討論了異構模型整合的技術挑戰（如vLLM服務層、CUDA工具鏈）、資訊不對稱的防火牆設計、記憶管理（採用有界摘要而非完整歷史）以及實驗結果（真相防火牆零洩露、內幕訊息優勢、微調模型高可靠性）。最終結論是：小型模型是可靠的格式生成器但推理不可靠，異構模型群體更有趣且配置成本低，秘密資訊必須透過資料流防火牆保護，持久記憶需有界以保持模型專注。

來源Hugging Face Blog

《千令牌之林》v2版重塑了多智慧體經濟模擬遊戲的玩法。在第一版中，五個森林動物在一個微調後的0.5B模型上互相交易商品，玩家只能旁觀世界的變化。而在v2版中，玩家成為森林的“庇護人”——一個幕後的金融家，可以透過放貸、提供內幕訊息（可以是真實的也可以是虛假的）、做空市場、賄賂以及撮合聯盟來影響整個生態。同時，還有一個法官角色會追查你利用內幕訊息交易的行為。

最根本的變化在於每個智慧體現在由不同實驗室的小型模型驅動。當前版本使用了四個模型：OpenAI的GPT-OSS-20B、OpenBMB的MiniCPM3-4B、NVIDIA的Nemotron-Mini-4B，以及一個自制的微調Qwen 0.5B。這種異質性並非為了標新立異，而是因為一個真正有趣的市場需要參與者之間存在根本差異。不同的訓練資料和後訓練過程使得這些小型模型的行為各具特色——貓頭鷹囤積的方式與狐狸投機的方式截然不同。智慧體委員會變成了一場活生生的辯論，而不是一段預設的指令碼。

在工程實現上，最大的教訓是：主要的摩擦幾乎全部來自服務層而非模型層。當前版本的vLLM（0.22.1）在載入時會JIT編譯核心，需要CUDA工具包（nvcc）存在。一個精簡的基礎映象不包含它，導致所有四個模型都報“找不到nvcc”錯誤，直到我改用CUDA開發映象才解決。這並非某個模型特有的問題，而是vLLM版本的普遍現象。修復一個映象就解決了一切。此外，GPT-OSS-20B使用其原生的MXFP4量化，可以在24GB L4 GPU上執行；MiniCPM3需要trust_remote_code；Nemotron則直接載入。每個模型都有一些小問題，但每個都只需一行配置即可解決。最關鍵的是，v1版本中建立的容忍JSON解析與修復層對於處理異構模型輸出至關重要——不同的分詞器和格式化習慣會產生不同的畸形輸出，解析器會丟棄無法修復的部分，模擬過程永不崩潰。

資訊不對稱是v2版的核心玩法之一。你可以向某個智慧體耳語一條內幕訊息，可能是真實的（對未來市場走勢的真實預測，這是你的真正優勢），也可能是虛假的（誘餌）。如果利用真實的內部訊息獲利，你的“熱度”就會上升，超過閾值就會引發法官的調查，導致罰款、資產凍結甚至流放。為了讓遊戲真實，訊息的真假標識必須對智慧體隱藏。它們看到的只是謠言文本，絕不能看到背後的標記。這是一個安全屬性，而不是使用者介面上的小問題。小型模型智慧體使得這個問題更加尖銳：模型可能會複述提示中的任何內容。因此，隱藏標記完全放在提示之外（存在於玩家的賬本中），在構造公共事件記錄時被剝離，事件敘述者只總結公開的事件。有一個測試會在每一輪中掃描每個智慧體的完整提示，檢查是否包含被禁止的標記。這個測試是整個套件中最重要的一個。當你向智慧體提供秘密資訊時，假設它會洩露，除非測試證明不會。

智慧體之間的記憶和關係透過有界的摘要來管理。每個智慧體攜帶對玩家和其他智慧體的有符號情感值，這些值受事件影響（例如你做空它的作物、償還貸款、與對手結盟等）。情感值高的智慧體會更合作，而敵對的智慧體則可能拒絕貸款或給出更差的報價。關鍵在於提示中從不放入原始歷史記錄，而是使用一行分桶摘要，例如“你對Oona感到友好，對庇護人保持警惕”，只包含最強的幾種情感。註釋資訊雖保留但有限制，並不展示給模型。這種設計使得行為偏差部分來自摘要的引導，部分來自規則（例如強烈敵對的智慧體確定性地拒絕），因此是可觀察、可測試的，而不是一種猜測。

實驗結果表明，異構模型委員會執行良好：真相防火牆零洩露；真實的內部訊息確實能帶來正收益；微調後的0.5B模型在可靠性上超越了其3B的教師模型——沒有自買自賣的行為，所有報價均有效。一次代表性執行展示了完整的v2機制：內幕訊息、關係網路、槓桿和風險。

總結而言，小型模型是可靠的格式生成器，但推理能力不可靠。透過結構化設計、提示工程和微調，可以彌補這一缺陷。異構模型群體比同構群體更有趣，且一旦服務層穩固，配置成本極低。向智慧體提供秘密資訊時，防火牆應存在於資料流中，並透過測試驗證，而非僅僅依賴提示指令。持久記憶是讓智慧體感覺生動的最廉價方式，只要提示中只出現有界摘要。