五個實驗室,五個思維:用小型模型構建多模型金融戲劇
本文介紹了《千令牌之林》v2版本,這是一個基於多個小型語言模型的多智慧體經濟模擬遊戲。玩家扮演隱匿的金融家,透過借貸、提供內幕訊息(真假皆有)、做空和賄賂來影響市場,而每個智慧體(動物角色)使用來自不同實驗室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微調Qwen 0.5B)。文章詳細討論了異構模型整合的技術挑戰(如vLLM服務層、CUDA工具鏈)、資訊不對稱的防火牆設計、記憶管理(採用有界摘要而非完整歷史)以及實驗結果(真相防火牆零洩露、內幕訊息優勢、微調模型高可靠性)。最終結論是:小型模型是可靠的格式生成器但推理不可靠,異構模型群體更有趣且配置成本低,秘密資訊必須透過資料流防火牆保護,持久記憶需有界以保持模型專注。
《千令牌之林》v2版重塑了多智慧體經濟模擬遊戲的玩法。在第一版中,五個森林動物在一個微調後的0.5B模型上互相交易商品,玩家只能旁觀世界的變化。而在v2版中,玩家成為森林的“庇護人”——一個幕後的金融家,可以透過放貸、提供內幕訊息(可以是真實的也可以是虛假的)、做空市場、賄賂以及撮合聯盟來影響整個生態。同時,還有一個法官角色會追查你利用內幕訊息交易的行為。
最根本的變化在於每個智慧體現在由不同實驗室的小型模型驅動。當前版本使用了四個模型:OpenAI的GPT-OSS-20B、OpenBMB的MiniCPM3-4B、NVIDIA的Nemotron-Mini-4B,以及一個自制的微調Qwen 0.5B。這種異質性並非為了標新立異,而是因為一個真正有趣的市場需要參與者之間存在根本差異。不同的訓練資料和後訓練過程使得這些小型模型的行為各具特色——貓頭鷹囤積的方式與狐狸投機的方式截然不同。智慧體委員會變成了一場活生生的辯論,而不是一段預設的指令碼。
在工程實現上,最大的教訓是:主要的摩擦幾乎全部來自服務層而非模型層。當前版本的vLLM(0.22.1)在載入時會JIT編譯核心,需要CUDA工具包(nvcc)存在。一個精簡的基礎映象不包含它,導致所有四個模型都報“找不到nvcc”錯誤,直到我改用CUDA開發映象才解決。這並非某個模型特有的問題,而是vLLM版本的普遍現象。修復一個映象就解決了一切。此外,GPT-OSS-20B使用其原生的MXFP4量化,可以在24GB L4 GPU上執行;MiniCPM3需要trust_remote_code;Nemotron則直接載入。每個模型都有一些小問題,但每個都只需一行配置即可解決。最關鍵的是,v1版本中建立的容忍JSON解析與修復層對於處理異構模型輸出至關重要——不同的分詞器和格式化習慣會產生不同的畸形輸出,解析器會丟棄無法修復的部分,模擬過程永不崩潰。
資訊不對稱是v2版的核心玩法之一。你可以向某個智慧體耳語一條內幕訊息,可能是真實的(對未來市場走勢的真實預測,這是你的真正優勢),也可能是虛假的(誘餌)。如果利用真實的內部訊息獲利,你的“熱度”就會上升,超過閾值就會引發法官的調查,導致罰款、資產凍結甚至流放。為了讓遊戲真實,訊息的真假標識必須對智慧體隱藏。它們看到的只是謠言文本,絕不能看到背後的標記。這是一個安全屬性,而不是使用者介面上的小問題。小型模型智慧體使得這個問題更加尖銳:模型可能會複述提示中的任何內容。因此,隱藏標記完全放在提示之外(存在於玩家的賬本中),在構造公共事件記錄時被剝離,事件敘述者只總結公開的事件。有一個測試會在每一輪中掃描每個智慧體的完整提示,檢查是否包含被禁止的標記。這個測試是整個套件中最重要的一個。當你向智慧體提供秘密資訊時,假設它會洩露,除非測試證明不會。
智慧體之間的記憶和關係透過有界的摘要來管理。每個智慧體攜帶對玩家和其他智慧體的有符號情感值,這些值受事件影響(例如你做空它的作物、償還貸款、與對手結盟等)。情感值高的智慧體會更合作,而敵對的智慧體則可能拒絕貸款或給出更差的報價。關鍵在於提示中從不放入原始歷史記錄,而是使用一行分桶摘要,例如“你對Oona感到友好,對庇護人保持警惕”,只包含最強的幾種情感。註釋資訊雖保留但有限制,並不展示給模型。這種設計使得行為偏差部分來自摘要的引導,部分來自規則(例如強烈敵對的智慧體確定性地拒絕),因此是可觀察、可測試的,而不是一種猜測。
實驗結果表明,異構模型委員會執行良好:真相防火牆零洩露;真實的內部訊息確實能帶來正收益;微調後的0.5B模型在可靠性上超越了其3B的教師模型——沒有自買自賣的行為,所有報價均有效。一次代表性執行展示了完整的v2機制:內幕訊息、關係網路、槓桿和風險。
總結而言,小型模型是可靠的格式生成器,但推理能力不可靠。透過結構化設計、提示工程和微調,可以彌補這一缺陷。異構模型群體比同構群體更有趣,且一旦服務層穩固,配置成本極低。向智慧體提供秘密資訊時,防火牆應存在於資料流中,並透過測試驗證,而非僅僅依賴提示指令。持久記憶是讓智慧體感覺生動的最廉價方式,只要提示中只出現有界摘要。