AI News HubLIVE
站内改写3 分で読了

5つのラボ、5つの思考:小型モデルで構築するマルチモデル金融ドラマ

本記事は、第2回Build Small Hackathonのフィールドレポートであり、「Thousand Token Wood」v2版について説明しています。このバージョンでは、森に住む5匹の生き物のエージェントがそれぞれ異なる小型言語モデル(OpenAI、OpenBMB、NVIDIA、および微調整済みQwen)によって駆動され、プレイヤーは影のフィナンシエとして融資、内部情報の提供(真偽あり)、空売り、賄賂、同盟の仲介を行います。記事では、サービング層の異種性(vLLM、CUDAツールキット)、モデルごとの癖、寛容なJSONパーサー、内部情報の秘密フラグがエージェントのプロンプトに漏れるのを防ぐファイアウォールなど、エンジニアリング上の課題について詳述されています。永続的なメモリはプロンプトの肥大化を避けるため、生の履歴ではなくバウンデッドサマリーで管理されます。結果は漏洩ゼロ、微調整済み0.5Bモデルの高い信頼性、異種エージェントからの創発的な行動を示しています。主な教訓:小型モデルは信頼できるフォーマット生成器だが推論は信頼できない;異種性は管理可能なコストで価値を追加する;秘密情報はデータフローレベルのファイアウォールを必要とする;バウンデッドメモリは推論を損なわずにエージェントを生き生きとさせる。

「Thousand Token Wood」v2は、マルチエージェント経済シミュレーションゲームを再定義しました。最初のバージョンでは、5匹の森の生き物が1つの微調整済み0.5Bモデル上で商品を取引し、プレイヤーはそれを見守るだけでした。v2では、プレイヤーは森の「パトロン」—影のフィナンシエ—となり、融資、内部情報(真実または虚偽)の提供、空売り、賄賂、同盟の仲介を行うことができます。さらに、裁判官があなたの内部情報取引を追跡します。

最も根本的な変化は、各エージェントが異なるラボの小型モデルで思考することです。現在のバージョンでは4つのモデルを使用しています。OpenAIのGPT-OSS-20B、OpenBMBのMiniCPM3-4B、NVIDIAのNemotron-Mini-4B、そして自作の微調整済みQwen 0.5Bです。この異種性は新奇性のためではなく、市場が本当に面白くなるためには参加者が根本的に異なる必要があるからです。異なるデータと事後訓練プロセスにより、これらの小型モデルの行動はそれぞれ独自の特徴を示します—フクロウはキツネとは異なる方法で蓄えます。エージェント評議会は、スクリプトではなく生きた議論となります。

エンジニアリング面での最大の教訓は、摩擦のほとんどがモデル層ではなくサービング層で発生することです。現在のvLLM(0.22.1)はロード時にカーネルをJITコンパイルし、CUDAツールキット(nvcc)を必要とします。軽量ベースイメージにはそれが含まれておらず、CUDA開発イメージに変更するまですべてのモデルが「nvccが見つかりません」というエラーで失敗しました。これは特定のモデルに固有の問題ではなく、vLLMのバージョンに共通するものでした。1つのイメージ修正ですべてが解決しました。GPT-OSS-20BはネイティブのMXFP4量子化で動作し、24GB L4 GPUに余裕で収まります。MiniCPM3はtrust_remote_codeを必要とし、Nemotronはそのまま読み込めました。各モデルには小さな癖がありましたが、それぞれ1行の設定で解決できました。最も重要なのは、v1で構築された寛容なJSONパース・修復レイヤーが、異種モデルの出力を処理するために不可欠だったことです。異なるトークナイザーとフォーマット習慣が異なる奇形を生み出しますが、パーサーは修復できない部分を破棄し、シミュレーションは決してクラッシュしません。

情報非対称性はv2の核心です。プレイヤーはエージェントに内部情報をささやくことができます。真実(次の市場の急騰を予測する本当の情報)または偽の情報(餌)です。真の内部情報で利益を得ると「熱量」が上昇し、閾値を超えると裁判官の調査が始まり、罰金、資産凍結、または追放に至ります。ゲームを現実的にするためには、情報の真偽フラグはエージェントから隠されていなければなりません。エージェントは噂のテキストだけを見て、決して裏のフラグを見てはいけません。これはセキュリティ特性であり、UIの便利さではありません。小型モデルのエージェントはこの問題を先鋭化します。モデルはプロンプト内のあらゆるものを繰り返す可能性があるからです。そのため、隠しフラグはプロンプトの外(プレイヤーの台帳上)に完全に置かれ、公開イベントレコードの構築時に削除され、ナレーターは公開イベントのみを要約します。すべてのエージェントの完全なプロンプトを毎ターンスキャンし、禁止トークンが存在しないかチェックするテストがあります。このテストがスイート全体で最も重要です。エージェントに秘密情報を与えるときは、テストが漏洩しないことを証明しない限り、漏洩すると想定してください。

エージェント間の永続的な関係は、バウンデッドサマリーで管理されます。各エージェントは、パトロンや他のエージェントに対する符号付き感情値を持ち、イベント(作物の空売り、ローン返済、対立者との同盟など)によって更新されます。感情値の高いエージェントはより協力的になり、敵対的なエージェントは融資を拒否したり、不利な条件を提示したりします。重要なのは、プロンプトには生の履歴が決して入れられないことです。代わりに、「あなたはOonaに温かく感じ、パトロンに警戒している」のような1行のバケット化された要約が、最も強い感情のみに限定されて含まれます。メモはトレース用に保持されますが、制限され、プロンプトには表示されません。この設計により、行動バイアスは部分的に要約の誘導による創発的なものとなり、部分的にルールによる機械的なもの(強い敵対的エージェントは確定的に拒否する)となるため、観察可能でテスト可能であり、単なる期待ではありません。

実験結果は、異種エージェント評議会がうまく機能することを示しました。内部情報のファイアウォールからの漏洩はゼロ。真の内部情報は確かに正のリターンをもたらしました。微調整済みの0.5Bモデルは、3Bの教師モデルよりも信頼性が高く、自己売買ゼロ、すべてのオファーが有効でした。代表的な実行では、内部情報、関係ネットワーク、レバレッジ、リスクを含む完全なv2メカニズムが示されました。

結論として、小型モデルは信頼できるフォーマット生成器ですが、推論は信頼できません。構造化、プロンプト設計、および微調整によってこのギャップを埋めることができます。異種エージェント集団は均質なものより面白く、サービング層が安定すれば設定コストはわずかです。エージェントに秘密情報を与えるファイアウォールはデータフローに属し、プロンプト命令ではなくテストによって証明されるべきです。永続メモリは、プロンプトがバウンデッドサマリーのみを見る限り、エージェントを生き生きと感じさせる最も安価な方法です。