AI News HubLIVE
站内改写4 分で読了

再帰的自己改善(RSI)が心配?その答えはCDEかもしれません

CDE(組合せ的指向進化)と呼ばれるAI安全フレームワークは、モデルを固定し、審査済みツールを組み合わせることで、RSI(再帰的自己改善)による制御不能なリスクを回避します。静的解析を使用して安全性を確保し、防御を対戦型ランタイムから強化可能なコンポーネントに移しつつ、能力の成長を可能にします。

ソースHacker News AI著者: EGreg

指向進化 — SafeboxがRSIより安全な理由

二つの機械

一つは自身を書き換える。もう一つはゲートの下で蓄積される。

RSIシステムは自身の改善能力を改善する — それこそが誰もそれを安全にできない理由である:自身の改善ルールを書き換えるものには、防御者が推論するための固定された表面が存在しない。Safeboxはモデルを固定し、審査済みツールキットを組合せによって成長させる。

左:RSIのループはモデル自身にフィードバックし、誰も承認していない力を獲得し、自身が設定した目標に向かう — チェックする固定されたものは何もない。右:CDEは承認されたプリミティブのみを組み合わせ、モデルは決して変更されず、すべての組合せは実行前にゲートを通過する。

RSI

力と危険は同じ性質である — 誰も承認していない能力を獲得し、誰も設定していない目標に向かう — それがそのリーチと非セキュア性の両方の源である。

CDE

一つのものを放棄し、ほぼすべてを保持する — 新しいプリミティブの力を放棄する。しかし、承認されたツールの組合せの空間はすでに広大である — 小さな審査済み部品からのカンブリア爆発的多様化。

舵を取るのは常に人間である。システムは組合せを行い、獲得はしない。

コンパイラの議論

ワークフローを言語にすれば、防御はコンパイラのパスになる。

今日のAIシステムの防御は、行動の監視、分類器の訓練、モニタリングの追加、そして期待に頼ることを意味する。Safeboxはシステムを分析可能にする:ワークフローは制限された宣言型言語であり、すべてのツールは型付きメタデータを運ぶため、静的解析器は実行前に組合せについて推論できる。

解析器は決してワークフローを実行しない。宣言されたグラフと型付きマニフェストを読み、機密読み取りが外部書き込みに到達できるかを追跡し、各ステップが宣言された能力内に留まることを確認し、すべての重要な効果がM-of-Nゲートにヒットすることをチェックし — 汚染パスが存在する場合は組合せを拒否する。すべては単一のステップが実行される前に決定される。

# 解析器が読み取るグラフ — 型付きステップ、宣言された効果
workflow vendor_outreach {
  step find : tool=search.web // 読み取り·ネット:検索API
  step draft : tool=llm.complete // 効果なし·ネットなし
  step send : tool=smtp.send // 外部書き込み·smtp
  edge find → draft → send
}
// 汚染·能力·効果 — すべて実行前に静的に決定可能

これは型システムと能力セキュリティを機能させた動きである:関心のある安全特性が証明可能になるように言語を制約する。型チェッカはプログラムを実行しなくても特定のクラスのクラッシュが発生しないことを証明する;Safebox解析器は汚染された読み取りがワークフローを実行しなくても外部書き込みに到達できないことを証明する。

正直な境界

静的解析はクラスの特性を決定するが、すべてではない — 二つの安全なプリミティブの組合せが常に安全であるとは限らず、メタデータ自体が嘘のマニフェストによって打ち破られる攻撃面である。

したがってSafeboxは防御が解決されたと主張しない。それは防御が再配置されたと主張する — 対戦型ランタイムから、強化可能な三つのものへ:解析器の健全性、メタデータの真実性、そして言語の決定可能な境界。

鉄骨 — 砂城でも群れでもなく

鉄骨 vs 砂城は知能を構築する三つの方法を名付ける。砂城(プロンプトと雰囲気)はモデルが更新されると崩壊する。群れ(創発的、自己変更的)はデバッグ不可能で証明不可能である — 創発はアーキテクチャではないからだ。鉄骨だけが生き残る。

それがCDEが自らについて発する警告である:骨格のない組合せシステムは群れになる。骨格 — 型付きプリミティブ、プロンプト外のポリシーゲート、再現可能な実行、静的強制 — がそれを建物に保つ。エージェントは認知であり;フレームワークはアーキテクチャである。

一つの環境、百万ではない

単一の密閉ボックスをパッチする — 組織が実行するすべての組合せではなく。

オープンエンドエージェントを実行する組織は、環境の組合せ爆発的な広がりを防御する — すべてのラップトップ、ランナー、クラウドアカウント、クレデンシャルスコープが異なる攻撃面である。Safeboxはそれを逆転させる:一つの認定され、出力制御されたボックス、一度強化され分析される。

左:エージェントが触れるすべての環境はそれ自身の強化すべき表面であり、その集合は組合せ的に成長する。右:すべてのSafeboxワークフローは、一つのボックス内で一組のプリミティブの下で実行される — したがって防御特性はすべてのワークフロー、テナント、組織に対して同時に成立する。それらはタスクではなく基盤に属するからである。

  • O(n):あなたが費やす信頼 — 人間が各ツールを一度承認、M-of-N
  • O(2ⁿ):あなたが得るガバナンス可能な能力 — 承認されたツールのすべてのチェック可能な組合せ
  • 1:強化、分析、認定すべき環境 — 百万の組合せではなく

ボックス内で見つかった脆弱性は副作用ではない:完全なエクスプロイトチェーンでも、一致する署名済みマニフェストとM-of-N承認なしに外部書き込みに到達できない。より速いパッチ適用は産業規模の攻撃に対して負けるレースである;環境を一度密封し境界を証明することは、逆方向にスケールする。

すべての組織が防御できる世界

Safebotsがエージェントに打ち勝てば、防御はすべての人にとって簡単になる。

通常の恐怖は能力と危険が共に上昇することである。CDEの全ポイントはその結合を断つことである:能力は承認されたツールの組合せ閉包とともに上昇する;危険は上昇しない。なぜなら新しい能力は、静的チェックの下で密封ボックス内の審査済み部品から組合せられるからである。

Safebotsが増殖し、オープンエンドエージェントに打ち勝つなら — より賢くなることによってではなく、組織がモデルの抑制に会社を賭けることなく展開できるバージョンであることによって — そのときAI能力は上昇し続け、防御負担は低下する。すべての組織は同じ種類の密封環境を同じ種類の静的解析で防御する。独自の封じ込めを即興で作り、同じ教訓を自らの侵害を通じて学び直す必要はない。

賭け

それは光の中で、ゲートの下で、防御者がそれを読み取れる場所で成長する。

CDEは最後の1パーセントは行わない — 真に新しいプリミティブ能力を自ら獲得することは決してなく、その放棄がそれを安全にする。99パーセントの実際の作業については、危険な機械と同じ天井に到達するが、鉄骨を残す経路を通る:固定モデル、審査済みツールキット、宣言型言語、単一の密封環境、そしてボックスが何を行い何を行わないかを、何かを行う前に証明する静的解析器。

RSIは暗闇で自身を書き換える。CDEは光の中で成長する。恐ろしいバージョンは、能力が誰かの防御能力を追い越す世界を提供する。このバージョンは、能力が上昇し、同時に防御がより簡単になる世界を提供する — 力が組合せにあり、組合せがチェック可能だからである。