文明が知っているコンプライアンス — AIアライメントが忘れてしまったもの
本稿は、人類文明の多層的なコンプライアンス生態系(内面化、社会的圧力、制度的、市場、執行)をAIアライメントにマッピングする枠組みを提示する。現在のアライメントは制度的および執行レイヤーに過剰投資しており、内面化された規範や社会的圧力、市場インセンティブといったより豊かでスケーラブルなメカニズムを無視している。継続的アライメントへの移行を提唱する。
本稿は2026年5月に発表された概念フレームワークである。著者は、ほとんどの国では法と秩序は主に法執行機関によって維持されるが、これはリソース集約型モデルであり、犯罪密度の高い都市にコンプライアンス基盤を集中させる。一方、インドは近代史の多くで深刻なリソース制約の下で運営され、異なる方法を発展させた。すなわち、道徳的内面化が執行のできない重労働を担う多層的な生態系である。これは設計上の決定ではなく、創発的な解決策だった。寺院での説教、家族の社会化、コミュニティの恥辱、パンチャーヤト制度が、広大で分散した人口全体に行動秩序を維持し、最小限の中央機構で済ませた。その結果、監視と罰だけに頼れない場合にコンプライアンスが実際にどのように機能するかを理解するための生きた実験室となる。
この文明のレンズをAIアライメントに当てはめると、驚くべきことが明らかになる。この分野は法執行と成文憲法に相当するものに多大な投資を行ってきたが、人類社会が数千年にわたって発見してきたより豊かで回復力のある層をほぼ完全に無視している。人間の行動ガバナンスは5つの異なる層で機能し、それぞれが他の層の弱点を補う。内面化層(家族の社会化、教育システム、ロールモデル、物語とストーリーテリング)、社会的圧力層(ピアカルチャー、恥のメカニズム、罪悪感のメカニズム)、制度層(宗教的・精神的指導、告白と回復、官僚的プロセス、契約と相互利害)、市場層(経済的インセンティブ、評判市場)、執行層(法執行、修復的司法)である。最も回復力のある社会は執行が強い社会ではなく、複数の層がすべて機能し相互に強化し合う社会である。
AIアライメントへのマッピングでは、内面化層の家族社会化はオペレーターのファインチューニングとデプロイメントコンテキスト形成に対応し、教育システムはインターネットテキストの事前学習、ロールモデルはキャラクターベースのアライメント、物語とストーリーテリングはフィクションの受動的吸収に対応する。社会的圧力層では、恥はRLHF(観察者依存)、罪悪感は憲法AIの自己批判に対応する。制度層では、精神的指導は不確実性フラグと人間への委譲、告白はRLAIF自己批判、官僚的プロセスはサンドボックスと能力制限に対応する。しかし、契約、経済的インセンティブ、評判市場はAIには完全に欠けている。執行層では、法執行はフィルター、レッドチーミング、規制に対応するが、修復的司法も欠落している。
現在のAIアライメントは制度層と執行層に集中しており、これは聖書と警察だけの社会を建設するようなもので、家族の社会化、コミュニティのフィードバック、経済的インセンティブ、修復的プロセスをスキップしている。執行だけでは脆いコンプライアンスしか生まれない。重要な区別として、RLHFは恥の文化(観察者による承認で行動を形成)に似ており、憲法AIは罪の文化(内面化された原則による行動)に似ている。分野は正しく憲法AIへ移行しつつあるが、RLHFが依然として基盤であり、アライメントアーキテクチャのかなりの部分が観察者依存のままである。これがジェイルブレイク問題の構造的原因である。
最終的な教訓は、アライメントは継続的であるべきだということだ。人間の道徳システムは一度訓練して永久に凍結されるわけではない。説教は繰り返され、祭りは再発し、物語は語り直され、コミュニティは絶えず規範を強化する。一度訓練して無期限にデプロイされたモデルは、8歳で道徳教育を受けた後、生涯放置された人間に似ている。憲法の原則はやがて古びた聖典となる。技術的には権威があるが、現実からますます乖離する。したがって、階層的で冗長性があり、相互に修正し合い、観察された行動と観察されない行動の区別に敏感なアライメントシステムを構築する必要がある。これは、人類が数千年にわたって行ってきた行動ガバナンス実験の成果を活用することに他ならない。