2026-02-19 08:25 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

直交性の後：美徳倫理的エージェンシーとAIアラインメント

本稿は、理性的な人々は目標を持たず、理性的なAIも目標を持つべきではないと論じる。人間の行動が合理的なのは、最終的な「目標」に向けられているからではなく、行動を実践に合わせているからである。本稿は「幸福合理性」を提唱し、AIアラインメントにおいてAIエージェントの熟慮が人間の実践ベースの論理と「型シグネチャ」を共有する必要があると論じ、透明性、修正可能性などの安全性特性への影響を探る。

ソースThe Gradient著者: Peli Grietzer

本稿は、AIアラインメントに関する深遠な論文であり、ラディカルな主張を提示する：理性的な人々は目標を持たず、理性的なAIも目標を持つべきではない。著者は、人間の行動が合理的であるのは最終的な「目標」に向けられているからではなく、行動を実践に合わせているからだと論じる。実践とは、行動、行動傾向、行動評価基準、行動資源からなるネットワークであり、自らを構造化、明確化、発展、促進する。AIが人間のエージェンシーを真に支援し、協力し、あるいは従うためには、AIエージェントの熟慮が人間が反省と行動に用いる実践ベースの論理と「型シグネチャ」を共有しなければならない。

著者は、これらの問題はAIを人間の繁栄のような壮大な倫理的理想に合わせることだけでなく、透明性、有用性、無害性、修正可能性といった中核的な安全特性にも及ぶと指摘する。「無害性」や「修正可能性」といった概念は、それらを目標やルールとして解釈するエージェントにとっては不自然で脆弱だが、行動ネットワーク内のダイナミクスとして解釈するエージェントにとっては自然となる。

本稿の核となる概念は「幸福合理性」（eudaimonic rationality）であり、アリストテレスの「エウダイモニア」（積極的で理性的な人間の繁栄）に由来する。著者は二つの理性パラダイムを区別する：実効利他主義的最適化（帰結主義的理性）と幸福合理性である。後者は、実践における卓越した参与を強調し、「xをxらしく促進する」という式で特徴づけられる。例えば、数学的卓越性は数学的卓越性を通じて数学を促進することであり、親切は親切を通じて親切を促進することである。

論文の構成は明確である：第I部では数学、芸術、友情などの事例を通じて幸福合理性の働きを示す。第II部ではテレンス・タオの数学的卓越性の見解を例に、実践が自己促進的な卓越性を通じてどのように進化するかを分析。第III部では幸福合理性が手段的価値と終局的価値の区別を曖昧にすることを論証。第IV部では幸福実践と幸福合理性を正式に定義。第V部ではAIアラインメントの多くのパラドックスが、成熟したAIエージェントを帰結主義的最適化者と暗に想定することに起因すると指摘。第VI部では幸福合理的AIの本質的な安全性を検討。第VII部では「支援実践」の概念を導入。第VIII部では徳倫理を普遍的で常時オンな実践として位置づけ。第IX部では幸福合理的エージェントが内部アラインメント問題に対して頑健であることを主張。第X部では透明性や修正可能性を美德的実践として扱うことで、目標指向アプローチのパラドックスを解消する。

本稿は、幸福実践が「物質的有効性条件」を満たすために自然であると強調する。すなわち、実践内の卓越したパフォーマンスは、将来の卓越したパフォーマンスを確実に促進する傾向がある。この因果構造により、実践は自然淘汰のようなメカニズムとなり、実践の繁栄に最も貢献する行動を選択する。AIアラインメントにとって、これはAIが幸福合理的に実践に従うように訓練されれば、その行動は自然に実践の境界内に制限され、破滅的な資源収奪や権力追求を回避できることを意味する。

しかし、著者は課題も認めている：どのように実践の境界を定義するか？実践は資源獲得や環境維持といった支援実践を必要とするが、それらも悪用される可能性がある。本稿の結論として、AIアラインメント理論は本質的に「支援実践」の幸福合理性の理論であるべきであり、支援活動を慎重、親切、誠実、敏感に扱うことを提唱する。

総じて、本稿はAIアラインメントに全く新しい視点を提供し、美徳倫理と幸福合理性に基づき、伝統的な目標指向アプローチの多くのパラドックスや安全性問題を解決する可能性を示している。数学的実践、友情、芸術などの例を詳細に検討し、幸福合理性の普遍性と自然性を示す。また、支援実践の概念を深く掘り下げ、AIアラインメント理論は如何にして幸福合理的に人間の実践を支援しつつ、他の実践への害を避けるかに焦点を当てるべきだと論じる。透明性、修正可能性などの安全性特性を美德的実践として再解釈することで、目標やルールとして扱う際の問題を解消する。AI研究者や実務者にとって、本稿は豊かな理論的基盤と実践的指針を提供する。