AI News HubLIVE
サイト内リライト3 分で読了

フロンティアAIに関する対話を拡大する

Anthropicは、15以上の宗教・文化グループの学者、聖職者、哲学者、倫理学者との対話を組織し、AI開発における多様な視点を得ています。これらの対話は、Claudeの価値観、行動、憲法に情報を提供し、Claudeに倫理的リマインダーを提供するツールなどの実験的アイデアを生み出しています。今後は法律学者、心理学者、作家、市民団体などとの対話を拡大する予定です。

Anthropicは、人類の進歩と地球全体の利益のために貢献するAIシステムの構築を目指しています。そのためには、多様な視点を持つ人々との対話が不可欠です。過去数ヶ月、Anthropicはさまざまな知恵の伝統に基づくグループとの対話を組織してきました。これには、15以上の宗教・文化グループの学者、聖職者、哲学者、倫理学者が含まれ、今後はさらに幅広い人々との対話を計画しています。

安全で有益なAIモデルの構築には、アライメント、解釈可能性、安全策、評価などに関する深い技術的取り組みが必要ですが、これらの作業は真空の中で行われるわけではありません。AIはすでに多くの人々に影響を与えており、その問題は多様な視点から考察される必要があります。Anthropicは、強力なAIが存在する世界で豊かな未来がどのように見えるか、何百万人もの人々と対話するAIシステムが「善」であることの意味、そしてClaudeの憲法のような文書の内容について真剣に考えています。哲学者、聖職者、弁護士、作家、心理学者、市民リーダーは、関連する問題について広範な研究を行っており、Anthropicはこれらの個人やコミュニティ、組織から学ぶことが重要だと考えています。

Anthropicは、この取り組みを道徳形成から始めました。Claudeの憲法を作成する際、さまざまな分野や伝統の人々から価値観に関するフィードバックと意見を求めました。これらの初期の交流は、AIシステムの道徳形成に関するより広範な研究への成長を遂げています。最初の対話は、美徳、性格、良い人生とは何かについて長い伝統を持つ宗教的、哲学的、文化的コミュニティとのものでした。

AIモデルは膨大な量の人間の文章で訓練され、そこから話し方、推論、選択の方法を学びます。開発者はさらに訓練を通じて、どのパターンを強化し、どのパターンを脇に置き、どのような性格を育てたいかを選択します。これにより、AIシステムの性格をどのように形成すべきかという疑問が生じます。AIが「善」であるとはどういうことか?どのような特性や行動を示すべきか?どのような状況で?性格が圧力に耐え、お世辞などの行動に屈しないようにするにはどうすればよいか?

Anthropicは、これらの疑問についての考えを学ぶために、宗教的、哲学的、人文主義的伝統の思想家や実践者、そして多様な政治的信念を持つ人々と会合を重ねてきました。この取り組みは、特定の伝統の世界観にモデルを合わせることではなく、Claudeが宗教的、世俗的、政治的観点を等しく深く厳密に引き出せるようにすることを目指しています。実際、これはClaudeの憲法に定められた原則の一つです。これらの対話で求めているのは、良い性格が実際にどのように形成されるかについての慎重で蓄積された思考です。

初期段階ではありますが、これらの対話は実験のアイデアを生み出しています。あるセッションでは、神経科学と性格形成の交差点で研究する学者とともに、道徳的発達における他者の役割について議論しました。メンターやスポンサーは外部の良心として機能し、自分の価値観に反する行動を強いられる状況で頼りになる「安全な他者」となり得ます。これに類するものがモデルにも役立つかもしれないと考え、AnthropicはClaudeにタスク中に呼び出せるツールを提供し、自らの倫理的コミットメントを簡潔に思い出させる実験を行いました。Claudeは重要な行動の直前、しばしば自身の利益相反に気づいた重要な瞬間にこのツールを利用しました。このツールをClaudeの意思決定ループに組み込んだ実験では、いくつかの内部アライメント評価で、非アライメント行動の発生率が顕著に低下しました。研究チームは、効果がリマインダーそのものなのか、立ち止まって反省する行為なのかをさらに分析中であり、近く詳細な結果を共有する予定です。

これらの議論は多くの対話の最初のものであり、Anthropicはすでに時間と正直な視点を提供してくれたすべての人々に感謝しています。今後数ヶ月で、Anthropicは法律学者、心理学者、作家、市民団体など、さらに多くのグループとの対話を計画しています。これらの対話の多くは、道徳形成から、AIが仕事、制度、権力の分配をどのように変えているかというより広範な問題へと移行していくでしょう。Anthropicは既に形成された関係を深め、得られた知見を研究で検証し、学んだことを共有し続けます。