なぜAIはソフトウェアエンジニアを置き換えていないのか、そして今後も置き換えない
本稿では、AIがソフトウェアエンジニアの大量解雇を引き起こしたというナラティブをデータとケーススタディで反論する。AIによる解雇とされるものは財務上の理由による「AIウォッシング」であることが多く、実際の雇用データは、AIが「実行」層を圧縮しても「意思決定」と「提供」層は人間に依存することを示している。「決定-実行-提供サンドイッチ」モデルを提示し、これらのボトルネックはAIの能力向上だけでは解消されないと論じる。
- AIによる大量解雇の話は多くの場合「AIウォッシング」であり、実際は財務上の理由によるもの。
- ソフトウェアエンジニアリングのボトルネックはコーディングではなく、意思決定、検証、システムの深い理解にある。
GoogleのAIエージェントは本当に916ドルでオペレーティングシステムを構築したのか?
GoogleはAIエージェントチームがたった1つのプロンプトと約900ドルのAPI費用でOSを構築したと主張したが、本稿ではその主張の複数の問題点を分析:プロンプトは実際には数千行に及び、過学習の可能性、重要な詳細の欠如など。独立した評価の重要性を強調し、この種の「オープンワールド評価」には新たな方法論的規範が必要であると論じる。
- GoogleはAIエージェントが916ドルでOSを構築したと主張するが、実際のプロンプトは数千行
- 過学習やコードのコピーなど、未解決の問題がある
AIリスクは特別な政府介入を必要とするのか?
AIガバナンスの難しい作業を避けるべきではない。本稿は、AIリスクに対する特別な政府介入の呼びかけに異議を唱え、社会の回復力と通常の政策プロセスへの投資を提唱する。
- AIの経済的影響は緩やかだが、悪用リスクは攻撃者が組織的導入を必要としないため急速に現れる可能性がある。
- 不拡散などの特別介入はコストが高く、脆弱なボトルネックに依存し、政府権限の恒久的拡大リスクがある。
フロンティアAI能力を測定するためのオープンワールド評価
CRUXプロジェクトの紹介。長期にわたる現実世界のタスクを通じてAI能力を評価する「オープンワールド評価」を定期的に実施。最初の実験では、AIエージェントが自律的にiOSアプリを公開し、進歩とリスク(アプリストアスパムなど)の両方を浮き彫りにしました。
- オープンワールド評価は、標準的なベンチマークを超えた複雑な実世界タスクでAIをテストします。
- CRUXは、学界、政府、市民社会、産業界から17名の研究者が集まり、定期的にこうした評価を実施するプロジェクトです。
新たな論文:AIエージェントの信頼性科学に向けて
研究者らはAIエージェントの信頼性を測定する枠組みを提案し、12の指標に分解。14のモデルを18ヶ月にわたってテストした結果、能力は急速に向上したが信頼性の向上は緩やかであり、信頼性を独立した次元として最適化するよう呼びかけている。
- 信頼性を一貫性、頑健性、予測可能性、安全性の4次元、12指標に分解。
- OpenAI、Google、Anthropicの14モデルを18ヶ月テスト。精度は大幅向上、信頼性は緩やか。
AIは自動的に法律サービスのコストを下げない
本稿は「通常技術としてのAI」フレームワークを法律サービスに適用し、高度なAIが消費者の望むリーガルアウトカムを低コストで実現するのを自動的には助けないと論じる。その理由は、規制障壁、対抗的ダイナミクス、人間の関与という3つのボトルネックにある。また、制度改革の可能性についても検討する。
- 規制障壁、対抗的ダイナミクス、人間の監視がAIによる法律コスト削減を妨げる3つのボトルネック。
- 無資格法律業務(UPL)規制や企業形態規制がAIの導入を制限。
モラベックのパラドックスを検証する
人間にとって難しいことはAIにとって簡単であり、その逆もまた然りとするこの有名な格言は、実証的根拠に乏しく、進化的説明にも疑問がある。AIコミュニティで繰り返されるこのパラドックスは、超知能への警鐘やロボット工学への誤った安心感を生み出している。著者は、予測に頼るのではなく、確実に来る技術変化に適応することを提唱する。
- モラベックのパラドックスは実証されたことがなく、選択バイアスの産物である。
- 推論がAIにとって容易であるという進化的主張は疑わしく、開放領域では依然として困難である。
AIを普通の技術として理解するためのガイド
本稿は「AIを普通の技術とみなす」フレームワークを掘り下げ、AI 2027との対比、拡散速度の誤解、導入の実際の課題について論じる。
- 普通の技術フレームワークは、能力向上から社会的影響に至る因果連鎖を重視し、開発よりも展開段階の重要性を強調する。
- 急速な導入という説に反し、AIの拡散は組織的変化やユーザーの学習曲線など重大な障壁に直面している。
AIは科学を遅らせる可能性があるか?
AIは科学の進歩を加速すると期待されているが、本稿は「生産-進歩パラドックス」を悪化させ、ソフトウェアエラーを拡大し、誤った理論への依存を強め、人間の理解を損なうことで、むしろ進歩を遅らせる可能性を指摘する。制度改革とAIツールの再設計を提言。
- 科学論文の数は指数関数的に増加しているが、実際の進歩は停滞している(生産-進歩パラドックス)。
- AIは低品質な成果を促進し、ソフトウェアの誤りを拡散し、予測精度偏重により理論革新を阻害する恐れがある。
AGIはマイルストーンではない
本稿は、汎用人工知能(AGI)がマイルストーンではないと論じる。AGIは明確な能力閾値を持たず、観測不可能であり、経済的影響は長期間をかけた普及によってのみ現れる。AIのリスクは能力ではなく環境設計に依存する。企業は慎重にAIを採用し、政策立案者はAGI追求よりも普及促進に注力すべきである。
- AGIの定義は曖昧で観測不可能であり、行動可能なマイルストーンではない。
- AIの経済的影響は数十年かけて普及するものであり、突然の変化はない。
AIは正常な技術である
新しい論文は、AIを超知能的な存在ではなく、正常な技術と見なすべきだと主張する。緩やかな採用、漸進的な経済的影響、そして人間の制御の重要性を強調し、ユートピア的・ディストピア的な物語とは対照的である。
- AIは超知能的な種族ではなく、正常な技術である。
- AIの採用と普及には数十年を要し、数年ではない。
AIの進歩は鈍化しているのか?
本稿では、AI能力の進歩が鈍化しているかどうかの議論を分析する。著者らは、モデルスケーリングは終焉しておらず、業界リーダーの予測は信頼できないと指摘。推論時スケーリング(inference scaling)には可能性があるが限界もあり、能力向上と経済的影響の関連は弱く、製品開発と採用が鍵だと論じる。
- モデルスケーリングの終焉は時期尚早であり、業界の突然の方向転換は利益誘導による。
- 推論時スケーリング(o1など)はコーディングや数学に有効だが、作文や翻訳には効果が薄い。
78件の選挙ディープフェイクを調査。政治的な誤情報はAIの問題ではない。
2024年の世界の選挙におけるAI利用の分析により、ディープフェイクの半数以上に欺瞞的意図がなく、欺瞞的なコンテンツのほとんどはAIなしでも安価に作成可能であることが判明。誤情報の拡散は需要によって駆動される。
- 選挙におけるAI利用78件のうち39件は欺瞞的意図がなかった。
- 欺瞞的なAIコンテンツはAIなしでも低コストで再現可能。