LWiAIポッドキャスト #245 - TMLインタラクション、法律向けClaude、Sam Altmanの証言
今週の大きなAIニュースをまとめて議論した第245回のエピソード。OpenAIの新しい音声インテリジェンスAPI機能、Thinking Machinesの高応答リアルタイム対話モデル、AnthropicのClaude for Legal、Sam Altmanの証言などを取り上げます。
今回のLWiAIポッドキャストでは、司会のAndrey KurenkovとJeremie Harrisが先週のAI業界の主要ニュースを深く掘り下げました。取り上げられたトピックは、APIアップデートからモデルリリース、法務テクノロジーからグレーマーケット取引まで多岐にわたります。
まず、OpenAIは新しい音声インテリジェンスAPI機能をリリースしました。これにはGPT-5を搭載したGPT Realtime 2、リアルタイム翻訳、Whisper文字起こしが含まれます。これらの機能はレイテンシと推論能力のトレードオフを強調しており、より大きなコンテキストウィンドウ(最大256Kトークン)と、不正リスクに対処するための新しいガードレールを導入しています。OpenAIは特に、開発者がアプリケーションシナリオに応じてレイテンシと推論の深さを調整できるように設計されていると述べています。例えば、リアルタイム会話では低レイテンシを追求し、複雑な推論が必要なタスクでは正確性を重視します。さらに、音声アクティビティ検出や割り込み処理もサポートされ、より自然なインタラクションが可能になりました。
次に、Thinking Machinesは低遅延・全二重の会話システムをプレビューしました。このシステムはデュアルモデルアーキテクチャ(リアルタイム処理用と深層理解用の2つのモデル)とカスタム推論スタックを採用しており、同社はインタラクティブベンチマークで優れた結果を報告しています。ただし、現時点では一般公開されておらず、第三者による検証も行われていません。この発表はリアルタイムAIインタラクションの可用性に関する議論を呼びましたが、実際の評価は今後の課題です。
Anthropicは垂直製品への進出を続け、法律業界向けのClaude for Legalを発表しました。このツールは契約分析、法律調査、ケースサマリーなどを提供します。同時に、AnthropicはAWSとの連携を強化し、AWS上でClaude Platformをローンチし、モデルへのアクセスとデプロイを容易にしました。この動きは、プラットフォームモデルプロバイダー(AnthropicやOpenAIなど)とアプリケーション層企業との間のエコシステムの緊張を高めており、前者が特定業界向けのソリューションを直接提供し始めたことが原因です。
安全性と政策分野では、OpenAIが自傷行為の信頼できる連絡先機能を導入しました。ChatGPTが自傷リスクを検出した際に、設定された緊急連絡先に自動通知するものです。Anthropicは、エージェントの誤った調整を減らすために倫理的な「なぜ」の推論を訓練する研究を行っており、モデルが行動前に道徳的理由を説明することで有害な行動を減らすことを目指しています。OpenAIはまた、強化学習中に偶然に思考連鎖(CoT)を評価する問題を調査し、中間推論ステップの過度な最適化が最終結果を無視する原因となる可能性を指摘しました。Metaの地平線評価のアップデートは、長いタスクのベンチマークの限界を示しており、特に長期計画が必要なタスクでは既存の評価手法がモデル能力を正確に測定できない可能性があります。
その他のトピックとして、Sam Altmanの法廷での証言(AI安全訴訟において自信満々に証言したが、状況を覆すには十分でない可能性)、Nvidia CEO Jensen Huangのトランプ大統領との中国訪問(チップ協力を議論)、中国のグレーマーケットでのClaude APIの不正販売(盗難認証情報を利用して90%オフで提供し、ユーザーのプロンプトと出力を窃取して再学習に使用)、DeepMindスピンオフIsomorphic Labsの21億ドル調達(AIを活用した医薬品設計)、そしてジョージ・クルーニー、トム・ハンクス、メリル・ストリープなどの著名俳優が支援する新しいAIライセンス「Human Consent Standard」(有名人の肖像をAI学習に使用する際に明示的な同意を要求)などが議論されました。
研究分野では、METRがClaude MythosがAI評価の限界をテストしていると報告し、現在の評価手法が最先端モデルの真の能力を測定するには不十分である可能性を指摘しました。ポッドキャストではさらに、自然言語オートエンコーダー、Anthropicの自動化研究開発リスクレポートなどの研究進展についても議論されました。全体として、今回のエピソードはプロダクトリリースから安全性研究まで幅広いトピックをカバーし、AI分野の急速な進化と複雑化するエコシステムを反映しています。