AI #171: 偽旗作戦
今週はClaude Opus 4.8がリリースされ、漸進的な改善が見られた。トランプ大統領令が復活し、フロンティアモデルに事前抑制の時代が到来。OpenAIは政策青写真を発表したが、政治活動に問題も。モデルの実用性、アップグレード、セキュリティ、ディープフェイクなどもカバー。
今週のAI業界は多くの重要な進展があった。まず、AnthropicがClaude Opus 4.8をリリースした。モデルカードによれば、複数のベンチマークで改善が見られ、特にコーディングと数学的推論で強みを発揮する。基本モデルと指示追従能力はGPT-5.5にやや劣るものの、Opus 4.8はToloka Arenaでトップに立ち、多くのユーザーが第一選択肢としている。筆者もこれを日常のドライバーとして採用している。
トランプ大統領令が復活し、フロンティアモデルのリリースに事前承認が必要となった。これは事実上の事前抑制時代への突入であるが、当局はそのように呼んでいない。NSAに過度の責任を負わせ、テストプロセスを秘密化する傾向など、懸念すべき詳細もある。悪い方向に進むリスクがあるが、筆者は総合的に慎重ながらも楽観的に受け止めている。
OpenAIは驚くほど優れた政策青写真を発表した。しかし、その政治活動委員会(PAC)は「偽旗作戦」とも言える暴力的な主張を行い、大きな論争を呼んでいる。また、OpenAIのRosalind生物防御イニシアチブも注目に値する。
実用性の面では、Doc in a Boxがユタ州で好調だ。偽陽性を避けることに焦点を当て、偽陰性のリスクを冒している。AIが処方箋更新を推奨した72%のケースでは、少なくとも1人の医師が97%の確率で同意した。AIが更新を推奨せずにエスカレーションした28%のケースでは、医師の69%がエスカレーションが適切と判断し、31%が過剰慎重と判断した。新システムとしては適切なバランスであり、大きな成功と言える。
合成顧客を製品開発やマーケティングテストに活用する方法も紹介されている。完璧ではないが、実際の顧客との対話を補完する形で有効だ。また、あるユーザーがAIを使って住宅を売却し、9万ドルの利益を得たと主張した事例がある。しかし、売却後に専門家に相談したところ、実際にはより高値で売却できた可能性が判明し、反事実の認識に注意が必要である。
データ復旧の事例では、機内で作成した長文レポートを紛失したユーザーが、Claudeの力を借りて復旧に成功した。Claudeは様々な手法を試した後、AlfredのSQLiteクリップボード履歴から削除されたデータを物理的にスキャンして復元した。これは「エリートハッカーを雇う感覚」を体現している。
セキュリティ面では、Project Glasswingが約200の組織に拡大し、一部のツールが公開された。Palo Alto NetworksはMythosを通じて、数週間で100万ドルのトークン費用で従来の5倍の重大な脆弱性を発見した。Anthropicの分析によると、過去1年間にサイバー攻撃で禁止された832アカウントのうち、中程度以上の脅威の割合が上半期の33%から下半期の56%に上昇し、AIの利用も増加している。個人レベルでも基本的な防御策を講じるべきである。
ディープフェイクに関しては、音楽プラットフォームへの新規アップロードの約半数がAI生成であることが、Quicksilverなどのツールで検出される。ただし、アップロード数の50%と再生数の50%は全く異なり、ほとんどの音楽はほとんど聴かれていない。
その他のニュース:CodexがWindows対応とロール固有プラグインを追加、GPT-5.5-Instantが新バージョン公開、Claude Codeのコマンド変更、Geminiが思考レベル調整機能を提供、Gemma-4-12Bが登場、DeepSeek v4は低価格を維持、SalesforceがClaude Codeを標準化、OpenAI CodexがAmazon Bedrockで利用可能など。全体として、今週は進歩と懸念が交錯する一週間だった。