AI News HubLIVE

ソース分布

  • Hacker News AI11
  • The Decoder11
  • ZDNet AI6
  • The Verge AI3
  • Artificial Intelligence News2
  • arXiv Computational Linguistics2
  • Last Week in AI2
  • O'Reilly AI & ML Radar2

トピック分布

  • Agent29
  • 研究14
  • モデル11
  • 政策11
  • チップ10
  • ロボット7
  • ツール5
  • スタートアップ2

タイムライン

  • 2026-05-2813
  • 2026-05-2710
  • 2026-05-268
  • 2026-05-257
  • 2026-05-246
  • 2026-05-234
  • 2026-05-222

最新動向

Google Cloud、AI加速型サイバー攻撃に対応するプラットフォーム「AI Threat Defense」を発表

Google Cloudは、企業システムのセキュリティ脆弱性を自動的に発見、評価、修正するプラットフォーム「AI Threat Defense」を発表した。同社は買収により一部取得した技術を統合している。

  • Google CloudがAI脅威防御プラットフォームを発表。
  • セキュリティの脆弱性を自動的に発見・評価・修正する。
サイト内本文

Google Pay、AIエージェント向けユニバーサルコマースプロトコルを準備

Google Payは、AIエージェントによる取引の急増に備え、決済インフラを全面的に刷新している。新たに導入されたユニバーサルコマースプロトコル(UCP)とマーチャントコマースプラットフォーム(MCP)サーバーは、マシン間コマースのためのAPI駆動型バックエンドを提供する。このアップデートには、動的コールバック、WebViewサポートの拡張、クロスデバイス生体認証によるセキュリティ対策が含まれる。これは、マシン主導の経済への移行を示しており、企業はAIエージェントに対応するためにデジタルプレゼンスを適応させる必要がある。

  • Google Payは、AIエージェントの決済を標準化するユニバーサルコマースプロトコル(UCP)を導入。
  • 新しいマーチャントコマースプラットフォーム(MCP)サーバーが仲介役となり、取引データを集約。
サイト内本文

Google、Gemma 3をローカル実行する小型ボードを発表

GoogleはI/OでCoral Boardを発表。これはデバイス上のAI向けのコンパクトなシングルボードコンピュータで、RISC-VベースのNPUを搭載し、Gemma 3 270Mをローカル実行可能。

  • Coral BoardはヘッドホンやARグラスなどの小型機器向けAIボード
  • Synaptics Astra SL2619チップとRISC-VベースのCoral NPUを搭載
サイト内本文

AGIのタイムラインはどのラボが支配的かで変動する

最新の分析によると、トップのAI予測者は現在どのラボが業界をリードしているかに応じてAGI(汎用人工知能)のタイムラインを調整しており、支配的ラボがChatGPTからxAI/Meta/Gemini、そしてAnthropicへと移るにつれて、予測は早期化と後期化を繰り返している。

  • ほとんどの認知労働が自動化される(AGI)時期の予測は、現在支配的なAIラボによって大きく変動する。
  • 2023年から2025年にかけて、多くの研究者はAGIタイムラインを早めたが、2025年から2026年にかけては遅らせ、2026年初頭にはAnthropicの急速な進歩により再び早めている。
サイト内本文

AIでより優れたデザイナーになるために、デジタルホーダーになろう

この記事は、GoogleのGemini Omniモデルを皮切りに、AIデザインツールが美的感覚の欠如により出力が同質化(「AIスロップ」)している問題を指摘し、その解決策として、視覚的参考資料を継続的に収集する「デジタルホーディング」によって個人のセンスを養い、それをAIが理解できる形にコード化することで、モデルをユニークでセンスのある出力へ導く方法を提案しています。

  • GoogleのGemini Omniモデルは、テキストからマルチモーダル推論への移行を示しているが、現在のAIデザインツールの多くはテキスト入力に依存しており、出力が画一的になる原因となっている。
  • 「AIスロップ」から脱却するには、デザイナーはセンスを培い、それを視覚的参考資料のライブラリ(デジタルホーディング)としてコード化し、モデルに模倣させる必要がある。
サイト内本文

iPhoneユーザーですが、車内ではGeminiとAndroid Autoの方がSiriより優れています - その理由

iPhoneユーザーの筆者は通常、運転中にSiriを使っていますが、Android AutoでGeminiを試したところ、メール送信、レストラン情報の取得、ゲームなど、より多くのタスクを処理でき、設定も簡単でした。Geminiはワンストップのアシスタントとして優れていると結論づけています。

  • 筆者はiPhoneユーザーだが、車内ではGeminiとAndroid Autoの方がSiriより優れていると感じている。
  • Geminiは基本的なコマンドから複雑なインタラクションまで幅広いタスクを処理できる。
サイト内本文

Mistral、LeChatをVibeにブランド変更、チャットボットの未来は本格的なワークエージェントに

Mistral AIは、チャットボット「Le Chat」を「Vibe」に名称変更し、チャット、コーディングエージェント、新しいワークモードを1つのブランドに統合する。ワークモードはGoogle Workspace、Outlook、Slack、GitHubに接続し、メールやレポート、プルリクエストなどのタスクを自律的に処理する。Pro料金は17.99ユーロから14.99ユーロに値下げされたが、具体的な利用制限は明らかにされていない。これにより、OpenAI、Google、Anthropicのエージェント型サービスとの直接的な競争を仕掛ける。

  • Mistral AIがチャットボット「Le Chat」を「Vibe」にブランド変更、チャット、コーディングエージェント、ワークモードを統合。
  • ワークモードはGoogle Workspace、Outlook、Slack、GitHubと連携し、タスクを自律処理。
サイト内本文

あなたのAIエージェントは、あなたが伝えた内容の半分をすでに忘れている

本記事はエージェンティックエンジニアリングとAI駆動開発に関するシリーズの第7回目で、AIセッションにおけるコンテキスト管理に焦点を当てています。著者はGeminiが以前のメモを忘れた個人的な経験を共有し、コンテキスト圧縮の概念を紹介し、4つの実用的なテクニックを提供します:探索と文書作成の分離、ハンドオフ文書の使用、手順ではなく受入基準の提示、仕様書をブリッジとして使用すること。これらのテクニックは開発者と一般ユーザーの両方に有効で、AIの忘却によるフラストレーションを軽減します。

  • AIアシスタントは長い会話の中で、コンテキストウィンドウの制限により初期の情報を「忘れる」ことがあり、これはコンテキスト圧縮と呼ばれる現象です。
  • 4つの実用的なテクニック:探索と文書作成の分離、ハンドオフ文書の使用、手順ではなく受入基準の提示、仕様書をブリッジとして使用すること。
サイト内本文

Money Printer Pro – オープンソースAIコンテンツジェネレーター

Money Printer Proは、Google GeminiとVEO 3.1を搭載したオープンソースのAIコンテンツジェネレーターです。フォトリアリスティックな画像やシネマティックな動画を生成し、人物の同一性を維持します。7つのビジュアルエンジン、オートパイロットによるバッチ生成、AI品質スコアリング、公開ガードを備えています。ユーザーはGoogleに直接支払い、追加料金やサブスクリプションは不要です。

  • フォトリアリスティックな画像と8秒のシネマティック動画を生成し、人物の一貫したアイデンティティを維持。
  • 照明、影、動作、天候、衣装、シーン検証、コンテキストオーケストレーションの7つのビジュアルエンジンを統合。
サイト内本文

Superpowers:AIコーディングワークフローのためのエージェンティックスキルフレームワーク

Superpowersは、AIコーディングエージェント向けの完全なソフトウェア開発方法論であり、構成可能なスキルと初期指示に基づいています。テスト駆動開発、設計優先、サブエージェント駆動の反復を重視し、Claude Code、Codex CLI、Gemini CLIなどの複数のコーディングアシスタントをサポートします。

  • Superpowersは、TDD、体系的なデバッグ、コラボレーションプランニングなどのスキルライブラリを提供し、エージェントが自律的に数時間作業できるようにします。
  • ワークフローは、仕様のブレインストーミングから始まり、設計承認、実装計画の生成、サブエージェント主導の実行(2段階レビュー付き)へと進みます。
サイト内本文

元GoogleとAppleの研究者がAIに欠けている「フィード」を構築するスタートアップを立ち上げ

Google DeepMind、Apple、OpenAI、Metaで働いていたAI研究者グループが、Trajectoryという新興企業を立ち上げ、実世界のユーザーインタラクションを学習してAI製品を継続的に改善することを目指しています。同社は、トレーニング後に停止するのではなく、継続的に学習できるAIプラットフォームを構築しようとしています。1500万ドルのシード資金を調達し、評価額は1億1500万ドルで、Convictionがリードしました。CEOのRonak Malde氏は、CursorのようなAIコーディング製品がすでに初期の継続学習を実践していると述べ、Trajectoryは同様の技術を他の分野に拡大したいとしています。

  • Trajectoryは元Google DeepMind、Apple、OpenAI、Metaの研究者によって設立され、AIの継続学習を実現する。
  • 同社は1500万ドルのシード資金を調達し、評価額は1億1500万ドル。投資家にはJeff Dean氏やFei-Fei Li氏も含まれる。
サイト内本文

安定性と表現力のギャップを埋める:低リソース音声言語モデルのための合成データスケーリングと嗜好アライメント

研究者らは、低リソース言語の音声言語モデルにおいて合成データを使用する際の「安定性-表現力ギャップ」を特定し、韻律の多様性を回復する2つの自己アライメントフレームワーク(DGSAおよびTDSC)を提案。ElevenLabsやGemini Proなどの商用システムを凌駕し、ラオ語での初のゼロショット音声クローンを実現。

  • 低リソース言語の音声言語モデルは、合成データ学習時に音素精度と韻律表現力のトレードオフに直面する。
  • 提案された解耦誘導自己アライメント(DGSA)は、韻律と音色を分離することで表現力を回復する。
サイト内本文

Oura Ringのデータをこの無料アプリで深掘りしてみた – その結果

Simple Wearable Reportは、AIを使ってOura Ringのデータからさらなる洞察を引き出す無料ツールです。この記事では、その使い方とGeminiなどのチャットボットとの連携について紹介します。

  • Simple Wearable ReportはOuraデータをラボ形式のレポートに変換し、医師との共有やAIチャットボットへのアップロードが可能。
  • Oura内蔵のAIアドバイザーと比較して、Geminiなどのチャットボットはより具体的で定量的な分析を提供。
サイト内本文

MicrosoftのMAI-Image-2.5、ベンチマークでGoogleのNano Banana 2に並ぶ

MicrosoftのMAI-Image-2.5は、Arenaのテキストから画像へのリーダーボードで3位となり、GoogleのNano Banana 2と同等だが、OpenAIのImage-2には及ばない。このモデルは前世代と比べて、特に画像内テキストのレンダリングや商用ビジュアルで明らかな向上を示している。

  • MAI-Image-2.5はArenaリーダーボードで3位、GoogleのNano Banana 2と同点
  • テキストレンダリングと商用ビジュアルの改善
サイト内本文

AI不使用のGoogle代替が人気急上昇 - 自分で試す方法

DuckDuckGoはAIを使わない検索代替として、GoogleのAI概要の台頭によりユーザーが急増しています。この記事では、DuckDuckGoをAIなしでプライベートに検索・閲覧する方法を紹介します。

  • DuckDuckGoはGoogle I/O 2026後、インストール数が急増し、iOSアプリは69.9%のピーク成長を記録。
  • DuckDuckGoはAIなし検索とAIチャットの両方を提供し、ユーザーが選択可能。
サイト内本文

Google、ディスプレイ広告をAI優先のDemand Genプラットフォームに統合

Googleはディスプレイ広告をAI搭載のDemand Genプラットフォームに統合し、長年のデジタル広告モデルに終止符を打ちます。この移行により、マーケターは手動のキャンペーン管理からAI主導の自動化へと移行し、キャンペーンの作成、測定、最適化の方法が変わります。

  • Googleはディスプレイ広告をAI優先のDemand Genプラットフォームに統合し、従来のGDNモデルを段階的に廃止。
  • 広告主はクリエイティブ資産とビジネス目標を提供し、GoogleのAIが広告フォーマット、配置、オーディエンスターゲティングを自動化。
サイト内本文

眼科医がパソコン用メガネの処方を間違え、AIが修正に貢献

通常の遠用処方は良好だったが、パソコン用メガネの処方は完全に間違っていた。ChatGPT、Claude、Geminiの3つのAIが数値を解析し、実際の使用距離に基づいた正しい処方を導き出した体験談。

  • 医師が患者の実際のモニター距離を無視し、読書距離用の処方をパソコン用として提供。
  • 3つのAIが一致して問題を指摘し、修正値を算出。
サイト内本文

エージェントスキル:AIコーディングエージェントに優れたエンジニアリングプラクティスを守らせる

AIコーディングエージェントはデフォルトで「完了」への最短ルートをとり、シニアエンジニアが実行する仕様策定、テスト、レビューなどの重要なステップを省略します。Addy Osmani氏のAgent Skillsプロジェクトは、散文ではなくワークフローを通じてエージェントを導く、シニアエンジニアの足場を構築することを目的としています。プロジェクトには20のスキルが含まれ、ソフトウェア開発ライフサイクルの6つのフェーズをカバーし、Googleのエンジニアリングプラクティスを取り入れています。主要な設計原則は、プロセス優先、反合理化テーブル、検証の不可譲、段階的開示、スコープ規律です。記事では3つの使用方法と、インストールしなくても参照すべきパターンも紹介しています。

  • AIコーディングエージェントはデフォルトで機能を最短ルートで完了し、仕様、テスト、レビューを無視します。これはシニアエンジニアが避けるように学んできた失敗パターンです。
  • Agent Skillsプロジェクトは、散文ではなくワークフロー(Markdownファイル)を使用してエージェントを導き、各スキルにはステップ、チェックポイント、終了基準が含まれています。
サイト内本文

先週のAIニュース#341 - マスク、OpenAIに敗訴、Google IOアップデート、OpenAIがエルデシュ問題を解決

今週のトップAIニュース:イーロン・マスクのOpenAIに対する1500億ドルの訴訟が棄却;Google I/O 2026でGemini 3.5 FlashやGemini Sparkなどの大型AIアップデートを発表;OpenAIのAIが80年来の数学問題を解決;Take It Down Actが完全施行、プラットフォームに48時間以内のディープフェイク削除を義務付け;SpaceXがIPO後、Cursorを600億ドルで買収する計画を明らかに。

  • マスクのOpenAIに対する1500億ドル訴訟が陪審員により棄却。OpenAIはIPO準備。
  • Google I/O 2026でGemini 3.5 Flash、Gemini Spark、Gemini Omniなどの大規模AIアップデート。
サイト内本文

Crew44:コーディングエージェントを専門チームに変える

Crew44 は、複数の AI コーディングエージェント(Claude Code、Codex、Gemini、Cursor など)を連携する専門チームに組織するローカルファーストのオープンソースツールです。アカウント不要、無料、MIT ライセンス、記憶とスキルの蓄積をサポート。

  • Crew44 は複数の AI コーディングエージェントをローカルワークスペースに統合し、チーム連携を実現。
  • 専門家ロール(共同創業者、エンジニア、プロダクトリードなど)を作成し、各ロールに最適なランタイム/モデルを割り当て可能。
サイト内本文

AIエージェントハーネス:LLMをデジタルワーカーに変える接着剤

AIモデルの生の知能は頭打ちになっており、次の進歩はモデルの周りに構築するものからもたらされます。AIエージェントハーネスは、LLMにツール、メモリ、人間の介入を提供し、有用なデジタルアシスタントに変えます。Google、LangChain、OpenAI、Anthropicなどの企業がさまざまなソリューションを提供しています。

  • AIの知能向上が鈍化し、エージェントハーネスが注目される。
  • エージェントハーネスはLLMにツール、記憶、修正能力を追加する。
サイト内本文

GoogleのFitbit Airを1週間着用して健康管理してみた——低価格でWhoopの強力なライバルに

最新のスクリーンレスヘルストラッカーがスタイリッシュなフィットネスバンドに。100ドルという手頃な価格で、Whoopの強力な競争相手となる。ランニング、筋トレ、ヨガなど1週間のテストの結果、軽量で快適、バッテリーは約1週間持続。AIヘルスコーチとの連携で総合的なトラッキング体験を提供するが、運動中のデータ確認にはアプリが必要。

  • Fitbit Airは100ドルでWhoopより大幅に安い。
  • スクリーンレス設計が健康的なトラッキング習慣を促進するが、運動中はアプリでデータを確認する必要がある。
サイト内本文

AIウィークリー第496号:Anthropicの国防総省モデルが今や誰でも使える

今週のAIニュース:Anthropicがこれまで政府契約業者限定だったMythosモデルを公開、国防総省級AIが誰でも利用可能に。DeepMindのDemis HassabisはAGI実現時期を2029年に前倒し。Starletteフレームワークに重大な認証バイパス脆弱性、数百万のAIエージェントに影響。CrowdStrikeらがGlasswormボットネットを共同撃滅。BNPパリバがMistralと主権AIセキュリティ提携、中国はAlibabaとDeepSeekのトップAIエンジニアの海外渡航を制限。UberはAIトークン予算を4ヶ月で使い切り、ClickUpは2200人を解雇して3000の内部AIエージェントを導入。一方、MITテクノロジーレビューはAI露出職種の失業率が低いと報告、Altmanはホワイトカラー消滅予測を撤回。

  • AnthropicがMythosモデルを公開、NSAや国防総省の能力が標準APIで利用可能に。
  • DeepMindのハサビスCEOがAGI実現を2029年と明言、AlphaProof Nexusの成果を根拠に。
サイト内本文

Zero.xyz:AIエージェントに4,000以上のツール、API、サービスへのアクセスを提供

Zero.xyzは、AIエージェントがAPIキーや設定なしで4,000以上のツールやサービスに統一アクセスできる無料ツールです。Claude Code、Codex、GeminiなどのCLIエージェントに対応し、5ドルの無料クレジットを提供します。

  • 4,000以上のツールとサービスへの統一APIアクセス
  • APIキーや設定は不要
サイト内本文

次に来ることについてのいくつかのアイデア、2026年5月

2026年のAIはさらなる加速を続け、オープンモデルはエージェント能力で遅れをとり、GoogleのGeminiはClaude CodeやCodexに対抗できず、アメリカのオープンモデルが台頭し、AnthropicとOpenAIの競争が激化、既存の権力構造がAIに関与し始めている。

  • オープンモデルはエージェント能力でクローズドモデルに5〜6ヶ月遅れ、12ヶ月以上に延びる可能性。
  • Google GeminiはClaude CodeやCodexに対抗できるツールを欠く。
サイト内本文

サンダー・ピチャイが語るAI、検索の未来、そしてウェブの変化

Google I/O後のDecoderインタビューで、CEOサンダー・ピチャイがGoogleのAIファーストへの転換、DeepMind再編、物議を醸すAI概要検索、そしてAGIへの見解について語った。

  • GoogleはBrainとDeepMindを統合し、中央集権的なAIインフラを構築。
  • 検索はAI概要やエージェントプラットフォームGemini Sparkへと進化。
サイト内本文

Google Cloud COO「AIセキュリティはサーバールームだけでなく取締役会で議論すべき」

Google CloudのCOOであるFrancis de Souza氏は、企業がAI戦略にセキュリティを初日から組み込むよう求め、AIセキュリティは技術的な問題だけでなく取締役会レベルの課題であると強調している。

  • Google Cloud COOがAI戦略へのセキュリティ組み込みを呼びかけ
  • AIセキュリティは取締役会レベルの注目とリソースが必要
サイト内本文

シークエンスナレッジ #866: 知っておくべき3つのテキスト拡散モデル

テキスト拡散モデルは、自己回帰型のパラダイムに挑戦し、ノイズから繰り返しノイズ除去することでテキストを生成し、生成をタイピングではなく編集として捉えます。この分野を定義する3つの主要システム:LLaDA(スケーリングの証明)、Mercury(商用速度の優位性)、Gemini Diffusion(フロンティア検証)があり、新しいアーキテクチャクラスの3つのフェーズ(科学的証明、産業展開、フロンティア検証)を代表しています。

  • テキスト拡散モデルはノイズからの繰り返し精錬によりテキストを生成し、双方向コンテキストを利用します。
  • LLaDAは拡散モデルが大規模言語モデルに拡張可能であることを証明しました。
サイト内本文

人類数学者への懸賞金が残り少ない?Google DeepMindがエルデシュ問題9問を一挙解決

Google DeepMindは、Gemini 3.1 ProとLean検証器を基盤とするAlphaProof Nexusを発表。50年以上未解決だった問題を含むエルデシュの未解決問題9問を解決し、さらにOEISの44の予想、15年未解決の代数幾何学問題なども証明した。費用は1問あたり数百ドル。

  • AlphaProof Nexusはエルデシュ問題9問(最長56年未解決)を解決。
  • システムは4つのエージェントから構成され、最も単純なものはLLMとコンパイラのフィードバックループだけで全問を解決。
サイト内本文

LWiAI ポッドキャスト #246:Gemini 3.5 + Omni、マスク敗訴、OpenAI vs エルデシュ

Google I/OでGemini 3.5とGemini Sparkエージェント、Gemini Omniマルチモーダル動画生成を発表。イーロン・マスクがOpenAI訴訟で時効により敗訴。Anthropicが9000億ドル評価額で300億ドル調達。AIが80年未解決のエルデシュ幾何学問題を解決。

  • GoogleがGemini 3.5と常時稼働エージェントGemini Spark(MCPツール対応)を発表。
  • Gemini Omniは画像、音声、テキストから動画を生成。
サイト内本文

ContextVault – ChatGPT、Claude、Gemini向けローカルファーストAI会話レコーダー

ContextVaultは、ChatGPT、Claude、Geminiなどの主要LLMプラットフォームでのAI会話をリアルタイムでキャプチャし、IndexedDBにローカル保存するブラウザ拡張機能です。ワンクリックでMarkdownまたはZIP形式にエクスポートでき、データがデバイスから離れることはありません。無料・オープンソースで、アカウントやバックエンドは不要です。

  • ChatGPT、Claude、Geminiなど7つのLLMプラットフォームに対応し、リアルタイムで会話をキャプチャ。
  • すべてのデータはIndexedDBにローカル保存され、クラウド同期や第三者によるアクセスはありません。
サイト内本文

Google DeepmindのAlphaProof Nexusが数十年未解決の数学問題を数百ドルで解決

Google DeepmindのAlphaProof Nexusは、9つの未解決のエルデシュ問題(うち2つは56年間数学者を悩ませてきた)を自律的に解決し、1問題あたりの推論コストはわずか数百ドルでした。OpenAIの自然言語アプローチとは異なり、このシステムはLeanコンパイラを使用してすべての証明ステップを自動的に検証します。ただし、全体的な成功率はわずか2.5%です。

  • AlphaProof Nexusは9つの未解決エルデシュ問題を自律解決、うち2つは56年未解決。
  • 1問題あたりの推論コストは数百ドル。
サイト内本文

HTML Deployer:AI生成HTMLをワンクリックでウェブサイトに公開

HTML Deployerは、ChatGPT、Claude、GeminiからAI生成HTMLを抽出し、プレビュー、ZIPダウンロード、またはNetlify、GitHub、FTP、セルフホストサーバーへの直接公開を可能にするChrome拡張機能です。開発者、創業者、マーケター、代理店、初心者向け。

  • ChatGPT、Claude、GeminiからHTMLコードブロックを抽出。
  • プレビュー、ZIPエクスポート、クラウド/FTP/セルフホストへの直接公開。
サイト内本文

Android Autoの未来を見たが、Googleは自分の車に戻るのが怖くなった

Googleが近日リリースするAndroid Autoアップデートは、Material 3 Expressiveデザイン、カスタムウィジェット、没入型ナビゲーション、そしてより深いGemini統合を特徴とする。筆者のデモでは印象的で、今年後半のアップデートを期待させるものだった。

  • 新しいAndroid Autoインターフェースは、Material 3 Expressiveデザイン、3パネルレイアウト、カスタムウィジェットを採用。
  • Googleマップは詳細な3D建物や地形を表示する没入型ナビゲーションを獲得。
サイト内本文

Google Antigravity 2.0:完全開発者ガイド(I/O 2026)

Google は I/O 2026 で、単なるアップデートではなく、AI 支援コーディングからマルチエージェントオーケストレーションへのプラットフォーム転換を発表しました。Antigravity 2.0 は、スタンドアロンデスクトップアプリ、CLI、SDK、マネージドエージェントを備え、デフォルトモデルは Gemini 3.5 Flash で 4 倍高速化されています。

  • Antigravity 2.0 は、IDE のリフレッシュではなく、マルチエージェントオーケストレーションを中心とした完全に再構築されたプラットフォームです。
  • 新機能には、スタンドアロンデスクトップアプリ、Go で書かれた CLI、SDK、Gemini API によるマネージドエージェントが含まれます。
サイト内本文

AIモデルは正しい答えを与えるが、間違った情報源を指すことが多い

北京大学の研究者は、GPTやGeminiといった主要なAIモデルが文書分析において、回答を裏付けないテキスト箇所を頻繁に引用することを発見しました。答えが正しくても、引用された証拠は誤っていることがよくあります。研究者らはこれを「帰属幻覚」と呼び、法律や医学などの規制分野でのリスクを指摘しています。新しいCiteVQAベンチマークは、これを体系的にテストする初めてのものです。

  • AIモデルは文書分析で回答を支持しない引用をすることが多い
  • 答えが正しくても引用証拠が誤っている「帰属幻覚」
サイト内本文

AIはあなたの知識を推測できるか?コミュニケーションログからのヒト領域知識推定における大規模言語モデルの性能比較

7つの大規模言語モデル(Gemini、Claude、GPTファミリーを含む)が、長期のSlackログから個人のドメイン知識を推測する能力を評価。43人のユーザーからの27,188件のメッセージを分析し、ゼロショット推定と27人の参加者の自己報告スキル評価を比較。Gemini 2.5 Flashが最低誤差(MAE 21.13%)を達成し、GPTモデルはより大きな乖離を示した。推定精度はメッセージ量に弱く依存し、テキストが多いだけでは推論が改善されないことを示唆。結果は自動専門知識マッピングの実現可能性と現在の限界を示し、プライバシー保護型の展開とより豊かな構造認識型知識表現の必要性を強調している。

  • 従業員は「誰が何を知っているか」の特定に苦慮し、生産性低下を招く
  • Gemini 2.5 Flashがゼロショット推定で最小誤差(MAE 21.13%)を達成
サイト内本文

Show HN:ライブAI音楽シーケンシングエージェント

Pretzelは、すべてのユーザーが同じAIエージェントとチャットし、同期された音楽をリアルタイムで聴くことができる実験的なライブAI音楽エージェントです。Google IOハッカソンで開発され、Rust製のエージェントハーネス「Talon」を使用して簡単にセルフホスティングできます。

  • PretzelはAIエージェントによって制御されるウェブ同期型ミュージックシーケンサーです。
  • すべてのユーザーが同じAIエージェントと対話し、同じ音楽を聴きます。
サイト内本文

DeepMindのハサビス氏、人類は「特異点の麓」にいると見解、LeCun氏は現在のAIは知的ではないと主張

Yann LeCun氏は現在のAIシステムは真に知的ではないと述べている。Demis Hassabis氏は人類はすでに「特異点の麓に立っている」と考えている。Gemini共同リーダーのOriol Vinyals氏は中間的な見解を示し、今日のモデルは7年前ならAGIに見えたかもしれないが、それでも経験から学んだり真のブレークスルーを生み出したりすることはできないと指摘する。

  • Yann LeCun氏は現在のAIシステムに真の知能はないと主張。
  • Demis Hassabis氏は人類は特異点への初期段階にあると確信。
サイト内本文

The Sequence Radar #865:先週のAI:Karpathy、Google、Colossus、そして迫るIPOの波

先週のAI業界は大きな転換点を迎えた:GoogleがGemini Omniとエージェント優先プラットフォームを発表、Andrej KarpathyがAnthropicに加入しClaudeを活用した事前学習の加速に着手、AnthropicはxAIのColossusと450億ドルの計算リース契約を締結、CerebrasのIPOで時価総額約950億ドルに、SpaceX、OpenAI、Anthropicが今後6ヶ月以内に上場を計画し、総評価額は3兆ドルを超える可能性がある。また、HRM-Text効率的事前学習、AIレビュアーの評価、NVIDIAの統合AR-拡散モデルなど、複数の最先端研究が発表された。

  • Google I/OでGemini Omniマルチモーダルモデルとエージェント優先プラットフォームAntigravityを発表、TPU 8iで垂直統合を実現。
  • Andrej KarpathyがAnthropicに加入し、Claudeを使って事前学習を加速するチームを結成、自己改善サイクルの実質的な進展を示す。
サイト内本文

Copilot、GeminiなどのAIツールでモデル選択をデフォルトのままにしてはいけない理由

数学者のAdam Kucharski氏が、Microsoft Copilotに同一のデータセットを異なる国ラベルで与えたところ、正確な結果ではなく詳細なステレオタイプを出力しました。思考モデルはこのトリックを見抜けますが、ユーザーが適切に選択する必要があります。

  • Microsoft Copilotは同一データセットでも国ラベルが異なるとステレオタイプを生成する。
  • 思考モデルは誤りを検出できるが、ユーザーがそれを選択する必要がある。
サイト内本文

OpenAIとNvidia、GoogleのSynthIDを利用してAIコンテンツに透かしを入れる

GoogleのSynthID透かしシステムは、OpenAI、Nvidia、ElevenLabs、Kakaoによって採用され、AIコンテンツ検出のための共有業界標準への移行を示しています。

  • SynthIDは透かしを直接ピクセルや音声波形に埋め込み、メタデータよりも除去が困難。
  • OpenAI、Nvidia、ElevenLabs、Kakaoが画像・動画・音声生成ツールにSynthIDを採用。
サイト内本文

研究者がClaude Codeに、人間ならおそらく設計しなかったであろうAIスケーリングアルゴリズムを発見させる

メリーランド大学、Google、Metaなどの研究チームは、AutoTTSを用いてコーディングエージェントがAI推論の制御アルゴリズムを自律的に発見できるようにした。発見されたアルゴリズムは、標準的な自己一致性と比較して精度を維持しながら計算量を約70%削減する。探索全体のコストは40ドル、所要時間は160分だった。

  • AutoTTSはオフラインシミュレーション環境を利用し、人間がルールを書くことなくコーディングエージェントがテスト時スケーリングアルゴリズムを自律探索する。
  • 発見されたアルゴリズムは数学ベンチマークで、自己一致性などの既存手法よりも計算効率の良い精度を達成。
サイト内本文

グーグルCEOがコーディングの遅れを認める、AI戦略と社会的懸念について語る

グーグルのサンダー・ピチャイCEOは、ニューヨーク・タイムズのポッドキャストで、同社のGeminiがコーディング分野で後れを取っていることを認めつつ、検索の大規模改修やAIへの国民の不安、AGIへの道のりについて率直に語った。

  • ピチャイ氏は、Geminiがエージェント型コーディングや長期タスクで遅れていると認めた。
  • グーグルは25年ぶりの大規模な検索改修を進めるが、AIモードへの完全移行は急がない。
サイト内本文

Googleの新AIモデル「Omni」は驚異的、あらゆる入力をあらゆる出力に変換

Googleは、任意の入力(写真、動画、テキスト)から任意の出力を生成できる生成モデル「Omni」ファミリーを発表。筆者はぬいぐるみの鹿と自身のディープフェイク動画を作成してテストし、前世代のVeoより品質と一貫性が向上したことを確認したが、AI特有の不具合やクレジット消費の高さも指摘。ディープフェイク動画のリアリティは身近な人をも騙せるレベルに達しており、悪用の懸念が高まっている。

  • GoogleのOmniモデルは、あらゆる入力から出力を生成可能で、まずは動画生成に焦点。
  • Omni FlashはVeoよりキャラクターの一貫性が改善されたが、依然としてアーティファクトが存在。
サイト内本文

Google CEOピチャイ氏、リンクを検索の「一部」と位置づけ、ウェブの役割を再定義

Googleのサンダー・ピチャイCEOはリンクとソースを検索の「一部」と呼ぶようになった。実際にはそれらは検索の基盤である。この表現は意図的で、新機能はユーザーをGoogleのエコシステム内に留め、同社はトラフィック配布者からAIパブリッシャーへと移行しており、そのソース選択は編集権力の問題になりつつある。

  • Google CEOがリンクを検索の「一部」と再定義し、その基盤的役割を軽視。
  • 新機能はユーザーをGoogleエコシステム内に留める。
サイト内本文

シンガポールのAI未来を強化:新たな国家パートナーシップ

Google DeepMindはシンガポール政府および複数の組織と新たな国家AIパートナーシップを発表。医療、教育、科学、持続可能性におけるフロンティアAIの責任ある展開を目指し、2040年までに約33億シンガポールドルの経済価値を創出する見込み。

  • 公共部門の変革、企業成長、労働力育成を支援し、医療、科学、教育の課題に取り組む。
  • AI共同臨床医、パンデミック対策、視覚障害者向けランニングアシスタント、学校でのGemini導入などの具体的事業。
サイト内本文

【AINews】すべてのモデルラボは今やエージェントラボ

OpenAIのIPO申請を前に、業界の巨人たちが純粋なモデルからエージェント製品へとシフトしている。DeepSeekが永久75%値下げ、MCPプロトコルがステートレス化、Googleが年中無休のAIエージェントを発表、Anthropicが1万以上の脆弱性を発見。エージェント化が新たな常識に。

  • Greg Brockman氏、モデル単体はもはや製品ではなく、ハーネス+エージェント+ワークフローが重要と発言
  • DeepSeek V4 Proが永久75%値下げ、推論コストを大幅削減
サイト内本文

GoogleのAIエージェントは本当に916ドルでオペレーティングシステムを構築したのか?

GoogleはAIエージェントチームがたった1つのプロンプトと約900ドルのAPI費用でOSを構築したと主張したが、本稿ではその主張の複数の問題点を分析:プロンプトは実際には数千行に及び、過学習の可能性、重要な詳細の欠如など。独立した評価の重要性を強調し、この種の「オープンワールド評価」には新たな方法論的規範が必要であると論じる。

  • GoogleはAIエージェントが916ドルでOSを構築したと主張するが、実際のプロンプトは数千行
  • 過学習やコードのコピーなど、未解決の問題がある
サイト内本文

企業ナビゲーション