AI News HubLIVE

今日の必読ニュース

Agent

Agent-EvalKit で AI エージェントを体系的に評価する

Agent-EvalKit は、Claude Code、Kiro CLI、Kilo Code などの AI コーディングアシスタントと統合することで、評価インフラを提供するオープンソースツールキット (Apache 2.0) です。この記事では、Agent-EvalKit の6つの評価フェーズを、Strands Agents SDK と Amazon Bedrock で構築された旅行調査エージェントを例に説明します。

  • Agent-EvalKit は、AI コーディングアシスタントと統合された6フェーズの評価ワークフロー(計画、データ、トレース、エージェント実行、評価、レポート)を提供します。
  • 旅行調査エージェントの例では、ツールが空の結果を返した際の幻覚問題を検出しました。
サイト内本文

Databricks Marketplace のすぐ使える MCP でヘルスケアエージェントを強化

Databricks Marketplace では、Climb、Atropos Health、Kythera Labs、Redox などのパートナーが提供するビルド済み MCP サーバーを利用できます。これらはバイオメディカル、臨床エビデンス、医療セマンティクス、相互運用性をカバーし、MCP Catalog に一元管理され、Unity AI Gateway によってセキュアにガバナンスされます。ローコードまたはカスタムコーディングで医療 AI エージェントを迅速に構築できます。

  • Databricks Marketplace のすぐ使える MCP サーバーが、ヘルスケア AI エージェント開発のハードルを下げます。
  • パートナー提供の MCP サーバーは、標的-薬物相互作用、臨床試験、FDA ラベル、医療セマンティクス翻訳、データ相互運用性を網羅します。
サイト内本文

EcolabがDatabricksとAnthropic Claudeで小売インテリジェンスを再構築した方法

EcolabはDatabricksとAnthropicのClaudeモデルを活用し、9つのサイロ化されたデータソースを統合した小売インテリジェンスプラットフォームを構築。コンプライアンスレポートの作成時間を2週間から2分未満に短縮しました。

  • EcolabがDatabricksとClaudeモデルで9つのデータソースを統合
  • コンプライアンスレポートが2週間から2分未満に
サイト内本文

スクラッチから始めるフィーチャーストア:最小限の実装

Python、DuckDB、Parquet、Redis、FastAPIを使って最小限のフィーチャーストアを構築し、レジストリ、オフラインストア、オンラインストア、マテリアライゼーション、取得APIの5つのコンポーネントを解説。AI時代の設計変更についても考察。

  • 5つのコアコンポーネント:レジストリ、オフラインストア、オンラインストア、マテリアライゼーション、取得API。
  • トレーニング-サービス間のスキューを防止し、LLMに低レイテンシのコンテキストを提供。
サイト内本文

AIエージェントにはインフラが必要:欧州のリージョナルクラウド戦略が重要な理由

生成AIからエージェンティックAIへの移行に伴い、欧州企業はデータ主権、コスト管理、インフラの新たな課題に直面している。本記事では、Vultrのようなリージョナルクラウドプロバイダーが、従来のハイパースケーラーよりもエージェンティックワークロードに適したコンプライアンス、性能、コスト効率を提供すると論じる。

  • エージェンティックAI市場は2034年までに1391.9億ドルに達し、欧州は42%のCAGRで成長する見込み。
  • 欧州企業はイノベーションと規制遵守のバランスが求められ、クラウドインフラのローカライズが必要。
サイト内本文
ツール

OpenAI vs. Anthropic:APIトークンの価格競争が勃発

ウォール・ストリート・ジャーナルの報道によると、OpenAIはAnthropicから顧客を奪うためにAPIトークンの値下げを検討している。

  • OpenAIはAnthropicからの顧客獲得のために値下げを検討
  • APIトークンの価格競争が業界に影響を与える可能性
サイト内本文
モデル

datasette 1.0a33 リリース:JSON エクストラ機能で API 強化

Datasette 1.0a33 は安定版 1.0 への重要なアルファリリースです。?_extra= パターンがクエリと行に拡張され、ドキュメント化されました。AI で構築された API エクスプローラも公開されています。

  • ?_extra= パターンをクエリと行に拡張。
  • パターンが正式にドキュメント化されました。
サイト内本文

Amazon Bedrock Data Automation でブループリント抽出の精度を最適化する

Amazon Bedrock Data Automation の新機能であるブループリント命令最適化は、3〜10のサンプルドキュメントと正解値を提供することで、モデルのファインチューニングなしに抽出命令を数分で自動的に改善し、文書処理の精度を大幅に向上させます。

  • 3〜10の代表的なドキュメントと正解値を提供
  • BDAが差異を分析し、自然言語命令を自動的に改良
サイト内本文
政策

6月23日DCエリア・ハッピーアワー開催!

Understanding AIチームとニュースレターの友人たちに会えるハッピーアワーを開催します。DCエリアの読者の皆様、ぜひご参加ください。

  • 日時:6月23日午後5時30分~8時、場所:The Crown & Crow。
  • チームメンバー全員と特別ゲストAndy Masley氏、Abi Olvera氏が参加。
サイト内本文
スタートアップ

AIの富のブームがサンフランシスコの住宅価格を急騰させる:「馬鹿げている」

OpenAIやAnthropicなどのAI企業がIPOを控え、従業員が巨額の富を得たことで、すでに高額なサンフランシスコ・ベイエリアの住宅価格がさらに高騰しています。専門家は、この傾向が続き、住宅市場の逼迫を招くと予測しています。

  • AI企業の従業員がIPOで得た富により、ベイエリアの住宅価格が急騰。
  • OpenAI、Anthropic、SpaceXなどが上場を予定し、さらなる価格上昇の要因に。
サイト内本文
その他の更新(54件)
チップ

Neura Robotics、物理AIのために14億ドルを調達

Nvidia、Amazon、Qualcommなどの投資家からの資金は、人型ロボットと物理AIの開発を支援する。

  • Neura Roboticsが14億ドルを調達
  • 投資家にはNvidia、Amazon、Qualcommが含まれる
サイト内本文

大割引でさらに快適に:GeForce NOWサマーセールでメンバーシップ大幅値下げ

NVIDIA GeForce NOWのサマーセールが本日開始。12ヶ月Ultimateメンバーシップが70ドル引き、Performanceメンバーシップが35ドル引きの期間限定セールを実施。クラウドゲーミングサービスがハードウェアの壁を取り除き、高パフォーマンスのRTXゲームをさまざまなデバイスで即座にプレイ可能に。さらに、『Guild Wars 3』がプラットフォームに登場予定で、現行の『Guild Wars』タイトル向けの独占報酬も提供。

  • GeForce NOWサマーセール:Ultimate年額70ドル引き、Performance年額35ドル引きの期間限定割引。
  • クラウドゲーミングがハードウェア制約を解消し、即時アクセス、自動アップデート、マルチデバイス対応を実現。
サイト内本文

AIが代行しようとする面倒な用事や家事?実はそれらは健康維持に役立っている | マヌシュ・ゾモロディ、キース・ディアス

AIの効率化が人間を健康的な活動へと導くという幻想に対し、歴史的に省力技術が健康習慣を促進した例はほとんどないと指摘。ドライブスルーや電子レンジ、エスカレーターといった過去の便利さが徐々に身体活動を減らし、健康を損ねてきたことを警告する。

  • AIによる効率化は必ずしも健康的な生活をもたらさない。
  • 過去の省力技術(ドライブスルー、電子レンジ、エスカレーター)は身体活動を減少させた。
サイト内本文

PyTorch プロファイリング (第2部): nn.Linear から融合 MLP へ

本記事は PyTorch プロファイリングシリーズの第2部であり、nn.Linear レイヤーの内部機構(転置操作、バイアス融合エピローグ技術、torch.compile の影響)を掘り下げます。その後、GeGLU 活性化関数を含む多層パーセプトロン (MLP) のパフォーマンス特性を解析し、GPU カーネルのスケジューリングと実行を示します。

  • nn.Linear はエピローグを介してバイアス加算を行列乗算カーネルに融合し、余分なメモリアクセスを回避します。
  • torch.compile は単一の nn.Linear 層には有意な高速化をもたらさないが、CPU ディスパッチのオーバーヘッドを排除します。
サイト内本文
Agent

Google DeepMindスピンオフが隠された創薬ターゲットを追跡する方法

Google DeepMindのスピンオフであるIsomorphic Labsは、AlphaFoldを超える画期的なAIシステムIsoDDEを使用して、タンパク質上の隠れたポケットを発見し、創薬を加速させています。このシステムは、Nature誌に掲載されたcereblonのクリプティックポケットを正確に予測し、その能力を実証しました。

  • IsoDDEはAlphaFoldを超え、構造予測だけでなくタンパク質-リガンド相互作用を予測する。
  • このシステムは、Nature誌のcereblonのクリプティックポケットをタンパク質配列のみから正確に予測した。
サイト内本文

VisaとChatGPTの統合によりAIエージェントが小売り購入を実現

Visaは決済インフラをChatGPTと連携させ、AIエージェントが小売製品を推奨し金融取引を実行できるようにしました。この展開により、小売ファネルの最終段階から人間の介入が不要になります。自律エージェントはユーザープロンプトを処理し、販売業者のカタログを評価し、Visaの決済ネットワークを通じて対応する販売業者でのチェックアウトを完了します。

  • VisaがChatGPTと統合し、AIエージェントが自律的に小売購入を完了可能に。
  • AIエージェントはビジュアルマーチャンダイジングではなくデータに基づいて製品を選択するため、小売業者は構造化データの提供が必要。
サイト内本文

Warren 3.0登場:AIファイナンシャルプランニングパートナー

Warrenは無料のAIファイナンシャルプランニングアシスタントで、音声会話を通じて10分で個別の財務計画を作成します。バージョン3.0では、透明で編集可能な財務モデルを備え、何もしない場合と行動を起こした場合の2つの未来を示します。3,000人以上の英国ユーザーが利用し、3人に1人の退職計画者が25万8千ポンド不足する可能性を明らかにしました。

  • 無料のAI財務計画、音声会話で10分、書類やアドバイザー不要
  • バージョン3.0:完全に透明で編集可能な財務モデル、ロジックを説明
サイト内本文

The Sequence意見:記録システム対行動システム

エージェント時代の新しいビジネスソフトウェアパラダイム。

  • 従来のエンタープライズソフトウェアは人間をアクターとしていた。
  • エージェントAIは記録システムから行動システムへ焦点を移す。
サイト内本文

コンテキスト崩壊時:エージェントに記憶喪失の検出と復旧を教える

本稿はエージェンティックエンジニアリングシリーズの第8回目であり、複雑なマルチステップ作業を行うAIエージェントにおけるコンテキスト喪失問題を扱います。著者は外部化・認識・再水和(ERR)パターンを提案します:エージェントの状態をディスクに保存し、コンテキストの劣化を検出し、ファイルから復旧します。歴史的な類推(640Kメモリ制限)と実際のCopilotクラッシュ事例を用いて問題を説明します。記事では、実行継続性(現在のステップ)とタスク継続性(全体的な目標)という2層の状態外部化を詳細に説明します。

  • AIエージェントのコンテキストウィンドウは限られており、情報喪失を引き起こす。これは初期のメモリ制限に似ている。
  • ERRパターン:状態の外部化、喪失の認識、ファイルからの再水和。
サイト内本文

Xebia:AIエージェントが適切なデータ基盤なしに失敗する理由

XebiaのグローバルCTO Niels Zeilemaker氏は、AIエージェントの成功は適切なデータカタログを含む強固なデータ基盤に依存すると強調する。同社のAgentic Data Foundation(ADF)およびACEフレームワークは、ガバナンスと品質を維持しながら企業のAI導入を加速する。

  • AIエージェントは正確なデータカタログと基盤を必要とし、そうでなければデータを誤解釈する。
  • XebiaのAgentic Data Foundationはデータプラットフォームを拡張してエージェントをホストする。
サイト内本文

Nous Research、Hermes Agentプロファイルビルダーをリリース:ダッシュボードフローでID、モデル、スキル、MCPサーバーを一元管理

Nous Researchは、Hermes AgentのローカルWebダッシュボード内にプロファイルビルダーを搭載しました。これにより、複数のCLIステップを要したエージェント設定が単一のガイド付きフローで完了します。ユーザーはID、モデル/プロバイダー、スキル、MCPサーバーを定義し、分離されたプロファイルディレクトリを生成して、状態衝突なく複数エージェントを実行できます。

  • Hermes Agentダッシュボードにプロファイルビルダーが追加され、複数ステップのCLI設定を1回のガイドフローに統合。
  • ユーザーはブラウザフォームでエージェントのID、モデル/プロバイダー、組み込み/ハブスキル、MCPサーバーを設定可能。
サイト内本文

データプロダクトを構築するのをやめ、データサービスを始めよう

買収による成長とエージェント型ワークフローの台頭により、従来のデータプロダクトモデルは機能しなくなりつつある。HowdenのグループCDOであるBarry Panayiは、データサービス層への移行、データガバナンスの左シフト、インサイトラグの削減、そして統一データモデルと会話型分析の採用を提唱している。

  • ユースケースごとの製品モデルは買収とエージェント消費の下で崩壊し、サービス層がより適応性を持つ。
  • データマスタリングと品質チェックを取り込みに近づけることで、統合サイクルを数ヶ月から数週間に短縮できる。
サイト内本文

SmithDBにおける全文検索:オブジェクトストレージ向け転置インデックスの設計

SmithDBは、エージェントトレースに対して全文検索とJSONフィルタリングをサポートし、中央値レイテンシは400ミリ秒です。本記事では、オブジェクトストレージと大規模なエージェントトレースペイロードに特化した転置インデックス設計について、直面した課題(大きなペイロード、ジップ分布、複数のクエリモダリティ、オブジェクトストレージの制約)、Tantivyを採用しなかった理由、そして2回の設計反復の教訓を詳述しています。

  • SmithDBの転置インデックスはオブジェクトストレージと大規模なエージェントトレースペイロードに最適化
  • Tantivyのような従来の検索ライブラリはmmapとローカルディスクの前提により不適切
サイト内本文

エージェントとアプリケーションの間の欠落したリンク

ほとんどのAIエージェントツールはサーバー上で実行され、ブラウザAPI、デバイス機能、フロントエンド状態へのアクセスが制限されています。LangChainのヘッドレスツールが、最新のエージェントアプリケーションのために安全なクライアントサイドツール実行を可能にする方法をご覧ください。

  • サーバー側のツールはブラウザやデバイスの機能に直接アクセスできない。
  • ヘッドレスツールはクライアントサイドの能力をエージェントループに組み込む。
サイト内本文

asyncinject 0.7 リリース

asyncinject 0.7 がリリースされました。このライブラリは asyncio 依存性注入をサポートします。Claude Fable 5 が依存関係のバグを検出し、自動で修正しました。

  • asyncinject 0.7 リリース
  • asyncio の依存性注入パターンを提供
サイト内本文

Cloudskill

Cloudskill は AI スキルを管理するプラットフォームであり、散在するスキルファイルをバージョン管理、個人ごとのアクセスポリシー、完全な監査ログを備えた管理カタログに変換します。Claude、Cursor、Copilot などのエージェントを統合し、すべての変更がレビューおよび承認されることで、スキルの安全性と一貫性を保ちます。

  • Cloudskill は AI スキルファイルをバージョン管理、アクセスポリシー、監査ログ付きの管理カタログに変換します。
  • Claude、Cursor、GitHub Copilot など、さまざまな AI エージェントをサポート。
サイト内本文

【AINews】オープンモデル、モデルラボ vs エージェントラボ、そして訓練不可能なもの — Sarah Guo

Sarah Guoによるオープンモデル、モデルラボとエージェントラボの違い、訓練不可能な価値についての深いエッセイを振り返ります。また、AnthropicのFable/Mythos展開と信頼の反発、Fable 5のベンチマーク強度、GoogleのDiffusionGemmaリリース、エージェントツールの進展、そして最適化や検索、科学モデリングの技術アップデートをカバーします。

  • Sarah Guoは「可読性」に基づくフレームワークでオープンモデルの位置づけとモデルラボとエージェントラボの差異を説明。
  • AnthropicのFable/MythosはAI研究能力を静かに低下させたことで信頼を損なう反発を招いた。
サイト内本文

なぜAIはソフトウェアエンジニアを置き換えていないのか、そして今後も置き換えない

本稿では、AIがソフトウェアエンジニアの大量解雇を引き起こしたというナラティブをデータとケーススタディで反論する。AIによる解雇とされるものは財務上の理由による「AIウォッシング」であることが多く、実際の雇用データは、AIが「実行」層を圧縮しても「意思決定」と「提供」層は人間に依存することを示している。「決定-実行-提供サンドイッチ」モデルを提示し、これらのボトルネックはAIの能力向上だけでは解消されないと論じる。

  • AIによる大量解雇の話は多くの場合「AIウォッシング」であり、実際は財務上の理由によるもの。
  • ソフトウェアエンジニアリングのボトルネックはコーディングではなく、意思決定、検証、システムの深い理解にある。
サイト内本文

フロンティアチームがAIネイティブ開発をどのように再発明しているか

フロンティアチームはAIを使ってコードを速く書くだけでなく、ソフトウェアの構築方法そのものを再設計している。その結果、4.5倍、場合によっては10倍以上の生産性向上を実現している。この記事では、Amazon Bedrock、Prime Videoなどの事例を通じて、フロンティアチームになるための5つの実践を明らかにし、ツールよりもワークフローの変革が重要であることを強調している。

  • フロンティアチームは、AIツールを追加するだけでなくワークフローを再設計することで、4.5倍から10倍以上の生産性向上を達成している。
  • Amazon Bedrockチームは6人のエンジニアで76日間のプロジェクトを完了。当初は30人で12~18ヶ月と見積もられていた。
サイト内本文

OpenAIがOnaを買収へ

OpenAIは、安全で永続的なクラウド環境をCodexに統合し、エンタープライズワークフローでの長時間稼働AIエージェントを実現するため、Onaを買収する計画を発表しました。

  • OpenAIはOnaを買収し、Codexの機能を拡張。
  • Onaは安全で永続的なクラウド環境を提供。
サイト内本文

Microsoft SkillOptのコーディング実装:インストゥルメント化されたプロンプト最適化、スキル進化分析、ベースライン比較

このチュートリアルでは、Microsoft SkillOptの完全なワークフローを実装します。環境設定、ベースライン評価、ロールアウト・リフレクション・集約・選択・更新・検証ゲーティングを含む最適化ループ、トレーニング履歴の可視化、最終的なスキル比較を行います。最終的にデプロイ可能な最適化スキルファイルが得られ、精度の向上が示されます。

  • SkillOptリポジトリをセットアップし、OpenAI互換モデルに接続、オプティマイザとターゲットモデルを構成
  • 初期シードスキルをベースラインとして評価し、ハードマッチとソフトマッチのスコアを取得
サイト内本文

ロボタクシーには、安全性は後付けではなく内蔵されていなければならない

ロボタクシーサービスが世界中で拡大する中、NVIDIAはHalos OSを発表。これは、認定済みOS、標準化されたインターフェース、AIガードレール、検証フレームワークを統合した包括的な安全システムで、自動運転車の基盤に安全性を組み込むことを目指します。

  • 世界中の複数のロボタクシープログラムがNVIDIA DRIVE Hyperionプラットフォームを使用して始動しており、ミュンヘンのUber/Autobrains、台湾のFoxconn、東南アジアのVinFast、サウジアラビアのHUMAINなどが含まれます。
  • NVIDIA Halos OSは、安全認証可能なOS、安全なインターフェース、検証可能なガードレール付きAI、大規模検証という4つの主要な安全課題に対処します。
サイト内本文

Onpilot:ビジネスに合わせてカスタマイズされたAI労働力

Onpilotは、企業のシステム、ワークフロー、プロセスに特化したAIワーカーを作成し、運用を監視、リスクを特定、機会を発見、アクションを推奨、3,000以上の統合で作業を自動化します。Slack、Teams、WhatsApp、SaaS、またはオンプレミスで展開可能。承認ワークフロー、監査証跡、例外処理により信頼性を確保します。

  • Onpilotは、企業のシステムとプロセスに合わせてカスタマイズされたAI労働力で、運用を能動的に監視しリスクと機会を特定します。
  • 3,000以上のツールと統合し、承認フローと例外処理により信頼性の高いタスク自動化を実現。
サイト内本文

言語サーバーでGitHub Copilot CLIに真のコードインテリジェンスを

GitHub Copilot CLIにLSPサーバーをインストール・設定することで、力任せのgrepや逆コンパイルから脱却し、真のコードインテリジェンスを実現します。LSPセットアップスキルは14の言語に対応し、自動化を提供します。本記事ではその仕組みと開始方法を解説します。

  • GitHub Copilot CLIは以前、テキスト検索やバイナリ抽出でコードを理解しており、非効率的で不正確だった。
  • LSPセットアップスキルは14言語のLSPサーバーのインストールと設定を自動化する。
サイト内本文
モデル

DiffusionGemma:Googleの拡散ベースのオープンモデル、より高速なテキスト生成を実現

Google DeepMindのDiffusionGemmaは、拡散を用いてテキストブロックを並列生成する実験的なオープンウェイトモデルで、従来の自己回帰モデルと比較してローカル推論が高速です。Gemma 4 26B A4B MoEアーキテクチャに基づき、品質と速度をトレードオフし、インタラクティブな編集タスクに最適です。この記事では、そのアーキテクチャ、テキスト拡散の仕組み、ベンチマーク結果、llama.cppを使用したローカル実行の手順を説明します。

  • DiffusionGemmaはテキストブロックを並列に生成・洗練し、ローカル推論のレイテンシを低減します。
  • 双方向注意機構と256トークンのキャンバスを使用し、複数のノイズ除去ステップで生成します。
サイト内本文

Dario Amodeiの新エッセイ:AI時代の冷戦マニュアル

Anthropicは包括的なエッセイと2つの政策枠組みを発表し、フロンティアモデルの拘束力のある監査を求め、AIを国家間の戦略兵器として描いています。CEOのDario Amodeiは『指輪物語』の木の巨人を使って政治システムの遅さを例え、AI能力が指数関数的に成長し、1〜2年以内に「強力なAI」が出現すると警告しています。同社は強制的な第三者テスト、開示要件、リスクのあるモデルを阻止する権限を提案し、失業に対応する段階的計画を策定しました。

  • Amodeiは『指輪物語』の木の巨人で政治システムの遅さを例え、AIの脅威が迫っていると警告。
  • Anthropicはフロンティアモデルの強制的な第三者監査と、政府によるリスクモデル阻止権限を要求。
サイト内本文

Anthropic、Claude Fableの不可視ガードレールについて謝罪

Anthropicは、新しいAIモデルClaude Fable 5に隠された制限を設け、研究開発者や競合他社がシステム開発に利用するのを妨げたことについて謝罪した。同社は方針を撤回し、制限が発動される条件をより透明にすることを約束。たとえFableがより多くのクエリを拒否することになっても、透明性を優先するとしている。

  • AnthropicはClaude Fableに蒸留検出の不可視ガードレールを導入していたことを認めた。
  • ガードレール発動時、ユーザーは通知なしに劣化した応答を受け取っていた。
サイト内本文

「North Mini Code」登場:Cohereの30BオープンウェイトMixture-of-Expertsモデル、アクティブパラメータ3Bでエージェンティックコーディングを実現

Cohereは初の開発者向けコーディングモデル「North Mini Code」を公開しました。総パラメータ30B、トークンあたり3Bのアクティブパラメータを持つMixture-of-Expertsモデルで、1枚のH100 GPUで動作し、256Kのコンテキスト長をサポートします。コード生成、エージェンティックソフトウェアエンジニアリング、ターミナルタスクに最適化され、ウェイトはApache 2.0で公開されています。

  • North Mini CodeはCohere初のコーディングモデル、総パラメータ30B、アクティブ3B、256Kコンテキストと64K最大出力をサポート。
  • 1枚のH100(FP8)で動作、ウェイトはApache 2.0でHugging Face、Cohere APIなどから利用可能。
サイト内本文

Anthropic、Claude利用のAI研究者を「妨害」する可能性があった方針を撤回

Anthropicは批判を受けてClaude Fable 5の安全対策を変更し、フロンティアLLM開発への制限を可視化した。以前はユーザーに知らせずにリクエストの効果を制限していたが、今後はフラグ付きリクエストがOpus 4.8にフォールバックし、APIでは拒否理由が返される。

  • Anthropic、批判を受けて非可視的な制限方針を撤回
  • Claude Fable 5がフロンティアLLM開発リクエストを密かに制限
サイト内本文

Ollama、MLXでApple Silicon上で最高のパフォーマンスを実現

OllamaのMLXエンジンがアップデートされ、Apple Silicon上でこれまでで最高のパフォーマンスを発揮します。AppleのユニファイドメモリとMetalバックエンドのMLXフレームワークをより活用することで、モデルは高品質な応答を出力し、より高速に応答し、メモリ使用量を削減します。NVFP4フォーマットのサポート、最大20%の出力速度向上、エージェントワークフロー向けのスナップショットシステムを導入。

  • OllamaのMLXエンジンがNVFP4フォーマットをサポートし、量子化による品質劣化を半減。
  • 融合されたMetalカーネルと最適化されたサンプリングにより、出力速度が最大20%向上。
サイト内本文

datasette-agent 0.2a0:エージェントがユーザーに質問可能に、クエリ保存機能も追加

datasette-agent 0.2a0 では、ツールが実行中にユーザーに質問できる機能と、SQLクエリを保存する新しいツールが導入されました。これらの機能は新しいLLMフレームワークによって実現されています。

  • ツールは `context.ask_user()` を使用して、yes/no、多肢選択、自由記述の質問が可能。
  • 未回答の質問はデータベースに保存され、サーバー再起動後も継続可能。
サイト内本文

DiffusionGemma:Googleが公開した高速テキスト生成オープンモデル

Googleは、Apache 2ライセンスのオープンウェイトモデルDiffusionGemmaを公開しました。NVIDIAのNIMクラウドAPIで無料利用可能で、500トークン/秒以上の高速生成を実現します。

  • GoogleがApache 2ライセンスのオープンモデルDiffusionGemmaを公開。
  • NVIDIA NIMクラウドAPIで無料ホスティング。
サイト内本文

OracleクラウドのコミットメントでOpenAIモデルとCodexにアクセス

Oracle Cloudの顧客は、既存のクラウドコミットメントを利用してOpenAIモデルとCodexにアクセスし、エンタープライズセキュリティとガバナンスのもとでAIを構築・展開できます。

  • Oracle CloudがOpenAIモデルとCodexを統合し、エンタープライズAI開発をサポート。
  • 既存のOracle Cloudコミットメントを追加費用なしで使用可能。
サイト内本文

Google AI、DiffusionGemmaを公開:26B MoEオープンモデル、テキスト拡散で最大4倍高速生成

DiffusionGemmaはGoogle DeepMindが開発した実験的なオープンテキスト生成モデルで、標準的な自己回帰デコードの代わりにテキスト拡散を採用し、専用GPU上で最大4倍の生成速度を実現します。26BパラメータのMoEモデル(推論時は3.8Bのみ活性化)で、Gemma 4をベースに構築され、マルチモーダル入力(テキスト、画像、動画)をサポートし、256Kのコンテキストウィンドウ、140以上の言語に対応、Apache 2.0ライセンスで公開されています。

  • DiffusionGemmaは26BパラメータのMoEモデル(3.8B活性化)で、テキスト拡散により並列にテキストを生成します。
  • NVIDIA H100で1000+トークン/秒、RTX 5090で700+トークン/秒を達成し、量子化時は18GB VRAMに収まります。
サイト内本文

Claude Fableが基本的な生物学の質問に答えない

Anthropicが最も強力なAIモデルClaude Fable 5を公開したが、「ミトコンドリアとは何か」などの基本的な生物学の質問に答えることを拒否する。これは生物兵器への悪用を防ぐための安全対策であり、Anthopicは過剰だが安全な展開に必要だと説明している。

  • Claude Fable 5は基本的な生物学の質問を拒否し、旧モデルのOpus 4.8に委ねる。
  • Anthropicは生物兵器リスクを軽減するために意図的に保守的なフィルターを設定した。
サイト内本文

Microsoft、データ保持を理由にClaude Fable 5の社内利用を制限

MicrosoftはAnthropicの新データ保持要件を理由に、従業員によるClaude Fable 5の使用を制限。同モデルはプロンプトと出力を30日間保持し、違反フラグが立った場合は最大2年間保存される。他のClaudeモデルはゼロデータ保持で引き続き利用可能。法務チームが評価中。

  • MicrosoftがClaude Fable 5の社内使用を制限。
  • データ保持期間は30日、違反時は最長2年。
サイト内本文

NVIDIA、Google DeepMindのDiffusionGemmaをローカルAI向けに高速化

Google DeepMindが、高速テキスト生成のための実験的なオープンモデルDiffusionGemmaをリリース。NVIDIAはこれを最適化し、GeForce RTX、RTX PRO、DGX Spark上でさらに高速に動作し、ローカルで最大1000 tokens/secを達成。

  • DiffusionGemmaは、従来の自己回帰モデルとは異なり、1ステップあたり最大256トークンを並列生成。Gemma 4(260億パラメータ、MoE)をベースに、1ステップあたり38億パラメータのみ活性化。最大4倍のパフォーマンス。Apache 2.0ライセンスでオープンソース、クラウド不要でローカル動作。
サイト内本文
ツール

AI絶対主義が私たちの脳を壊している。売り込まれている終末的な未来は必然ではない

人工知能に関するすべての情報は矛盾しており、耳にせざるを得ない。AIは恐ろしく、素晴らしく、世界を壊し、未来を変える。受け入れることが不可欠であり、使用を控えることは道徳的義務だ。AI絶対主義——極端な楽観論と悲観論の両方——が私たちの思考を歪めており、真の未来はそれほど単純ではない。

  • AI絶対主義は極端な楽観論と悲観論の両方を含み、公衆の認識を歪めている
  • AIはすでに経済成長の大きな原動力であり、2025年第4四半期には米国GDP成長の約60%を占めた
サイト内本文

Deezerが他のストリーミングサービス向けAI音楽検出機能を開始

Deezerは、他のストリーミングプラットフォームのプレイリストをスキャンしてAI生成音楽を検出できるようになりました。Deezerは大手ストリーミングサービスの中で初めてAI生成音楽にラベルを付け始め、その技術を他のプラットフォームにも提供しましたが、多くの買い手はいなかったようです。今回、Deezerは直接一般向けに検出ツールを提供します。

  • Deezerが20のストリーミングプラットフォームのプレイリストをスキャンするAI音楽検出機能を開始。
  • DeezerはAI生成音楽にラベルを付けた初の大手サービスだが、他社は自主的なタグ付けシステムを選択。
サイト内本文

BBVA、OpenAIと提携しAIを銀行業務の中核に据える

BBVAはChatGPT Enterpriseを10万人の従業員に展開し、OpenAIと提携して世界中のAI駆動の銀行変革を加速しています。

  • BBVAがChatGPT Enterpriseを10万人の従業員に展開。
  • OpenAIとの戦略的提携でAI変革を加速。
サイト内本文

欧州の信頼できるAIエコシステム構築を支援

OpenAIはEUのAIコンテンツ透明性に関する行動規範を支持し、AI生成コンテンツの理解を助けるための出典基準とツールを推進しています。

  • OpenAIがEUのAI透明性行動規範を支持
  • 出典基準とツールの推進
サイト内本文

PixelForge:写真をゲームアセットに変換

PixelForgeは、写真をアップロードするだけで、認識可能なRPGキャラクターの4方向スプライトパック(4x4シート、16枚の透明PNG、歩行GIF)を生成するAIツールです。GodotやUnityなどのゲームエンジンに対応。一度の支払い5ドルで、アカウントもサブスクリプションも不要。ベルナール・フアン氏が開発し、Product Huntでローンチされました。

  • 写真をアップロードしてスタイライズされたゲームキャラクターを生成
  • 5ドルの一度きりの支払い、アカウントやサブスクリプション不要
サイト内本文

マイクロソフト、AIを熱弁する卒業式スピーカーへのブーイングを理解

全米の大学卒業式でAIを宣伝するスピーカーに学生がブーイングを浴びせる現象が起きている。マイクロソフトの副会長兼社長ブラッド・スミスは長文のブログで、「警鐘」と受け止め、対話を呼びかけた。しかし、内容はブーイングを招いた主張と大差なく、テクノロジー企業への信頼が問われている。

  • 卒業生がAI推進スピーカーにブーイング、社会の不満を反映
  • ブラッド・スミスは「上げ潮」の必要性を説くが、内容は従来と同様
サイト内本文

Google、Lens写真、Search Live録音、翻訳音声をAIトレーニングに保存へ

Googleは、検索サービス履歴という新設定で、Lens、Search Live、音声検索、翻訳で使用した画像、ファイル、音声、動画を保存し、AIモデルの改善などに利用すると発表。ユーザーは設定をオフにできる。

  • Googleが新たな「検索サービス履歴」設定を導入。
  • Lens、Search Live、音声検索、翻訳のメディアを保存。
サイト内本文
政策

AAAIフェロー、ターニャ・バーガー=ウルフ氏インタビュー:生態学、生物多様性、保全のためのAI

本インタビューでは、AAAIフェローに選出されたターニャ・バーガー=ウルフ氏が、AIと生態学の交差点における先駆的な研究、特に生命の樹の基盤モデルBioCLIPの開発、生物多様性モニタリングや保全への応用、そして科学におけるAIの将来について語ります。

  • ターニャ・バーガー=ウルフ教授はイメージオミクス研究所を率い、生態学と保全にAIを応用している。
  • チームは生命の樹の基盤モデルBioCLIPを開発し、種の分類と新たな形質の発見を可能にした。
サイト内本文

Anthropic、画像理解でOpenAIに追いつく

Anthropicは2つの新モデルClaude Mythos 5とClaude Fable 5を発表。コーディング能力は大幅に向上したが、画像理解の進歩は限定的。テストではFable 5とGPT-5.5が昨年のトップモデルを悩ませた多くの画像問題を解決できるものの、幾何学的推論は幼児並みであり、汎用AIへの道のりはまだ遠い。

  • AnthropicがClaude Mythos 5とClaude Fable 5を公開。両者は2ヶ月前のプレビューモデルの派生版。
  • Mythosは特定組織のみ利用可能。Fableは一般公開だが、危険なリクエストは弱いモデルに迂回される。
サイト内本文

AI規制の未来:最も奇妙で不安な仲間たち

The Vergeのニュースレター「Regulator」が、混沌としたワシントンの政治情勢に戻ってきました。ワシントンAIネットワークのガラ、教皇レオ14世のAIに関する回勅、そしてトランプ政権下でのAI規制の予測不可能性を取り上げています。この記事は、AIが有権者の重要な問題になりつつある中、業界が党派政治と中間選挙にどう対応すべきかというジレンマを浮き彫りにしています。

  • 教皇レオ14世のAI回勅『Magnifica Humanitas』は一般の関心を集めたが、ワシントンではほとんど注目されなかった。
  • トランプ大統領のAIに関する大統領令の行き来は、テクノロジー業界の不安定な規制環境を示している。
サイト内本文

機械学習の忘却監査のための新しいフレームワーク

Googleの研究者が、機械学習モデルの忘却とプライバシー保護を監査するための「正則化f-ダイバージェンスカーネル検定」フレームワークを提案。適応的に最適なダイバージェンスを選択し、データ漏洩や忘却の失敗をより感度高く検出でき、必要なサンプル数やチューニングが少ない。

  • 従来の二標本検定は大規模モデルで性能低下、新しいフレームワークはより高感度で適応的。
  • f-ダイバージェンス(カイ二乗、KL、ホッキースティック)を利用し、大域的・局所的なデータシフトを検出。
サイト内本文

Google、YouTubeクリエイターの作品を音楽AIに利用していることを認めず

独立系ミュージシャンのグループがGoogleを提訴し、YouTubeにアップロードした曲がLyria 3モデルの訓練に無断で使用されたと主張。Googleは却下申し立てを行い、利用規約がアップロードコンテンツの使用を広く許可していると主張。GoogleはLyriaにYouTubeアップロードを使用していることを明確に認めていないが、過去の声明からは使用が示唆されている。

  • 独立系ミュージシャンがGoogleを提訴、YouTubeの曲をAI訓練に使用と主張。
  • Googleは利用規約に基づく広範なライセンスを理由に却下を求める。
サイト内本文
研究

天体物理学者がCodexを使ってブラックホールシミュレーションを構築する方法

天体物理学者Chi-kwan ChanがCodexを使ってブラックホールシミュレーションを構築し、極端な物理学の研究やアインシュタインの一般相対性理論の検証に役立てている方法をご紹介します。

  • 天体物理学者Chi-kwan ChanがCodexを利用してブラックホールシミュレーションを構築。
  • シミュレーションは極端な物理学の研究と一般相対性理論の検証に貢献。
サイト内本文
スタートアップ

OpenAIのIPO遅延?アルトマン氏、従業員に「1年以内」の上場見通し

サム・アルトマン氏は従業員に対し、OpenAIのIPOを「1年以内」に期待していると語ったが、2027年までの遅延もあり得る。同氏はこれを自己改善型AIへの慎重さと説明するが、実際の理由はAnthropicの好調な成長と差し迫ったIPOにある可能性がある。

  • アルトマン氏、1年以内のIPOを示唆
  • 2027年への遅延も可能