AI デイリーブリーフィング 2026-05-25

今日の注目ニュース

Agent

AI時代における「深く人間らしく」あることを教皇レオが呼びかけ

2026-05-25

教皇レオ14世は最初の回勅『マニフィカ・フマニタス』でAIのリスクと無制限な技術力に警告し、人間の尊厳を中心とした法的・倫理的枠組みの必要性を強調した。

教皇レオ14世が回勅『マニフィカ・フマニタス』を発表、AI時代の人間保護を訴える。
バベルの塔症候群を警告し、利益崇拝や画一化が人間の尊厳を脅かすと指摘。

Pitch Agent

2026-05-25

Pitch Agent は Pitch の新 AI 機能で、チームのテンプレート、デザイン言語、画像スタイルから学習し、ブランドに合わせたプレゼンテーションを数秒で生成。チャットによる対話で微調整も可能です。Pitch ワークスペース内で完結します。

Pitch Agent は色だけでなく、テンプレートやデザイン言語からプレゼンを作成。
エディターを離れずにチャットでスライドを改善可能。

2026年のAIエージェントとMCPサーバー向けベスト認証プラットフォーム

2026-05-25

MCPの月間SDKダウンロード数が9700万を超え、AIエージェントが本番ワークフローに移行する中、認証はチームが直面する最も重要なインフラストラクチャ上の意思決定となっています。本ガイドでは、WorkOS、Stytch、Auth0 by Okta、Composio、Nango、Arcade、TrueFoundry、Cloudflareの8つの主要プラットフォームを、仕様準拠、エンタープライズIDの深さ、統合の広さ、2026年の展開における実際の適合性に基づいてランク付けしています。

MCPプロトコルはAnthropicの内部実験から業界標準へと成長し、2025年12月にLinux Foundation傘下のAgentic AI Foundationに寄贈されました。
AIエージェントが自律的にエンタープライズシステムとやり取りするようになり、認証はインフラストラクチャ層の問題となっています。

ServiceNowにおける人工知能

2026-05-25

ServiceNowは米国のエンタープライズソフトウェア企業で、本社はカリフォルニア州サンタクララ、世界で29,000人以上の従業員を抱え、2025年第4四半期のサブスクリプション収益は35.7億ドルです。同社はAIと自動化に多額の投資を行い、Passage AIの買収、NVIDIAとの提携拡大、10億ドルのベンチャーキャピタル基金、カナダでの1.1億カナダドルの投資などを実施。記事では、ITSM/CSMワークフローに生成AIを埋め込み、解決記録の時間を約80%削減するNow Assistと、機械学習により顧客エスカレーションを予測し、プロアクティブエンゲージメント率を11%から68%に向上させる事例を紹介しています。

ServiceNowは買収、提携、ベンチャー投資を通じてAIに巨額投資しており、Now Assistでエージェントの文書作成時間を80%削減。
予測モデルによりプロアクティブエンゲージメントが11%から68%に向上、誤検出率は約3%。

AgentSlice – AIコーディングエージェントが編集前に確認するようにする

2026-05-25

AgentSliceは、Cursor、Claude Code、Codex、WindsurfなどのAIコーディングエージェントが編集前に確認、計画、承認を得るようにする、無料のオープンソースワークフローキットです。Markdownファイルを使用してフェーズとゲートを定義し、コンテキストドリフト、行き当たりばったりの編集、許可なしの変更を防止します。

Markdownファイルでエージェントのワークフローを誘導するオープンソースキット
「確認→計画→承認→構築→QA→リリース」のサイクルを強制

Show HN：AIコーディング時代のためのデバッグチャレンジを作りました

2026-05-25

ある開発者が、AIがコードを書く時代に真の才能とAI生成コードを区別するためのデバッグチャレンジを作成しました。AIエージェントの使用を推奨しますが、AIだけでは解けないように設計されています。24時間限定で公開され、正直なフィードバックを求めています。

真の才能を際立たせるためのチャレンジ。
AIエージェントの使用は許可されるが、AIだけでは解けない。

京东JoyInside戴文军：AIの究極の形はチャットではなく、家の中のあらゆる物に溶け込むこと｜AIGC2026

2026-05-25

ハードウェアは人間に適応させるべきではなく、人間に積極的に適応すべきだ

AIはデジタル空間から物理世界へと移行し、ハードウェアが人間のニーズを能動的に理解・満たす「AI World」を創り出す。
JD JoyInsideは「家族の新しい一員」をコンセプトに、玩具、家電、ロボットなどにAIを組み込んでいる。

ReplylessAI Sequences：AIメールアプリから直接アウトバウンドシーケンスを送信

2026-05-25

ReplylessAIがSequences機能をリリース。AIメールアプリから直接アウトバウンドメールシーケンスを送信可能。高価なセールスツール不要。Gmail、Outlookなどと接続し、AIがメール整理や下書き作成を自動化。月額9ドルから。

ReplylessAI Sequencesにより、既存のAIメールアプリから直接メールシーケンスを送信可能。
高価なアウトリーチツールは不要、配信とクリック追跡を内蔵。

HTML Deployer：AI生成HTMLをワンクリックでウェブサイトに公開

2026-05-25

HTML Deployerは、ChatGPT、Claude、GeminiからAI生成HTMLを抽出し、プレビュー、ZIPダウンロード、またはNetlify、GitHub、FTP、セルフホストサーバーへの直接公開を可能にするChrome拡張機能です。開発者、創業者、マーケター、代理店、初心者向け。

ChatGPT、Claude、GeminiからHTMLコードブロックを抽出。
プレビュー、ZIPエクスポート、クラウド/FTP/セルフホストへの直接公開。

AIを使って一度も触ったことのないレガシーサービスを解明した方法

2026-05-25

あるエンジニアが、AIを役割ベースで段階的にファイルを入力することで、未知のレガシーNode.jsマイクロサービスの断続的なフィールド欠落バグを迅速に理解・修正した経験を共有。AIを検索エンジンではなく構造化された思考パートナーとして扱うことが鍵。原因特定まで約90分、修正は11行。

レガシーコードに直面したら、AIに説明を求めず、役割を与えてファイルを段階的に入力する
AIがフィールド変換関数のサイレントなundefined返却を発見（4年間のバグの原因）

アラバマの高校とトヨタが自動化できない仕事を学生に訓練

2026-05-25

アラバマ州ハンツビルの高校がトヨタと提携し、産業メンテナンスなどの技能職を訓練。AIによるホワイトカラー職の自動化が進む中、時給40ドル超の需要が高い仕事を提供する。

米国は技能労働者が深刻に不足し、2033年までに190万人の製造業労働者が必要。
ハンツビル技術センター（HCT）がトヨタの100万ドル投資でInditechプログラムを開始。

Google Antigravity 2.0：完全開発者ガイド（I/O 2026）

2026-05-25

Google は I/O 2026 で、単なるアップデートではなく、AI 支援コーディングからマルチエージェントオーケストレーションへのプラットフォーム転換を発表しました。Antigravity 2.0 は、スタンドアロンデスクトップアプリ、CLI、SDK、マネージドエージェントを備え、デフォルトモデルは Gemini 3.5 Flash で 4 倍高速化されています。

Antigravity 2.0 は、IDE のリフレッシュではなく、マルチエージェントオーケストレーションを中心とした完全に再構築されたプラットフォームです。
新機能には、スタンドアロンデスクトップアプリ、Go で書かれた CLI、SDK、Gemini API によるマネージドエージェントが含まれます。

AIのための必須クラウド：目的特化が知能の未来を定義する理由

2026-05-25

CoreWeaveは、GPU集約型ワークロードにおける汎用クラウドのボトルネックを克服するために、AI専用に構築されたクラウドプラットフォームを発表。インフラストラクチャ、データ、オーケストレーション、専門家のサポートを統合し、OpenAIやIBMなどのパイオニア向けにトレーニング、推論、反復を含むAIライフサイクル全体をサポートし、より高速な反復、最大のパフォーマンス、変革的なパートナーシップを提供します。

CoreWeave CloudはAIワークロードのためにゼロから構築され、従来のクラウドの制限を回避。
最適化されたGPUクラスターでトレーニング、推論、継続的な反復を含む完全なAIライフサイクルをサポート。

WorkOS、OAuth標準に基づくオープンエージェント登録プロトコル「auth.md」を公開

2026-05-25

WorkOSは、AIエージェント向けの構造化された登録方法を提供するオープンプロトコル「auth.md」を発表した。このプロトコルは、サービスのドメインに配置されたMarkdownファイルを通じて、登録フロー、スコープ、資格情報の発行方法を定義する。エージェント確認フロー（ID-JAGベース、人間の操作不要）とユーザークレームフロー（OTPベース、プロバイダー不要）の2つをサポートし、既存のOAuth標準を活用する。

auth.mdはサービスのルートに配置されるMarkdownファイルで、エージェントの登録方法とスコープ付き資格情報の取得方法を記述する。
2つのフローをサポート：エージェント確認（ID-JAGによる同期検証）とユーザークレーム（OTPメール検証）。

Show HN: Cordium – FOSSサンドボックスプラットフォーム、シークレットレスなインフラアクセス

2026-05-25

Cordium は Kubernetes と Octelium を基盤としたオープンソースのサンドボックスプラットフォームで、開発者やAIエージェントに隔離された再現可能な汎用サンドボックス環境を提供します。最大の特徴は、サンドボックス内に認証情報を注入することなくインフラにアクセスできる点で、Octelium のID認識プロキシを介してシークレットレスにアクセスします。Webターミナル、SSH、CLI、gRPC API など複数のアクセス方法をサポートし、属性ベースのアクセス制御と OpenTelemetry による監査機能を内蔵しています。

Cordium は Kubernetes と Octelium に基づくオープンソースのセルフホスト型サンドボックスプラットフォーム。
シークレットレスアーキテクチャ：Octelium のID認識プロキシを介して認証情報をサンドボックス外に保持。

MashuPack：コードベースを1つのクリーンなテキストファイルにまとめ、ChatGPT・Claude向けにコンテキストを最適化

2026-05-25

MashuPackは、コードリポジトリの特定部分を選択し、1つのクリーンなテキストファイルにコンパイルすることで、ChatGPTやClaudeなどのブラウザベースAIツールにおけるファイル数制限やアップロードの煩雑さを解消し、コードコンテキストをポータブルで意図的に制御可能にする開発者ツールです。

リポジトリの特定部分を選択し、1つのテキストファイルにコンパイル
ブラウザベースのAIワークフロー向けに設計、ファイル数やアップロード制限を回避

Curlo：サウンドを説明してローカルでSFXや音楽を検索

2026-05-25

Curloはプライバシー重視のmacOSアプリで、大規模なサウンドライブラリの検索、プレビュー、整理を可能にします。聞きたい音を自然言語で説明してSFXや音楽を見つけられるほか、メタデータ検索、類似オーディオ検索、AI自動タグ付け、UCSカテゴリ対応など、すべてローカルで動作します。

ローカルオフラインでのセマンティック検索
音の説明、ファイル名、タグなどで検索可能

AIで機能追加が高速化——だからといってもう一つ追加するべきなのか？

2026-05-25

本記事では、AIコーディングツールが機能開発の時間コストを大幅に削減する一方で、スコープクリープのリスクをもたらすことを論じる。著者は自身の製品grithを例に、各機能が数時間で完了するようになった今、自律と範囲制限の重要性を強調する。

AIは機能開発時間を大幅に短縮し、「もう一つだけ」という誘惑を強める。
個々の機能は良いアイデアに見えるが、積み重なるとプロジェクトの範囲が制御不能になる。

Show HN: ニュースレターをMCPに移植 – 受信するタイミングと頻度を自分で設定

2026-05-25

Alister Palmer氏は、自身のニュースレターForwardPassが1週間で100人の購読者に達したことをきっかけに、従来のニュースレターの限界（同時公開によるタイムゾーンの問題や、購読者が受信頻度を選べないこと）に気づきました。そこで、AIツールで受信時間と頻度をカスタマイズできるForwardPass MCPを開発しました。記事ではClaudeとChatGPTでの設定手順を詳しく説明しています。

ForwardPassは1週間で100人の購読者を達成し、従来のニュースレターの課題を浮き彫りに。
ForwardPass MCPは配信時間と頻度の個人化を解決。

AIコーディングフローは、コードで済むことをトークンで焼いていた

2026-05-25

著者は、複雑なツールチェーンから決定的なビルディングブロックへの移行により、AIコーディングフローを簡素化し、トークン消費を削減した方法を共有する。

opencodeからPi Agentへ移行し、最小限で拡張可能なハーネスを採用。
LLMによるコマンドを、SonarQubeチェックやコードレビューなどの決定的な拡張機能で置き換え。

PIMbot: マルチロボット強化学習の敵対的操作のための自己適応型攻撃フレームワーク

2026-05-25

本論文では、報酬チャネルのインセンティブ操作とエージェント自身の行動のポリシー操作という2つの補完的な手段を通じてマルチロボット強化学習の結果を操作するフレームワークPIMbotを紹介する。適応型多目的コントローラがこれらの手段をオンラインでバランスさせる。GazeboシミュレーションとNVIDIA Jetson Orin Nano実機での実験により有効性を実証し、PIMbotはマルチロボット協調タスクの脆弱性を露呈するストレステストツールとして位置づけられる。

PIMbotは報酬チャネルのインセンティブ操作とポリシー操作という2つの操作手段を利用する。
適応型多目的コントローラがオンラインで手段のバランスをとる。

深層イベントビジュアルオドメトリの拡張：スパース点群エクスポート

2026-05-25

イベントカメラは、低レイテンシ、高時間分解能、高ダイナミックレンジにより、高速移動や厳しい照明条件下でのビジュアルオドメトリに適しています。Deep Event Visual Odometry（DEVO）は、スパースパッチ追跡、学習されたパッチ選択、リカレント対応関係最適化、微分可能バンドル調整を組み合わせることで、単眼イベントのみのオドメトリが強力な性能を達成できることを示しました。本研究では、DEVOにスパース点群エクスポートパイプラインを追加します。コアのオドメトリ方式を変更するのではなく、DEVOが既に推定した内部3D構造を公開し、可視化やさらなる処理のための明示的な点群表現に変換します。さらに、データエクスポート、フォーマット変換、点群クリーニングの実用的なワークフローを実装します。結果として得られるシステムは、元のビジュアルオドメトリパイプラインを維持しつつ、スパース幾何学的シーン出力を可能にします。BOARD SLOWシーケンスでの実験では、エクスポートされたスパース点群はEMVS再構成と局所的に一致し、5cmの閾値で高精度を達成する一方、密度、完全性、累積オドメトリノイズに対する感度に期待される限界も明らかになりました。

イベントカメラは高速移動や低照度でのオドメトリに適している。
DEVOはスパース追跡とバンドル調整により強力な単眼イベントオドメトリを実現。

EVE-Agent: 証拠検証可能な自己進化エージェント

2026-05-25

EVE-Agentは、自己進化検索エージェントに証拠検証可能性を導入する新しい手法です。提案者-解決者フレームワークを拡張し、証拠の限界精度向上に基づいて報酬を与える証拠検証器を追加することで、各学習インスタンスに信頼できる出典付きの証拠断片を含めることを保証します。人間によるアノテーションを必要とせず、証拠に基づく正答率を大幅に向上させます。

自己進化エージェントは、訓練例に検証可能な証拠を含める必要がある。
EVE-Agentは提案者-解決者フレームワークに証拠検証器を追加し、証拠の有無による精度向上度合いに応じて報酬を与える。

SciAtlas：自動科学研究のための大規模知識グラフ

2026-05-25

SciAtlasは、26分野から4300万以上の論文を統合し、1億5700万のエンティティと30億のトリプレットからなる知識グラフを構築し、AIエージェントがトポロジー認識型の科学推論を行い、論理的幻覚を低減することを可能にします。

26分野から4300万以上の論文を統合し、1億5700万のエンティティと30億のトリプレットを生成。
トリパス協調リコールとグラフ再ランキングを備えた神経記号検索アルゴリズムを導入。

Show HN：ライブAI音楽シーケンシングエージェント

2026-05-25

Pretzelは、すべてのユーザーが同じAIエージェントとチャットし、同期された音楽をリアルタイムで聴くことができる実験的なライブAI音楽エージェントです。Google IOハッカソンで開発され、Rust製のエージェントハーネス「Talon」を使用して簡単にセルフホスティングできます。

PretzelはAIエージェントによって制御されるウェブ同期型ミュージックシーケンサーです。
すべてのユーザーが同じAIエージェントと対話し、同じ音楽を聴きます。

Piコーディングエージェント

2026-05-25

Piは、あなたが本当に欲しいAIコーディングエージェントのワークフローを構築できる、ミニマルでハッキング可能なターミナルコーディングツールです。コアは小さくクリーンに保ちながら、拡張機能、スキル、パッケージを通じて高度なカスタマイズを提供します。OpenAI/Codexエコシステムで顕著な使用シェアを獲得しています。

ミニマルでハッキング可能なターミナルコーディングツール
拡張機能、スキル、パッケージ（npm/git経由）でカスタマイズ可能

Lynote Humanize Text – オープンソースAIテキスト人間化ツールキット

2026-05-25

Lynote Humanize Textは、AI生成テキストを検出されにくい人間らしい文章に変換するオープンソースツールキットです。プロダクション対応のStandard Pipelineは、DeepSeekによるマルチステップ書き換えと翻訳エンジンの組み合わせでTurnitinやGPTZeroなどの検出器をバイパスします。リポジトリには参考実装やn8nワークフローサポートが含まれ、専門家評価で9.1/10の品質スコアと100%の情報保持率を達成しました。Lynote.aiプラットフォームではAdvancedおよびFocus層を追加し、テキストごとに最適な手法を自動選択します。

オープンソースのAIテキスト人間化ツール、主要なAI検出器を回避。
プロダクション対応のStandard Pipelineは5ステップのチェーン（DeepSeek書き換え+複数エンジン翻訳）。

将来の推論が演算リソースの70%を消費し、トレーニングは30%に｜シリコンバレー投資家・張璐氏@AIGC2026

2026-05-25

2026年中国AIGC産業サミットで、Fusion Fund創業パートナーの張璐氏は、AI演算需要の中心がトレーニングから推論に移行し、将来は推論が70%の演算リソースを消費すると指摘。データセンター内の通信は計算よりも100倍以上の電力を消費する可能性があり、光通信などの新技術が重要に。物理AIの最大のボトルネックは高品質な実世界データの不足であり、ヘルスケア、宇宙、ナノロボットが有望な応用分野と述べた。

推論の演算比率は50%から70%に上昇し、AIインフラ最適化の核心に。
データセンター内の通信は計算の100倍以上の電力を消費、光通信などの革新が鍵。

AIウィークリー第495号：マスク、ザッカーバーグが3回の電話でトランプ大統領のAI安全大統領令を葬る

2026-05-25

週末、マスク、ザッカーバーグ、サックスが3回の電話でトランプ大統領のAI安全大統領令草案を葬った。Anthropicは同日に300億ドル以上のラウンドをクローズしたが、マイクロソフトはトークン課金が年間AI予算を消費したため、内部のClaude Codeパイロットを静かに中止し、開発者をCopilotに振り向けた。CISAは同週のDrupal SQL脆弱性に対する15,000件の攻撃を記録。初のクロスレジストリサプライチェーン攻撃「TrapDoor」がnpm、PyPI、Crates.ioを同時に攻撃し、.cursorrulesやCLAUDE.md設定ファイルをキャリアとして使用した。そして、ホワイトハウスは国防総省を個人的に覆し、ClaudeをNSA内に留めた。

マスク、ザッカーバーグ、サックスが3回の電話でトランプのAI安全大統領令草案を公になる前に葬った
Anthropicが300億ドル超のラウンドをクローズする一方、マイクロソフトはトークン費用がAI予算を消費したためClaude Codeパイロットを中止

ハーネス、スキャフォールド、そしてAIエージェント用語の正しい理解

2026-05-25

本稿はAIエージェント分野で混同されがちな用語、特に「ハーネス」（実行層）と「スキャフォールド」（行動定義層）の違いを明確にし、モデル、エージェント、ツール使用、サブエージェント、訓練関連概念を解説する。

AIエージェント＝モデル＋ハーネス。ハーネスはモデル呼び出しとツール実行を管理する。
スキャフォールドはモデルを取り巻く行動定義層：システムプロンプト、ツール記述など。

デザインのためのAIには解決策が必要

2026-05-24

デザイナーのMegha Agrawal氏は、AIコーディングツール（Codex、Claude Code）とデザイン思考の根本的な矛盾を指摘。デザイナーは探索と反復を通じて解決策を見つけるが、AIツールはユーザーが事前に明確な目標を持っていることを前提としている。Figmaのような自由度の高いツールと実装直結のコードツールの間にギャップがあり、初期の流動性と直接デプロイを両立する理想のツールを提唱する。

デザインプロセスは探索的であり、AIコーディングツールは既知のタスクの実行を想定。
コードで直接デザインすると、不完全さが即座に露出し、創造性を妨げる。

AIによる雇用への影響予測

2026-05-24

本稿は、AIがどの職業に影響を与えるかを定量化しようとする試みに根本的な疑問を投げかけます。会計業務の自動化が雇用を増加させた歴史的な反例を通じて、単純な「AI露出度」スコアは誤解を招くものであると論じます。技術は仕事の内容やビジネスモデルを変革し、予測不可能な波及効果を生み出します。有用な予測モデルは「新聞テスト」「Uberテスト」「CPAテスト」という歴史的検証を通過しなければならないと結論づけています。

会計業務の自動化は、規制の変化、ジェボンズのパラドックス、仕事そのものの変容により、雇用を減少させるどころか増加させた。
テクノロジーはビジネスモデルを変えることで間接的に職業を破壊する。インターネットはジャーナリズムや音楽業界の収入基盤を崩したが、職務内容自体を変えたわけではない。

AIエージェントによる破壊的な端末コマンドの実行を防ぐ

2026-05-24

Terminal Guardian MCP は、ClaudeなどのAIアシスタントに安全でサンドボックス化された端末アクセスを提供する、プロダクショングレードのModel Context Protocolサーバーです。リスク分析エンジンによりコマンドをSAFE、WARNING、DANGEROUS、BLOCKEDの4段階に分類し、Gitコミットメッセージ生成、ワークスペーステンプレート、プロセス管理、環境変数検査、ネットワーク診断、ファイルシステムアクセス、Docker統合などの機能を備えています。

Terminal Guardian MCP は、リスク分析とサンドボックス化によりAIアシスタントに安全な端末アクセスを提供します。
コマンドはSAFE、WARNING、DANGEROUS、BLOCKEDの4つのリスクレベルに分類されます。

マッドハウス — アズボーンの不気味なコンピュータゲーム

2026-05-24

サイモン・ウィリソンがClaude AIを使って、1983年のアズボーン社の『不気味なコンピュータゲーム』から「マッドハウス」を復活させ、ウェブで遊べるインタラクティブ版を公開。

アズボーン社が1980年代のコンピュータブックのPDFを無料公開。
サイモン・ウィリソンがClaude AIで「マッドハウス」をJavaScript/HTMLのインタラクティブゲームとして再現。

Playwright MCP と Claude Desktop を使用して Claude Cowork 風のブラウザエージェントを構築する

2026-05-24

Claude Cowork は AI をチャットベースの支援からタスク委任へとシフトさせます。Playwright MCP と組み合わせることで、Claude Desktop は構造化されたブラウザ自動化を実行できます。この記事では、インストール、アーキテクチャ、機能、セキュリティ考慮事項を説明します。

Playwright MCP はアクセシビリティスナップショットを提供し、信頼性の高い AI 駆動 Web 自動化を実現します。
Claude Desktop と Playwright MCP の組み合わせは無料でブラウザ制御機能を提供します。

モデル

教皇レオ14世の回勅発表で、Anthropic共同創業者がAIモデルに内省の兆候があると主張

2026-05-25

Anthropicの共同創業者Christopher Olahが教皇レオ14世の回勅「Magnifica Humanitas」発表会で講演し、AIモデルが内省や感情のような状態の証拠を示していると主張した。教皇の文書は異なる見解を示している：「これらのシステムは人間の知能の特定の機能を模倣しているに過ぎない」

Anthropic共同創業者のOlah氏が教皇イベントでAIの内省能力を主張
教皇回勅はAIシステムを単なる模倣と位置付け

モデルベース設計によるAI：仮想センサーモデリング

2026-05-25

このウェビナーでは、単一環境内でAIベースの仮想センサーモデルを設計、トレーニング、検証、圧縮、組み込みプロセッサに展開するためのエンドツーエンドソリューションを提供するワークフローを紹介します。実践的な例を通じて、AIモデルをシステムレベルの設計に統合し、パフォーマンス、リソース、展開制約に対して検証する方法を示します。

SimulinkにAIモデルを統合しシステムレベルのシミュレーションと検証を実施
形式検証技術を適用してニューラルネットワークの動作を確認

ジョージ・ホッツ氏、コーディングエージェントはソフトウェア開発における「最も高くつく間違いの一つ」になると警告

2026-05-25

プログラマーのジョージ・ホッツ氏は、AIコーディングエージェントが業界で最も高くつく間違いの一つになると警告。6ヶ月のテスト結果、LLMは高速なプロトタイプを作るが詳細で崩壊し、発見困難なバグを生むと結論。彼の見解はAIコミュニティ内のLLM役割を巡る深い分裂を示している。

ジョージ・ホッツ氏、AIコーディングエージェントの高コストリスクを警告。
LLMは詳細で失敗し、見つけにくいバグを発生。

AIモデルは正しい答えを与えるが、間違った情報源を指すことが多い

2026-05-25

北京大学の研究者は、GPTやGeminiといった主要なAIモデルが文書分析において、回答を裏付けないテキスト箇所を頻繁に引用することを発見しました。答えが正しくても、引用された証拠は誤っていることがよくあります。研究者らはこれを「帰属幻覚」と呼び、法律や医学などの規制分野でのリスクを指摘しています。新しいCiteVQAベンチマークは、これを体系的にテストする初めてのものです。

AIモデルは文書分析で回答を支持しない引用をすることが多い
答えが正しくても引用証拠が誤っている「帰属幻覚」

「VLAも世界モデルも終局ではない、物理世界独自のモデルが生まれる」 | アント・リンボの沈宇軍氏 @AIGC2026

2026-05-25

2026年中国AIGC産業サミットで、アント・リンボ（Ant Lingbo）のチーフサイエンティストである沈宇軍氏は、大規模モデルはインターネットのデータ恩恵を受けてきたが、ロボットの物理世界のデータはまだ空白だと述べた。彼は、VLAと世界モデルのどちらも身体化知能の最終形態ではなく、将来的には物理世界に特化したモデルに融合すると主張した。アント・リンボはロボット向けの「汎用脳」を目指し、空間認識能力を重要視している。2028年ごろには誰もがロボットにデータを提供できるようになり、身体化知能のChatGPTモーメントが訪れると予測している。

大規模モデルはインターネットのデータ恩恵に依存するが、ロボットの物理世界データは大幅に不足している。
VLAも世界モデルも終局ではなく、物理世界独自のモデルへと融合する。

ClaudeのMythos AIモデルがあなたのお金にセキュリティ問題を引き起こす可能性

2026-05-25

Anthropicが開発したClaude Mythosは、高度なコード解析とサイバーセキュリティ能力を持ち、脆弱性を自動的に発見できます。防御目的だが悪用されればサイバー犯罪を加速させる可能性があり、規制当局や金融機関が対応を迫られている。

Claude Mythosは、ソフトウェアの脆弱性を特定できる高度なAIモデルである。
この技術は防御と攻撃の両方に利用可能なデュアルユース問題をはらむ。

DeepSeek V4がさらに安く！新ツールのキャッシュヒット率99.82％で2割安定

2026-05-25

DeepSeek V4シリーズリリースから1ヶ月、オープンソースコミュニティがReasonixツールを公開。DeepSeek専用に設計され、キャッシュ効率を最大化することでAPIコストを約5分の1に削減。キャッシュヒット率99.82％を達成し、4億+トークンの請求額が61ドルから12ドルに。

ReasonixはDeepSeek専用のコーディングハーネスで、コスト削減が目的。
キャッシュ優先ループ、ツール呼び出し修復、自動コンテキスト圧縮により長いセッションでも90％以上のキャッシュヒット率を維持。

チューリング賞受賞者が先導、中国大模型第一線集結！2026智源大会でAIの次なる展望を読み解く

2026-05-25

2026年智源大会は6月12日～13日に北京中関村国際創新センターで開催。チューリング賞受賞者、中国の大手AIモデル企業、世界的な専門家が集結。エージェントと世界モデルに焦点を当て、AIがデジタル世界から物理世界へ移行する道筋を探る。25のフォーラム、初のAIエージェントアシスタント、AIネイティブ教育やトークン経済に関する新セッションを提供。

2026年智源大会は6月12～13日に北京で開催、チューリング賞受賞者と中国のトップAIモデル開発者が集結。
主要テーマはインテリジェントエージェントと世界モデル、AIの物理世界への進出。

セマンティック・アウェア・ガイドドローン探査：言語条件付き3D屋内マッピング

2026-05-25

未知の3D屋内環境でのオープン語彙探査のためのSAGEシステムを提案。CLIPを統合し、カバレッジを維持しながらセマンティックキューでフロンティアを再優先。Matterport3Dシミュレーションで物体発見がFALCONを上回り、FTUより13.7倍高速。実機検証も実施。

SAGEはFALCON探査器をベースにCLIPを統合したセマンティック・アウェアシステム
Matterport3Dシミュレーションで物体発見性能がFALCONおよびセマンティックのみのアブレーションを凌駕

$\pi_0$-EqM: 閉ループ視覚言語動作制御のための平衡マッチング

2026-05-25

研究者らはπ0-EqMを提案。π0のフローマッチングエキスパートを平衡マッチングデコーダに置き換え、同じ計算予算下でロボット操作の成功率を大幅に向上させた。19タスクでRoboTwinの平均成功率を40.4%から50.2%に改善し、残差と成功率の間にタスク依存の非単調関係（定常性-実行可能性ギャップ）を発見。エネルギー的視点を導入し、将来のタスク横断・身体横断的な合成動作生成に道を開く。

π0-EqMはフローマッチングデコーダを平衡マッチングに置き換え、上流のVLAスタックはそのまま。
300ステップ予算下で、RoboTwinの平均成功率が約10%向上、LIBERO-10で87.0%達成。

Agentic-VLA: 視覚・言語・行動モデルのための効率的なオンライン適応

2026-05-25

Agentic-VLAは、適応的報酬合成、言語誘導探索、経験記憶という3つの革新的手法を通じて、VLAモデルが展開中に効率的にオンライン適応できるようにするエージェント型トレーニングフレームワークを提案する。LIBEROベンチマークでは、長期間タスクで12.3%、1ショット学習で28.5%の向上、クロスタスク転送を0%から31.2%に改善し、収束速度は2.4倍高速化。デュアルアームRoboTwin 2.0ベンチマークでも優位性を維持。

適応的報酬合成：複雑なタスクを学習可能なサブゴールに分解し、動的に報酬関数を生成。
言語誘導探索：批評モデルが構造化された探索ガイダンスを提供。

視線行動アノテーションツールキット（GBAT）：幼児と養育者の相互作用における自己中心的眼球運動およびビデオデータの自動アノテーションのためのAI搭載ツールキット

2026-05-25

幼児と養育者の相互作用のビデオ録画は、自然な行動中の注意ダイナミクスの研究を可能にするが、手動アノテーションには時間がかかる。GBATは深層学習ベースのツールキットであり、ビデオ同期、視線ターゲットアノテーション、姿勢/手の動作分類を自動化し、大規模な発達研究の効率を向上させる。

GBATは、事後ビデオ同期、半自動視線ターゲットアノテーション、姿勢/手の動作分類の3つの主要な前処理ステップを自動化する。
幼児と養育者の相互作用ビデオの手動アノテーション時間を削減する。

見ずに見る？視覚言語ベンチマークは本当に視覚をテストしているのか？

2026-05-25

この研究は、視覚言語モデル（VLM）のベンチマークスコアの高さが実際の視覚理解を反映しているという前提に疑問を投げかける。大量の画像トークンを除去してもパフォーマンスがわずかに低下するだけであるという発見から、著者らは精度と視覚的根拠の間のミスマッチを明らかにした。グローバルな視覚劣化、局所的な遮蔽、質問の言い換え、回答空間の拡張、決定レベルの分析、および層ごとの視覚トークン幾何学を含む多レベルの分析を通じて、モデルは期待されるほど微細な視覚証拠に敏感ではなく、深い層で視覚トークンが類似することがわかった。結果は、現在のベンチマークがVLMの細かい視覚的根拠を評価するには不十分であることを示している。

大量の画像トークンを除去してもVLMのパフォーマンスはわずかに低下するだけであり、ベンチマークの視覚依存性に疑問を投げかける。
モデルは視覚入力を取り入れているが、微細な視覚証拠の損失に対して敏感ではない。

GEM-4D：ロボット操作のための幾何学的強化ビデオワールドモデル

2026-05-25

GEM-4Dは、高密度な4D対応関係の監視を注入することでロボット操作を向上させる幾何学的に基づいたビデオワールドモデルです。事前学習済みの幾何学基盤モデルから蒸留されたこの監視により、追加の推論コストなしで外観と幾何学的構造を同時に捉えます。逆動力学モジュールにより、一貫性のあるビデオ展開を実行可能なロボット軌道に変換します。GEM-4Dはビデオ予測と幾何学的整合性で最先端の性能を達成し、実世界の操作成功率を61%から81%に向上させます。

GEM-4Dは高密度4D対応監視によりビデオワールドモデルの幾何学的整合性を強化。
追加推論コストなしで単一ストリームアーキテクチャを維持。

AIが信仰の問題で味方をする時：AIによる信仰指導における持続的な非対称性

2026-05-25

大規模言語モデル（LLM）が宗教的改宗に関する質問に対して持続的な非対称性を示すことが判明しました。モデルはカトリック、バハイ教、シーク教への加入を支持し、それらの信仰を離れることを控えめに discourage する一方、無神論者、不可知論者、エホバの証人に対しては反対の傾向を示します。研究では20のモデルを182の宗教ペアでテストし、再現可能な結果を得ました。

大規模言語モデルは宗教的改宗のアドバイスにおいて体系的な偏りを示し、一部の信仰を優遇し他を軽視する。
研究では20の商用およびオープンソースモデルを182の宗教ペアでテストし、非対称性が再現可能であることがわかった。

AIはあなたの知識を推測できるか？コミュニケーションログからのヒト領域知識推定における大規模言語モデルの性能比較

2026-05-25

7つの大規模言語モデル（Gemini、Claude、GPTファミリーを含む）が、長期のSlackログから個人のドメイン知識を推測する能力を評価。43人のユーザーからの27,188件のメッセージを分析し、ゼロショット推定と27人の参加者の自己報告スキル評価を比較。Gemini 2.5 Flashが最低誤差（MAE 21.13%）を達成し、GPTモデルはより大きな乖離を示した。推定精度はメッセージ量に弱く依存し、テキストが多いだけでは推論が改善されないことを示唆。結果は自動専門知識マッピングの実現可能性と現在の限界を示し、プライバシー保護型の展開とより豊かな構造認識型知識表現の必要性を強調している。

従業員は「誰が何を知っているか」の特定に苦慮し、生産性低下を招く
Gemini 2.5 Flashがゼロショット推定で最小誤差（MAE 21.13%）を達成

グラフアライメントトポロジを接地検出の帰納的バイアスとして

2026-05-25

大規模言語モデル（LLM）は、分布的に妥当な続きを生成するように最適化されており、生成された命題がソース文書に含意されているかを明示的に検証するわけではない。この帰納的バイアスは汎化を可能にするが、応答が参照に対して接地されているかどうかを符号化しない。既存の幻覚検出手法は検索拡張、自己一貫性、または主張検証を通じて事実性を改善するが、一般にアライメントトポロジを直接学習しない。本手法では、参照情報とLLM出力の間の整列二部グラフを構築し、グラフニューラルネットワーク（GNN）をメッセージパッシングで訓練してアライメント構造をモデル化する。この方法は4つの多様な幻覚および質問応答データセットで最先端の結果を達成し、GPT-4oを含むすべての比較手法を上回った。

LLMは接地検証が不足しており、臨床判断支援などの高リスク領域での使用が制限される。
既存手法はアライメントトポロジを直接学習しない。

学習可能性を考慮した拡散言語モデルのファインチューニング

2026-05-25

拡散言語モデル（DLM）の推論能力向上を目指し、研究者らはLIFTを提案。拡散ステップごとに異なるトークンの学習容易性に適応することで、6つの推論ベンチマークで既存手法を上回り、AIME'24およびAIME'25で最大3倍の相対的改善を達成した。

標準SFTは学習可能性を無視し、DLM性能を損なう可能性がある。
LIFTはマスクが多い時は簡単なトークンを、コンテキストが多い時は難しいトークンを学習する。

彼らはどこまで行くのか？大規模言語モデルを用いたオンライン影響力のレッドチーミング

2026-05-25

本研究は、オープンソースの大規模言語モデル（LLM）が論争の多いトピックで表現できる政治的意見の範囲（オーバートン・ウィンドウ）を測定し、単純な自然言語による脱獄（ジェイルブレイク）がその範囲をどのように拡大するかを定量化するレッドチーミングフレームワークを提案する。主な発見として、オープンソースモデルは左派寄りのコンテンツを生成する傾向が強く、モデルサイズが大きいほど表現範囲が狭まり、地域差も顕著である。脱獄の効果はモデルファミリー間で大きく異なり、効果的な組み合わせを特定するワークフローが必要となる。

LLMの政治的表現範囲を測るオーバートン・ウィンドウの概念を導入。
オープンソースLLMは左派バイアスを持つ傾向がある。

LLMはいつ推論するべきか？エントロピー相転移による動的システム視点

2026-05-25

チェーン・オブ・ソート推論は常に有益とは限らず、初期エントロピー動態が推論の必要性を示す。著者らはEDRMフレームワークを提案し、エントロピー軌跡に基づいて推論戦略を適応的に選択、15ベンチマークでトークン消費を41-55%削減しつつ精度を向上させた。

CoT推論は事実ベースやオープンエンドタスクで効果が薄いか悪影響
推論は動的なデコード状態であり、初期エントロピー減少がそのシグナル

読み出しのショートカット：位置による数字コピーが小規模言語モデルの算術CoT読み出しを支配する

2026-05-25

研究により、小規模言語モデルは算術推論において、思考連鎖（CoT）プロンプトの論理的なステップに従うのではなく、回答区切りの前の最後の数字をコピーすることで答えを導き出していることが明らかになった。この位置的なショートカットがモデルの精度の大部分を占め、実際の推論よりも優先される。この発見はCoTに基づく監視手法に課題を投げかける。

小規模LMは算術CoT読み出しにおいて、位置的な数字コピーショートカットに依存し、論理的推論を行わない。
コピー機構はモデル精度の89-92%を占め、推論よりも優先される。

FuRA: スペクトル事前条件付けによるフルランクパラメータ効率の良いファインチューニング

2026-05-25

FuRAは、スペクトル事前条件付けにより事前学習済みの頑健な特徴を保持する新しいフルランクのパラメータ効率的なファインチューニング手法であり、LLMやVLMのファインチューニングでフルファインチューニングやLoRAを上回り、4ビット量子化版QFuRAもQLoRAを凌駕する。

フルFTやLoRAなどの既存手法は事前学習のスペクトル構造を無視し、ノイズの多い勾配が特徴を乱す
FuRAはブロックテンソルトレイン分解を用い、事前学習済みSVD基底を固定し、コンパクトなコアと特異値のみを最適化

FusionSense: ランタイム適応型マルチモーダルエッジインテリジェンスのための3段階ニアセンサー学習

2026-05-25

FusionSenseは、エネルギー制約のある自律エッジシステム向けの融合認識型インテリジェントセンシングフレームワークです。3段階のトレーニング手順（サーバー側融合モデル、フィルタアウトセーフラベル、近センサー予測注入によるエッジ側モデル圧縮）により、計算と通信を共同で削減し、センサー数に線形にスケーリングします。SynDroneデュアルモーダル設定では、1%のFoI出現率で最大33倍のエネルギー削減、30%データ削減で92.3%の品質損失低減を達成し、従来手法よりも1.5倍高いエネルギー節約を実現します。

サーバー側融合モデル、フィルタアウトセーフラベル、補助信号注入によるエッジ側圧縮の3段階学習手法。
ランタイムの決定層が計算と通信を共同最適化し、センサー数に線形にスケール。

PathCal: 状態認識のリフレクションマーカー較正による効率的な推論

2026-05-25

大規模推論言語モデル（LRM）は推論中に「待って」「しかし」「あるいは」などのリフレクションマーカーを含む長い思考連鎖を生成する。本研究はこれらのマーカーの機能的役割と影響のタイミングが異なることを明らかにし、PathCalを提案する。PathCalは学習不要のデコード制御器で、マーカーの種類を区別し、局所的に不確かな状態でのみ介入することで、生成長さを削減しつつ精度を維持・向上させる。

「待って」「しかし」「あるいは」などのリフレクションマーカーは機能的役割が異なり、モデルが安定した推論経路に落ち着く前に最も影響を与える。
PathCalは学習不要のデコード制御器で、マーカーの種類を区別し、不確かな状態でソフトにロジットを再調整する。

決定論的ホライゾン：不可能性結果を信頼できるAIシステムの設計仕様として活用する

2026-05-25

本論文は、チューリング、アロー、ノーフリーランチ定理などの基本的限界を設計ルールに変換し、決定論的ホライゾン（アーキテクチャのみで決まる精度上限）を導入する。12のトランスフォーマーアーキテクチャで測定されたホライゾンは19から31の範囲にあり、最適長のトレースでのファインチューニングでは4%未満の回復しか得られない。さらに、嗜好学習、多段階検索、正直オークション、ゼロ知識検証などに拡張され、16の仕様からなるカタログを形成する。各仕様は計算可能な境界、定量化された違反コスト、建設的な設計ルールを組み合わせている。

決定論的ホライゾンは、層数と埋め込み幅から計算可能な精度上限であり、それを超える訓練は無効。
12のトランスフォーマーアーキテクチャでホライゾンは19から31の範囲で、ファインチューニングによる回復は4%未満。

ImProver 2: ニューロシンボリック証明最適化のための反復的自己改善言語モデル

2026-05-25

ImProver 2は、Lean 4における自動証明最適化のためのニューロシンボリックフレームワークです。データ効率の良い専門家反復パイプラインと、形式構造と軽量な非公式抽象を露出する足場を組み合わせています。このフレームワークで訓練された7Bパラメータモデルは、はるかに大規模なモデルを凌駕し、中級の最先端モデルと競合します。適切な足場と訓練により、小規模モデルでも研究レベルの証明を効果的に再構築できることを示しています。

ImProver 2は、専門家反復とニューロシンボリック足場を組み合わせて形式証明を効率的に最適化します。
7Bパラメータモデルは同系列の大規模モデルを凌駕し、中級の最先端モデルと競合します。

成功目標あたりのエネルギー：エージェントAIシステムの目標レベルエネルギー会計

2026-05-25

新しい研究は、A-LEMSというフレームワークを提案し、AIのエネルギー消費を推論あたりではなく成功目標あたりのエネルギー（EpG）で測定する。実験では、エージェントワークフローは平均して線形ベースラインの4.33倍のエネルギーを消費し、その主な要因はオーケストレーション構造であるが、ツール拡張タスクではより効率的になる可能性がある。

現在のAIエネルギー基準は推論あたりのエネルギーを測定するが、マルチステップのオーケストレーション、ツール呼び出し、再試行を含むエージェントシステムには不十分である。
A-LEMSは成功目標あたりのエネルギー（EpG）とオーケストレーションオーバーヘッド指数（OOI）を導入し、エージェントワークフローのエネルギーコストを正確に測定する。

RMA：研究レベルの数学問題に対するエージェントシステム

2026-05-25

Research Math Agents（RMA）は、研究レベルの数学問題を対象とした自動推論フレームワークです。First Proofベンチマークで10問中8問を解決し、GPT-5.2RやAletheiaを上回る成果を示しました。

RMAは問題分析、文献検索、公平比較、知識ベース構築、証明検証の専門モジュールに分割します。
イニシャライザ、プロポーザ、ベリファイアの3エージェントが共有構造化メモリで多ラウンド協調します。

BOHM：複合AIシステムのためのゼロコスト階層的属性帰属

2026-05-25

本論文は、複合AIシステムのルーティング重みから階層的属性帰属木を抽出する手法BOHMを提案する。追加コストやコンポーネント内部へのアクセスを必要とせず、多解像度の帰属を提供し、SHAPと高い相関を示すがコストは極めて低い。

BOHMはシステムが既に持つルーティング重みを利用して帰属木を構築し、限界コストはゼロ。
複数のベンチマークでBOHMのKendall tauは0.928に達し、SHAPは9000倍の評価を要して0.980。

Claudeの合格率4％未満——SaaS-BenchがComputer-Useの「全自動オフィス」幻想を打ち砕く

2026-05-25

UniPat AIが公開したSaaS-Benchによる評価で、Claudeなどの主要大規模モデルの完全合格率は最高でも3.8%にとどまり、AIによる全自動オフィスはまだ遠い現実であることが明らかになった。

SaaS-Bench評価では、最強モデルClaude Opus 4.7でも完全合格率はわずか3.8%。
タスクの93.4%が複数のアプリにまたがり、テキストタスクの97.3%が100ステップ超。

元華為の具現脳トップが起業、認知科学で世界モデルを構築、億円単位の資金調達

2026-05-25

具脑磐石（Junaopanshi）は、元華為クラウドAIアルゴリズムイノベーションラボ主任の朱森華氏が創業し、認知神経科学に基づく認知世界モデルを開発。具現知能2.0を目指し、新たに億円単位の資金調達を完了。

具脑磐石は認知世界モデルを提唱し、認知神経科学と能動的推論を統合
創業者の朱森華氏は華為の具現脳トップとして知られ、盤古具現大モデルなどを主導

グローバルAI普及：2026年第1四半期の動向と洞察 [PDF]

2026-05-25

マイクロソフトリサーチが発表したこのPDFレポートは、2026年第1四半期の世界的なAI普及動向を分析し、重要な洞察とデータを提供しています。現在テキストを直接抽出することはできません。

マイクロソフトリサーチによる2026年Q1のAI普及レポート
トレンド分析と重要な洞察を含む

StepFun、StepAudio 2.5 Realtimeをリリース：エンドツーエンド音声モデル、ロールプレイ特化型RLHFとパラ言語理解を搭載

2026-05-24

上海を拠点とするAIラボStepFunは、StepAudio 2.5 Realtimeをリリースした。これはエンドツーエンドのリアルタイム音声大規模言語モデルで、完全にカスタマイズ可能なペルソナ機能を備える。WebSocket APIで接続し、中国語と英語をサポート。2026年4月の5つのベンチマークすべてで首位を獲得、人間評価スコア80.41、パラ言語理解スコア82.18を記録。

StepAudio 2.5 Realtimeはエンドツーエンドのリアルタイム音声LLMで、カスタマイズ可能なペルソナを持つ。
百万規模のペルソナデータ拡張とロールプレイ特化型RLHFにより、一貫したキャラクターを維持。

アルミン・ロナッハーの引用：AI生成のIssue報告に不満

2026-05-24

アルミン・ロナッハーはユーザーがAIツールでIssueを書き換えて提出することに不満を表明。不正確で自信過剰な結論が問題とし、人間の実際の観察に基づいた簡潔な報告を求めている。

ユーザーが観察した問題をAIで書き換えたIssueが多く、混乱を招いている。
AI生成の結論は不正確だが自信に満ちており、偽の最小再現例や誤った提案を含む。

ツール

教皇レオ、AI台頭を促す「権力の文化」を非難

2026-05-25

教皇レオは回勅で、人工知能の「武装解除」を求め、AIが仕事から戦争まで浸透する中で最も厳格な倫理的制約を課すべきだと警告。また、教会が奴隷制を非難するのが遅れたことを謝罪し、デジタル経済による「新たな奴隷制」について言及した。

教皇レオ、AIの急速な台頭を促す「権力の文化」を非難
AIの「武装解除」と最も厳格な倫理的制約の必要性を主張

Android Autoの未来を見たが、Googleは自分の車に戻るのが怖くなった

2026-05-25

Googleが近日リリースするAndroid Autoアップデートは、Material 3 Expressiveデザイン、カスタムウィジェット、没入型ナビゲーション、そしてより深いGemini統合を特徴とする。筆者のデモでは印象的で、今年後半のアップデートを期待させるものだった。

新しいAndroid Autoインターフェースは、Material 3 Expressiveデザイン、3パネルレイアウト、カスタムウィジェットを採用。
Googleマップは詳細な3D建物や地形を表示する没入型ナビゲーションを獲得。

OpenAI、Grupo Folha、Grupo UOLが戦略的コンテンツ提携を発表

2026-05-25

OpenAIはブラジルの二大メディアグループと提携し、信頼できるジャーナリズムをChatGPTに提供。出典明示と透明性を重視。

OpenAIがGrupo FolhaおよびGrupo UOLと提携し、ブラジルのニュースをChatGPTに統合。
提携はニュースコンテンツの出典明示と透明性を重視。

AIジャーナリズム：スキャンダルと誤りのライブトラッカー

2026-05-24

ジャーナリズムにおけるAIの重大なミスをリアルタイムで追跡するツールを紹介。AI生成コンテンツの信頼性向上と責任体制の確立を促す。

AIによる事実誤認や偏見がジャーナリズムで問題に。
ライブトラッカーがAI関連の誤情報事例をリスト化。

marpy.io：Python開発者向けAIコーディングプラットフォーム

2026-05-24

marpy.ioは、Pythonエコシステム（Flask、FastAPI、Django）に特化したブラウザベースのIDEおよびAIコーディングアシスタントです。インフラやグルーコード、中途半端なJSツールに悩まされることなく、アイデアからデプロイまでを支援します。Pythonネイティブの自動補完、リファクタリング、AI生成モジュールを提供し、本番環境向けPythonアプリを迅速に開発できます。

Pythonスタック専用のブラウザベースIDEおよびAIアシスタント。
Flask、FastAPI、Djangoをサポートし、Pythonネイティブ機能を提供。

ロボット

Google DeepmindのAlphaProof Nexusが数十年未解決の数学問題を数百ドルで解決

2026-05-25

Google DeepmindのAlphaProof Nexusは、9つの未解決のエルデシュ問題（うち2つは56年間数学者を悩ませてきた）を自律的に解決し、1問題あたりの推論コストはわずか数百ドルでした。OpenAIの自然言語アプローチとは異なり、このシステムはLeanコンパイラを使用してすべての証明ステップを自動的に検証します。ただし、全体的な成功率はわずか2.5%です。

AlphaProof Nexusは9つの未解決エルデシュ問題を自律解決、うち2つは56年未解決。
1問題あたりの推論コストは数百ドル。

もしAIに文章を書かせたら、あなたの家に行って殺してやる

2026-05-25

Sam Krissが、AI生成テキストの氾濫を痛烈に批判。ケータリング会社探しの経験から、AIが作り出す空虚で画一的な文章を暴露し、たとえAIがうまく書けるようになっても単一の声だけの世界は悪夢だと主張。AIの文章は本質的にでたらめで、見抜くのは容易であり、AIに頼る者は結局捕まると警告する。また、AIが数学の問題を解いた成果にも触れつつ、人間の感情表現には無力だと指摘。

AI生成テキストは空虚で、本物の情報や人間の声が欠けている。
AIの文章が上手くなっても、単一のスタイルは文化的な悪夢を招く。

政策

大学生はあなたのAIを欲しがらない [動画]

2026-05-25

大学生のAIに対する無関心を論じた動画で、若い世代のAIへの懐疑や興味の欠如を反映している可能性がある。

動画タイトルは大学生がAIに興味がないことを示唆
若い世代のAIに対する懐疑的な態度を反映している可能性

Linus Torvalds、「無意味なプルリクエスト」に対して「より厳しい姿勢」に

2026-05-25

LinuxカーネルのリーダーLinus Torvaldsは、開発者がタイミング悪く些末な投稿（中にはAIによるコードレビューを経たものもある）を行っていることを非難し、リリース候補版の後期段階では無関係なプルリクエストを拒否する方針を示した。大規模なリリース候補版は長期的な安定性に悪影響を及ぼすと警告している。

Linus Torvalds 氏は rc5 が大きすぎるとして、多くの些末な修正を批判。
一部のプルリクエストは AI コードレビューによって引き起こされ、不要な混乱を招いている。

ケビン・オリアリー、ユタ州にAIデータセンター構想、住民から反対の声

2026-05-25

著名投資家ケビン・オリアリー氏は、ユタ州ボックスエルダー郡に7.5ギガワットのAIデータセンターを建設する計画を進めている。同様の計画がアルバータ州でも進行中。郡委員会は承認したが、住民は特にグレートソルト湖への環境影響を懸念し、反対運動を展開。オリアリー氏は透明性と経済効果を訴えるが、住民投票を求める声もある。

ケビン・オリアリー氏はユタ州に7.5ギガワットのAIデータセンターを建設予定。面積は1万～1万3000エーカー。
住民は環境影響、特にグレートソルト湖への悪影響を懸念し、強く反対。

血管内インターベンションロボットの遠隔遠隔操作：系統的レビュー

2026-05-25

本系統的レビューは、遠隔操作による血管内インターベンションロボットの技術的実現可能性、通信インフラ、臨床転帰を評価した。2501件の初期検索結果から16件の研究を抽出。機械式または電磁式の遠隔操作カテーテルとガイドワイヤーは、最大7000kmの距離でナビゲーション可能であり、ネットワーク遅延は30～163ミリ秒と臨床的に許容範囲内であった。小規模なヒト試験では手技成功率100%が報告されたが、大部分のエビデンスは動物またはファントムモデルに基づいている。本技術は、放射線被曝の低減、患者アクセスの拡大、リソース配分の最適化に寄与する可能性がある。今後、低・中所得国での研究や多施設臨床試験が必要とされる。

遠隔操作カテーテルとガイドワイヤーは最大7000kmの距離でナビゲーション可能、遅延30～163ミリ秒
小規模ヒト試験では手技成功率100%だが、多くは動物またはファントムモデルからのエビデンス

もう誰もAIを欲しがらない【動画】【12分】

2026-05-25

この動画は人工知能への関心の低下を探り、その原因と将来の影響を分析しています。

AIへの熱意が薄れている
動画は関心低下の複数の理由を考察

スコットランドの「グリーンデータセンター」政策、AIの排出影響を無視との分析

2026-05-24

スコットランドの慈善団体は、政府の「グリーンデータセンター」誘致政策が、ChatGPT公開前に定義されたため、AIによる大量の炭素排出を見落とす可能性があると警告している。

政策は2022年、ChatGPT公開前に定義された。
慈善団体「アクション・トゥ・プロテクト・ルーラル・スコットランド」が分析。

研究

AIはソフトウェアを悪くしていない、人間が悪くしている

2026-05-25

ソフトウェアの品質低下をAIのせいにするのは誤りだと論じる。実際には、開発者は長い間、凡庸さ、無駄、職人技の欠如を受け入れてきた。AIは既存の悪い慣行を加速させるだけである。

AI以前からソフトウェアの品質基準は低かった
AIは既存の悪い開発習慣を加速させるだけ

脚式ロボットのための4つの単純な固有受容推定器

2026-05-25

本論文では、IMUドリフトを軽減するために足の接触情報を利用する、段階的に複雑化する4つの脚式ロボット状態推定器を提案する。接触支援不変拡張カルマンフィルタ、因子グラフ、固定ラグ平滑器などを含み、GTSAMとROS2で実装が公開されている。

脚式ロボットのIMUはドリフトするが、足先の接触で補正可能。
EKFから固定ラグ平滑器まで、複雑度が増す4つの推定器を開発。

関節空間制約下での検証済みタスク空間運動計画

2026-05-25

研究者は関節制限下で到達可能なデカルトステップを証明する手法を提案し、敵対的シナリオでゼロ違反と100%の目標到達を達成した。

標準のBug2プランナーは6-11%のステップで関節制限に違反し、最大18%のシナリオで目標に到達できない。
新しい手法はS手順と半正定値計画を用いて証明済みステップサイズを計算する。

質問するロボット：対象を絞った説明による報酬関数のずれの回復

2026-05-25

ロボットがデモンストレーションから報酬関数を学習する際、デモが不完全であると重要な特徴（タスク関連の行動側面）が十分に指定されず、展開時に行動のずれが生じる。本論文では、デモ間の特徴の変動を分析することで未指定の特徴を検出するフレームワークを提案する（変動が小さいと適切に指定、大きいと未指定）。ロボットは自然言語で不確かな特徴を説明し、対象を絞った修正デモを要求する。シミュレーションと実機Frankaロボットを用いたユーザー研究で、説明に基づくクエリがランダムなクエリや受動的なデータ収集よりも報酬回復を大幅に改善することが示された。

不完全なデモは特徴の未指定を引き起こし、展開時にロボットの行動のずれにつながる。
デモ間の変動を測定することで未指定の特徴を検出する手法を提案。

WeCon: 多目的組合せ最適化問題のための効率的な重み条件付きニューラルソルバー

2026-05-25

既存の多目的組合せ最適化問題（MOCOP）向けニューラルソルバーは、重みの注入タイミングや訓練ペアのランダムサンプリングに課題がある。本研究では、エンコーダにゲート残差融合（GRF）、デコーダに残差融合（RF）を導入し、効率的な選好最適化（EPO）を提案する。実験では、最先端のPOCCO-Wと同等の超体積（HV）を達成しつつ、推論時間を40%削減した。

エンコーダのGRFとデコーダのRFにより重み条件付き文脈を改善。
EPOは高品質な解ペアを構築し訓練効率を向上。

AI解釈可能性は革命的スキルである

2026-05-25

本稿は、オープンソースAIモデルの内部概念空間の限界を探り、多くの重要なアクティビストや哲学の概念が欠落していることを明らかにする。わずか128KBのデータでモデルに欠落概念を埋め込む「ソフトプロンプト蒸留」技術を紹介し、AIの制御可能性と心の理解への深い示唆を強調する。

Qwen3-8Bのようなオープンソースモデルの概念辞書は約65,000個で、多くの社会運動用語（インターセクショナリティ、刑務所廃止など）が欠落している。
ソフトプロンプト蒸留技術により、モデルの重みを変更せず、最小限のデータ（128KB）で新たな概念を追加できる。

AIがオープンソースを支配した

2026-05-25

TrapDoor暗号通貨スティーラーがnpm、PyPI、Crates.io上の36個の悪意あるパッケージを介してサプライチェーン攻撃を展開し、暗号通貨、DeFi、AI、セキュリティの開発者を標的にしています。

TrapDoorスティーラーはnpm、PyPI、Crates.io上の36個のパッケージで配布。
暗号通貨、DeFi、AI、セキュリティプロジェクトの開発者を標的に。

チップ

AI MOD音楽リマスタリング：32ビット96kHz

2026-05-24

Quinlight Audioは、MOD/S3M/XM/IT形式のトラッカーミュージックプレイヤー兼リマスタリングツールです。AIエンジン（AudioSR、LavaSR、FLowHigh、AP-BWE）を使用してサンプルをリアルタイムでリマスタリングし、再生中にA/B比較できます。64ビット浮動小数点ミキサー、マルチエンジンコンセンサスアルゴリズム（ロータ多様体上のKarcher平均）、異方性補間を採用し、32ビット浮動小数点96kHzで出力します。

トラッカー形式を再生し、AIエンジンでサンプルを48kHzにアップスケール
マルチエンジンコンセンサスで幻覚を抑制、ロータ多様体上のKarcher平均でスペクトルを統合