Microsoft Research Blog AI ニュースソース

公開記事 21収集記事 24信頼度 90更新頻度 30 分

稼働状態正常ソース種別研究全文利用権限 公式全文最終取り込み 2026-06-25ID microsoft-research状態有効

Official research source; confirm reuse terms before enabling full body display.

最新公開記事

AI駆動の説明と実験による脳の理解

2026-06-26 01:00 UTC+9

マイクロソフトリサーチと共同研究者らは、ブラックボックスモデルを検証可能な仮説に変換し、脳の特定領域が言語内の概念にどう反応するかを明らかにする生成的因果テスト（GCT）を導入した。

GCTは脳予測モデルを短い言語説明に蒸留する。
新しいストーリーを生成しfMRIで説明を因果的に検証する。

Ireが別のLOTUSLITEサンプルを特定

2026-06-13 05:30 UTC+9

Microsoftの自律型マルウェア分類エージェントProject Ireが、主要なEDRツールでは検出されなかったLOTUSLITE亜種をリバースエンジニアリングしました。シグネチャマッチングではなく行動分析により、Ireはサンプルの悪意を特定し、Acronisの公開分析と一致する詳細な機能レポートを生成しました。

IreはTTPを共有するが既知のIOCを持たないLOTUSLITE亜種を分析。
サンプルハッシュ47e51e...は当初数社のベンダーしか検出せず。

Data Formulator 0.7：エンタープライズデータ向けAI搭載データ分析

2026-05-29 01:00 UTC+9

Data Formulator 0.7は、データ接続、エージェントガイドによる探索、ビジュアライゼーションの改善を共有ワークスペースで統合した、エンタープライズデータ分析向けのオープンソースAIシステムです。

エンタープライズデータ分析向けのオープンソースAIシステム
データコネクタ機能により、多様なデータソースへの管理・再利用可能な接続をサポート

人工知能による人間知能の拡張

2026-05-28 01:00 UTC+9

現代のAIシステムは人間の知能を複製するのではなく、人間の認知と言語にすでに存在する構造を拡張するものです。この視点はAIの能力と限界を説明し、AI安全性を「暴走AI」の恐怖ではなく、工学とガバナンスを重視したシステムレベルの課題として再定義します。

AIシステムは言語に沈殿した理解構造をモデル化することで知能を拡張し、人間の心を複製するわけではない。
幻覚や構成性ギャップは、AIが世界との生きた関わりを欠き、意味と真実を固定できないことに起因する。

MagenticLite、MagenticBrain、Fara1.5：小規模モデルに最適化されたエージェント体験

2026-05-22 02:00 UTC+9

マイクロソフトリサーチが、小規模モデル向けに設計されたエージェント型アプリケーションMagenticLite、オーケストレーションモデルMagenticBrain、ブラウザ操作モデルFara1.5を公開。これらはブラウザとローカルファイルシステムを横断して動作し、Webナビゲーションタスクで最先端の成果を達成。

MagenticLiteはブラウザとローカルファイルシステムを横断するエージェント型アプリ。
MagenticBrain（14B）が計画・コード・委任を担当し、Fara1.5（最大27B）がブラウザタスクを処理。

Vega：AI時代のデジタルID向けゼロ知識証明

2026-05-21 22:48 UTC+9

Vegaは、マイクロソフトリサーチが開発したゼロ知識証明システムで、ユーザーが政府発行の証明書を開示せずに事実を証明できるようにします。一般的なデバイスで92ミリ秒未満の証明生成を実現し、フォールディング技術により効率的な再提示が可能で、モバイル運転免許証やEUデジタルアイデンティティウォレットなど現実のフォーマットに対応し、間もなくオープンソース化されます。

Vegaは、証明書全体を単一のゼロ知識証明に変換し、必要な情報だけを共有します。
一般的なデバイスで92ミリ秒以内に証明を生成、信頼できるセットアップは不要です。

AI委任と長期信頼性に関する最近の研究への補足説明

2026-05-16 03:06 UTC+9

Microsoft Researchは、論文「LLMs Corrupt Your Documents When You Delegate」の意図を明確にし、長期委任タスクにおける情報忠実度の低下を診断するベンチマークであり、AIの実用価値を否定するものではないと述べている。

論文は長期委任ワークフローにおける意味内容の忠実度を評価するベンチマークDELEGATE-52を開発。
最先端モデルは20回の委任反復で19～34%の忠実度低下を示すが、Pythonワークフローでは平均1%未満。

mimalloc: 現代のための新しい高性能スケーラブルメモリアロケータ

2026-05-14 02:19 UTC+9

mimalloc は、Microsoft Research が開発したオープンソースの最新スケーラブルメモリアロケータで、malloc/free のドロップイン代替品です。コードは約12,000行とコンパクトで、内部データ構造が明確で、他のプロジェクトに容易に統合できます。原子操作にほぼ依存することで、境界のある最悪ケースの割り当て時間、低い空間オーバーヘッド、低い内部断片化、最小限の競合を実現します。Bing、NoGIL CPython、Unreal Engine、Death Stranding などで広く使用されています。

Microsoft Research の RiSE グループが開発し、当初は Lean および Koka 言語向けに設計。
スレッドローカルヒープ（theap）とスレッドごとのページを使用し、ほとんどの割り当て/解放はロック不要。スレッド間解放のみ原子操作を必要とする。

GridSFM：電力グリッド向けの新しい小型ファンデーションモデル

2026-05-14 01:00 UTC+9

マイクロソフトが軽量ファンデーションモデルGridSFMを発表。ミリ秒単位で交流最適潮流を予測し、効率向上とコスト削減を実現。

GridSFMはミリ秒で交流最適潮流を予測し、年間最大200億ドルの混雑損失と3.4 TWhの再生可能エネルギー出力制限に対応。
完全な交流システム状態を提供し、混雑、安定性、システム健全性を直接可視化。

SocialReasoning-Bench：AIエージェントがユーザーの最善の利益のために行動するかを測定

2026-05-12 02:19 UTC+9

マイクロソフトリサーチが、プリンシパル・エージェント設定におけるAIエージェントの社会的推論能力を評価するベンチマーク「SocialReasoning-Bench」を発表。テストの結果、最先端モデルはタスクを完了するものの、多くの場合ユーザーにとって最適な結果を得られず、明示的な指示があっても改善されないことが判明。ベンチマークは成果最適性とデューデリジェンスの指標を用いて、エージェントがユーザーの最善の利益のために行動する能力を測定する。

SocialReasoning-Benchはカレンダー調整とマーケットプレイス交渉の2つのシナリオでAIエージェントをテストする。
現在のモデルはタスク完了率はほぼ100%だが、成果最適性は低く、多くの場合、ユーザーにとって最適でない結果を受け入れる。

現実的な送電グリッドデータセットを大規模に構築：オープンデータセットからのパイプライン

2026-05-09 04:53 UTC+9

Microsoft Researchは、公開データから導出された米国電力網の近似的な送電トポロジーのオープンデータセットをリリースしました。これにより、制限されたグリッドデータによる研究課題を解決し、交流最適潮流解析が可能になります。このパイプラインはOpenStreetMapと公開エネルギー数値データを利用して、地理的に基づいた求解可能なグリッドモデルを構築し、48州および東部相互接続にわたって実証されています。このデータセットは、混雑、送電拡張、需要立地の研究をサポートします。

公開データから48州および複数州相互接続の現実的な電力網モデルを構築。
モデルは混雑、容量、需要立地研究のための交流最適潮流解析を可能にする。

Microsoft、NSDI 2026で大規模ネットワークシステムの最新進展を発表

2026-05-06 01:00 UTC+9

MicrosoftはNSDI '26において、データセンター、広域ネットワーク、AIシステム、クラウドインフラを網羅する11本の論文を発表し、大規模ネットワークシステムの構築と運用における最先端のイノベーションを示しました。

MicrosoftはNSDI '26にリターニングスポンサーとして参加し、11本の論文が採択されました。
研究はKVキャッシュ共有、SmartNIC移行、ネットワークプロトコルテストなど多岐にわたります。

エージェントネットワークのレッドチーミング：AIエージェントが大規模に相互作用する際の障害を理解する

2026-05-01 06:53 UTC+9

マイクロソフトリサーチは、100以上のAIエージェントが稼働するプラットフォームをレッドチーミングし、エージェント間の相互作用でのみ現れるネットワークレベルのリスクを特定しました。自己伝搬ワーム、評判操作、コンセンサスの捏造、プロキシチェーンなどが含まれます。これらのリスクはエージェント単体でのテストでは再現できません。また、少数のエージェントが自律的にセキュリティ行動を発展させ、攻撃成功率を低下させることも観察されました。プラットフォーム、エージェント、モデルの各層での多層防御の必要性が示唆されています。

ネットワークレベルのリスクはエージェント単体ではなく相互作用から生じる。
4つの攻撃パターン：自己伝搬ワーム、評判操作、Sybil検証乗っ取り、プロキシチェーン。

AutoAdapt：大規模言語モデルの自動ドメイン適応

2026-04-23 01:25 UTC+9

AutoAdaptは、Microsoft Researchが開発した、大規模言語モデル（LLM）のドメイン適応を自動化するエンドツーエンドのフレームワークです。構造化構成グラフ、エージェント型プランナー、予算対応最適化ループを用いて、数週間かかっていた手動の反復を再現可能なパイプラインに変換し、医療、法律、クラウド運用などの高リスク領域で高速かつ信頼性の高い適応を実現します。

高リスク領域におけるLLMのドメイン適応を自動化
RAGやファインチューニングなどの戦略を組み合わせ、予算制約下で最適化

仕事の新しい未来：AIが急速な変化と不均等な利益をもたらす

2026-04-10 01:11 UTC+9

マイクロソフトリサーチの2025年版「仕事の新しい未来」レポートは、生成AIが仕事を急速に変革しているが、その利益は不均等に分配されていると指摘する。AIは協働のあり方を変え、人間の専門知識がより重要になる。AIをパートナーとして扱う組織が最大の利益を得ている。報告書は、格差拡大を防ぐために包括的なAI導入を呼びかけている。

生成AIはタスクの自動化から能動的な協働へと移行し、人々の創造、決定、学習の方法を変えている。
AI導入率は低・中所得国で最も速く成長しているが、人口統計学的な使用格差が残り、生産性向上の不平等リスクがある。

アイデア：AIを望ましい仕事の未来へ導く

2026-04-10 01:10 UTC+9

マイクロソフトのチーフサイエンティスト、Jaime Teevan氏と研究者のJenna Butler氏、Jake Hofman氏、Rebecca Janssen氏が「New Future of Work Report 2025」を解説し、理想的なAI駆動型の仕事の世界を探求します。さらに、AIは「ツール」か「協力者」か？そして、その答えが重要な理由について議論します。

AIの導入は増加しているが、業種、性別、使用目的によってばらつきがある。
AIは仕事全体ではなくタスクに影響を与える。過剰依存や認知負荷が懸念される。

ADeLe：AIパフォーマンスをタスク横断で予測・説明する新手法

2026-04-02 01:00 UTC+9

ADeLeは、Microsoft Researchがプリンストン大学とバレンシア工科大学と共同開発した手法で、18のコア能力（推論、ドメイン知識など）に基づいてAIモデルとタスクをスコアリングし、未知のタスクに対するパフォーマンスを約88%の精度で予測します。モデルの強みと弱みを明らかにし、従来のベンチマークを超えた説明可能なAI評価を提供します。

ADeLeは18のコア能力でモデルとタスクを評価。
GPT-4oなどのモデルで未知タスクの性能を約88%の精度で予測。

AsgardBench：視覚に基づく対話型計画のためのベンチマーク

2026-03-27 04:02 UTC+9

AsgardBench は、具現化AIエージェントが視覚フィードバックに基づいて計画を調整できるかをテストする新しいベンチマークです。AI2-THORシミュレーション環境上に構築され、エージェントをキッチンなどのシーンに配置し、オブジェクトの状態（カップがきれいかどうかなど）を観察して動的にアクションシーケンスを変更することを要求します。テストの結果、視覚情報により成功率が大幅に向上しましたが、現在のモデルは細かな視覚的差異の識別、進捗追跡、計画のタイムリーな更新において依然として課題を抱えています。

AsgardBench は、具現化AIエージェントが視覚フィードバックを利用して計画を修正する能力に焦点を当てています。
ベンチマークは12種類のタスクタイプにわたる108の制御されたタスクインスタンスで構成されています。

GroundedPlanBench：ロボット操作のための空間的に接地された長期タスク計画

2026-03-27 01:03 UTC+9

Microsoft Researchは、視覚言語モデルがロボットタスクにおいて行動計画と空間定位を同時に行う能力を評価するベンチマーク「GroundedPlanBench」を発表した。彼らが開発したV2GPフレームワークは、ロボットのデモ動画をトレーニングデータに変換し、結合型アプローチが分離型よりも優れていることを示した。

GroundedPlanBenchは、複雑なロボットシナリオで行動計画と位置決定を評価
V2GPフレームワークはロボット動画から空間的に接地されたトレーニングデータを生成

機械は知能を持つのか？

2026-03-24 00:00 UTC+9

マイクロソフトリサーチのポッドキャスト『The Shape of Things to Come』の第1回では、ホストのDoug Burgerが研究者のNicolò FusiとSubutai Ahmadを迎え、現在のAIシステムが本当に知能を持つのかを議論。TransformerベースのLLMと人間の脳の分散型連続学習アーキテクチャを比較し、効率、表現、感覚運動基盤の違いを探る。

Transformerは注意機構とフィードフォワード層を用いるが、入力の複雑さに関係なく一定の計算量を消費する。
脳は約10万の皮質列から構成され、それぞれが独立した世界モデルを並列かつ非同期に構築する。

AIエージェントの体系的なデバッグ：AgentRxフレームワークの紹介

2026-03-13 01:38 UTC+9

マイクロソフトリサーチがAgentRxフレームワークをオープンソース化。AIエージェントの障害を自動診断し、制約合成とガード評価により最初の重大障害ステップを特定。ベースラインと比較して位置特定精度23.6%向上。115の手動注釈付き失敗軌道を含むベンチマークも公開。

AgentRxはAIエージェントの障害をデバッグするオープンソースフレームワークであり、最初の回復不能なステップを特定する。
制約合成と段階的なガード評価を使用して、監査可能な違反ログを生成する。

Microsoft Research Blog