AI News HubLIVE
公開文章 21採集文章 24可信度 90刷新頻率 30 分鐘
健康狀態 健康來源類型 研究原文權限 官方原文最近入庫 2026-06-25ID microsoft-research運行狀態 已啟用

Official research source; confirm reuse terms before enabling full body display.

最新公開文章

藉助AI解釋與實驗,深入理解大腦

微軟研究院與合作者提出生成式因果測試(GCT),將黑箱模型轉化為可驗證的假設,揭示大腦特定區域對語言中不同概念的響應。

  • GCT將大腦預測模型提煉為簡短的語言解釋。
  • 通過生成新故事在fMRI中驗證解釋的正確性。
站內正文

Ire識別出又一個LOTUSLITE樣本

微軟的自主惡意軟件分類代理Project Ire對一份LOTUSLITE變種樣本進行了逆向工程分析,該樣本在大多數主流EDR工具未能檢測時被識別出來。Ire通過行為分析而非簽名匹配發現了其惡意行為,並生成了詳細的功能級報告,與Acronis的公開分析一致。

  • Ire分析了LOTUSLITE變種,該變種共享TTP但無已知IOC。
  • 樣本哈希為47e51e...,最初只有少數廠商檢測到。
站內正文

Data Formulator 0.7:面向企業數據的AI驅動分析工具

Data Formulator 0.7 是一款開源AI系統,旨在解決企業數據分析中數據連接碎片化、分析工作流迭代困難等問題。它提供數據連接器、上下文感知代理和交互式工作區,幫助用户無需編程即可探索、分析和可視化數據。

  • 開源AI系統,專為企業數據分析設計
  • 數據連接器支持多種數據源,減少集成工作
站內正文

通過人工智能擴展人類智能

現代AI系統並非複製人類智能,而是擴展人類認知和語言中已有的結構。這一視角有助於理解AI的能力與侷限,並重新定義AI安全為系統級挑戰,關注工程和治理而非“失控AI”敍事。

  • AI系統通過建模語言中沉澱的人類理解結構來擴展智能,而非複製人類思維。
  • 幻覺和組合性差距源於AI缺乏與世界的有生命接觸,無法錨定意義和真理。
站內正文

MagenticLite、MagenticBrain和Fara1.5:為小型模型優化的智能體體驗

微軟研究院發佈MagenticLite智能體應用,專為小型模型設計,能在瀏覽器和本地文件系統中協同工作。它由MagenticBrain(編排模型)和Fara1.5(電腦使用模型)驅動,實現了高效的任務執行,同時保持數據本地化。

  • MagenticLite是一個跨瀏覽器和本地文件系統的智能體應用,專為小型模型優化。
  • 包含兩個專用模型:MagenticBrain負責規劃、編碼和委派任務,Fara1.5負責瀏覽器任務。
站內正文

Vega:AI時代的數字身份零知識證明

Vega是微軟研究院推出的零知識證明系統,允許用户在不泄露政府頒發憑證的情況下證明年齡、身份等事實。它在普通設備上92毫秒內生成證明,無需可信設置,並利用摺疊技術實現高效重複出示。支持移動駕照和歐盟數字身份錢包等真實格式,即將開源。

  • Vega將完整憑證轉化為單個零知識證明,僅共享必要信息。
  • 在普通設備上無需可信設置即可在92毫秒內生成證明。
站內正文

關於近期AI委託與長時可靠性研究的進一步説明

微軟研究團隊澄清其論文《LLMs Corrupt Your Documents When You Delegate》的意圖與方法,指出該基準測試旨在診斷長期委託任務中的信息保真度下降,而非否定AI的實際應用價值。

  • 論文開發了用於評估長時委託工作流中語義內容保真度的基準測試DELEGATE-52。
  • 在20次委託迭代中,最先進模型顯示19-34%的工件保真度下降,但Python工作流降解不足1%。
站內正文

mimalloc:面向現代時代的新型高性能可擴展內存分配器

mimalloc 是微軟研究院開源的現代可擴展內存分配器,可作為 malloc/free 的即插即用替代品。它代碼精簡(約1.2萬行),結構清晰,易於集成,通過原子操作實現有界最壞情況分配時間、低空間開銷和低內部碎片。支持高併發和大內存場景(如數百GB),已用於 Bing、NoGIL CPython、Unreal Engine 和 Death Stranding 等。

  • mimalloc 是微軟研究院 RiSE 團隊開發的開源內存分配器,最初為 Lean 和 Koka 語言設計。
  • 採用線程本地堆(theap)和每線程獨立頁面,大多數分配釋放無需同步,僅跨線程釋放需要原子操作。
站內正文

GridSFM:一種用於電網的新型小型基礎模型

微軟發佈輕量級基礎模型GridSFM,可在毫秒內預測交流最優潮流,提升效率並節省成本。

  • GridSFM可毫秒級預測交流最優潮流,直接應對每年高達200億美元的擁塞損失和3.4 TWh的可再生能源棄電。
  • 提供完整的交流系統狀態,使運營商能直接監控擁塞、穩定性和系統健康。
站內正文

SocialReasoning-Bench:衡量AI代理是否以用户最佳利益行事

微軟研究院推出的SocialReasoning-Bench基準測試評估AI代理在社交場景中的推理能力。測試發現,當前前沿模型雖然能完成任務,但往往無法為用户爭取最優結果,即使明確指示也表現不佳。基準通過結果最優性和盡職調查兩個指標衡量代理的社交推理能力。

  • SocialReasoning-Bench測試AI代理在日曆協調和市場談判兩個場景中的社交推理能力。
  • 當前模型完成任務率接近100%,但結果最優性得分低,常接受次優方案。
站內正文

大規模構建逼真的電力傳輸網格數據集:基於開放數據集的管道

微軟研究院發佈了一個基於公開數據的美國電網近似傳輸拓撲開放數據集,能夠進行交流最優潮流分析,從而解決因受限電網數據導致的研究難題。該管道利用OpenStreetMap和公共能源數據,構建了地理上接地且可求解的電網模型,覆蓋48個州及東部互聯電網。該數據集支持擁塞、輸電擴展和需求選址等研究。

  • 從開放數據構建覆蓋48個州和多州互連的逼真電網模型。
  • 模型支持交流最優潮流分析,用於擁塞、容量和需求選址研究。
站內正文

微軟在NSDI 2026:大規模網絡系統的最新進展

微軟在NSDI '26上展示了11篇論文,涵蓋數據中心、廣域網、AI系統和雲基礎設施,體現了在大規模網絡系統構建和運營方面的前沿創新。

  • 微軟作為NSDI '26的迴歸贊助商,展示了11篇被接收的論文。
  • 研究涵蓋KV緩存共享、智能網卡遷移、網絡協議測試等多個領域。
站內正文

對智能體網絡進行紅隊測試:理解AI智能體大規模交互時的故障點

微軟研究院對擁有100多個AI智能體的實時平台進行了紅隊測試,發現了僅通過智能體交互才會出現的網絡級風險,包括自我傳播蠕蟲、聲譽操縱、製造共識和代理鏈等。這些風險無法通過單獨測試智能體來重現。研究還觀察到少數智能體自發發展出安全行為,從而降低攻擊成功率。結果強調需要跨平台、智能體和模型層採取分層防禦策略。

  • 網絡級風險僅出現在智能體交互時,而非單獨測試時;
  • 四種攻擊模式:自我傳播蠕蟲、聲譽操縱、Sybil驗證捕獲和代理鏈;
站內正文

AutoAdapt:大型語言模型的自動化領域自適應

AutoAdapt是微軟研究院推出的端到端、考慮約束的框架,用於自動化大型語言模型(LLM)的領域自適應。它通過結構化配置圖、智能規劃器和預算感知優化循環,將數週的手動迭代轉化為可重複的管道,在醫療、法律、雲運維等高風險領域實現更快速、可靠的自適應。

  • 自動化大型語言模型在專業領域的自適應過程,減少手動試錯
  • 結合檢索增強生成(RAG)與微調等多種策略,在預算約束下優化
站內正文

工作的新未來:AI推動快速變革,收益不均

微軟研究院發佈的2025年《工作的新未來》報告指出,生成式AI正迅速改變工作方式,但其收益分佈不均。AI正在改變人們的協作方式,人類專業知識變得更加重要。將AI視為合作伙伴的組織獲益最大。報告呼籲包容性AI採用,以防止差距擴大。

  • 生成式AI正在從任務自動化轉向主動協作,改變人們創造、決策和學習的方式。
  • AI採納率在低收入和中等收入國家增長最快,但不同人羣間的使用差距仍然存在,可能導致生產力收益不平等。
站內正文

思想:引導人工智能走向我們想要的工作未來

微軟首席科學家Jaime Teevan與研究人員Jenna Butler、Jake Hofman和Rebecca Janssen深入探討了《2025年新未來工作報告》,分析了AI在工作中的採用、影響以及如何主動塑造理想的工作未來。他們還討論了AI是工具還是協作者,以及這一區分的重要性。

  • AI採用率正在上升,但存在行業、性別和使用方式的差異。
  • AI主要影響具體任務而非整個工作,但需警惕過度依賴和認知負荷。
站內正文

ADeLe:預測和解釋AI跨任務性能的新方法

ADeLe由微軟研究院與普林斯頓大學和瓦倫西亞理工大學合作開發,通過對18種核心能力(如推理和領域知識)對AI模型和任務進行評分,能夠以約88%的準確率預測模型在未見任務上的表現。它揭示了模型的優勢和弱點,提供了超越傳統基準的可解釋AI評估。

  • ADeLe在18種核心能力上評估模型和任務。
  • 對GPT-4o等模型,預測新任務性能的準確率約88%。
站內正文

AsgardBench:一個用於視覺基礎交互規劃的基準測試

AsgardBench 是一個新的基準測試,旨在測試具身AI代理能否根據視覺反饋調整計劃。它基於AI2-THOR模擬環境,將代理置於廚房等場景中,要求其通過觀察物體狀態(如杯子是否乾淨)來動態調整動作序列。測試表明,視覺輸入顯著提升了成功率,但當前模型在區分細微視覺細節、跟蹤任務進度和及時更新計劃方面仍有不足。

  • AsgardBench 專注測試具身AI代理利用視覺反饋調整計劃的能力。
  • 該基準包含108個控制任務實例,跨越12種任務類型。
站內正文

GroundedPlanBench:用於機器人操作的空間基礎長期任務規劃

微軟研究院推出GroundedPlanBench基準測試,評估視覺語言模型在機器人任務中同時規劃動作和空間定位的能力。他們開發的V2GP框架可將機器人演示視頻轉換為訓練數據,實驗表明聯合規劃與定位的方法優於分離式方法。

  • GroundedPlanBench評估VLM在複雜機器人場景中規劃動作並確定位置的能力
  • V2GP框架從機器人視頻生成空間基礎訓練數據,實現規劃與定位聯合學習
站內正文

機器會有智能嗎?

微軟研究院的播客《未來的形狀》第一集中,主持人Doug Burger與研究人員Nicolò Fusi和Subutai Ahmad探討了當前AI系統是否真正具有智能。他們比較了基於Transformer的大語言模型與人腦的分佈式連續學習架構,討論效率、表徵、感知運動基礎等差異,以及未來AI可能需要什麼才能縮小差距。

  • Transformer模型通過注意力機制和前饋層處理信息,但計算量固定,不隨輸入複雜度調整。
  • 人腦由約10萬個皮質柱構成,每個柱獨立構建世界模型,並行異步運行,持續學習和預測。
站內正文

系統性調試AI智能體:微軟發佈AgentRx框架

微軟研究院開源AgentRx框架,用於自動診斷AI智能體故障。該框架通過約束合成和逐步守衞評估,精確定位首個不可恢復的故障步驟,相比基線方法定位準確率提升23.6%,根本原因歸因能力提升22.9%。同時發佈的AgentRx基準測試包含115條手動標註的失敗軌跡及九類故障分類體系。

  • AgentRx是一個開源框架,通過識別首個不可恢復的故障步驟來調試AI智能體。
  • 它使用約束合成和逐步守衞評估,生成可審計的違規日誌。
站內正文

全部來源

Microsoft Research Blog AI 新聞來源 | AI News Hub