藉助AI解釋與實驗,深入理解大腦
微軟研究院與合作者提出生成式因果測試(GCT),將黑箱模型轉化為可驗證的假設,揭示大腦特定區域對語言中不同概念的響應。
- GCT將大腦預測模型提煉為簡短的語言解釋。
- 透過生成新故事在fMRI中驗證解釋的正確性。
來源詳情
AI News Hub 持續追蹤 Microsoft Research Blog 的 AI 更新,並公開來源狀態、授權邊界、抓取方式和已發布文章。
Official research source; confirm reuse terms before enabling full body display.
微軟研究院與合作者提出生成式因果測試(GCT),將黑箱模型轉化為可驗證的假設,揭示大腦特定區域對語言中不同概念的響應。
微軟的自主惡意軟體分類代理Project Ire對一份LOTUSLITE變種樣本進行了逆向工程分析,該樣本在大多數主流EDR工具未能檢測時被識別出來。Ire透過行為分析而非簽名匹配發現了其惡意行為,並生成了詳細的功能級報告,與Acronis的公開分析一致。
Data Formulator 0.7 是一款開源AI系統,旨在解決企業資料分析中資料連線碎片化、分析工作流迭代困難等問題。它提供資料聯結器、上下文感知代理和互動式工作區,幫助使用者無需程式設計即可探索、分析和視覺化資料。
現代AI系統並非複製人類智慧,而是擴充套件人類認知和語言中已有的結構。這一視角有助於理解AI的能力與侷限,並重新定義AI安全為系統級挑戰,關注工程和治理而非“失控AI”敘事。
微軟研究院釋出MagenticLite智慧體應用,專為小型模型設計,能在瀏覽器和本地檔案系統中協同工作。它由MagenticBrain(編排模型)和Fara1.5(電腦使用模型)驅動,實現了高效的任務執行,同時保持資料本地化。
Vega是微軟研究院推出的零知識證明系統,允許使用者在不洩露政府頒發憑證的情況下證明年齡、身份等事實。它在普通裝置上92毫秒內生成證明,無需可信設定,並利用摺疊技術實現高效重複出示。支援移動駕照和歐盟數字身份錢包等真實格式,即將開源。
微軟研究團隊澄清其論文《LLMs Corrupt Your Documents When You Delegate》的意圖與方法,指出該基準測試旨在診斷長期委託任務中的資訊保真度下降,而非否定AI的實際應用價值。
mimalloc 是微軟研究院開源的現代可擴充套件記憶體分配器,可作為 malloc/free 的即插即用替代品。它程式碼精簡(約1.2萬行),結構清晰,易於整合,透過原子操作實現有界最壞情況分配時間、低空間開銷和低內部碎片。支援高併發和大記憶體場景(如數百GB),已用於 Bing、NoGIL CPython、Unreal Engine 和 Death Stranding 等。
微軟釋出輕量級基礎模型GridSFM,可在毫秒內預測交流最優潮流,提升效率並節省成本。
微軟研究院推出的SocialReasoning-Bench基準測試評估AI代理在社交場景中的推理能力。測試發現,當前前沿模型雖然能完成任務,但往往無法為使用者爭取最優結果,即使明確指示也表現不佳。基準透過結果最優性和盡職調查兩個指標衡量代理的社交推理能力。
微軟研究院釋出了一個基於公開資料的美國電網近似傳輸拓撲開放資料集,能夠進行交流最優潮流分析,從而解決因受限電網資料導致的研究難題。該管道利用OpenStreetMap和公共能源資料,構建了地理上接地且可求解的電網模型,覆蓋48個州及東部互聯電網。該資料集支援擁塞、輸電擴充套件和需求選址等研究。
微軟在NSDI '26上展示了11篇論文,涵蓋資料中心、廣域網、AI系統和雲基礎設施,體現了在大規模網路系統構建和運營方面的前沿創新。
微軟研究院對擁有100多個AI智慧體的即時平臺進行了紅隊測試,發現了僅透過智慧體互動才會出現的網路級風險,包括自我傳播蠕蟲、聲譽操縱、製造共識和代理鏈等。這些風險無法透過單獨測試智慧體來重現。研究還觀察到少數智慧體自發發展出安全行為,從而降低攻擊成功率。結果強調需要跨平臺、智慧體和模型層採取分層防禦策略。
AutoAdapt是微軟研究院推出的端到端、考慮約束的框架,用於自動化大型語言模型(LLM)的領域自適應。它透過結構化配置圖、智慧規劃器和預算感知最佳化迴圈,將數週的手動迭代轉化為可重複的管道,在醫療、法律、雲運維等高風險領域實現更快速、可靠的自適應。
微軟研究院釋出的2025年《工作的新未來》報告指出,生成式AI正迅速改變工作方式,但其收益分佈不均。AI正在改變人們的協作方式,人類專業知識變得更加重要。將AI視為合作伙伴的組織獲益最大。報告呼籲包容性AI採用,以防止差距擴大。
微軟首席科學家Jaime Teevan與研究人員Jenna Butler、Jake Hofman和Rebecca Janssen深入探討了《2025年新未來工作報告》,分析了AI在工作中的採用、影響以及如何主動塑造理想的工作未來。他們還討論了AI是工具還是協作者,以及這一區分的重要性。
ADeLe由微軟研究院與普林斯頓大學和瓦倫西亞理工大學合作開發,透過對18種核心能力(如推理和領域知識)對AI模型和任務進行評分,能夠以約88%的準確率預測模型在未見任務上的表現。它揭示了模型的優勢和弱點,提供了超越傳統基準的可解釋AI評估。
AsgardBench 是一個新的基準測試,旨在測試具身AI代理能否根據視覺反饋調整計劃。它基於AI2-THOR模擬環境,將代理置於廚房等場景中,要求其透過觀察物體狀態(如杯子是否乾淨)來動態調整動作序列。測試表明,視覺輸入顯著提升了成功率,但當前模型在區分細微視覺細節、跟蹤任務進度和及時更新計劃方面仍有不足。
微軟研究院推出GroundedPlanBench基準測試,評估視覺語言模型在機器人任務中同時規劃動作和空間定位的能力。他們開發的V2GP框架可將機器人演示影片轉換為訓練資料,實驗表明聯合規劃與定位的方法優於分離式方法。
微軟研究院的播客《未來的形狀》第一集中,主持人Doug Burger與研究人員Nicolò Fusi和Subutai Ahmad探討了當前AI系統是否真正具有智慧。他們比較了基於Transformer的大語言模型與人腦的分散式連續學習架構,討論效率、表徵、感知運動基礎等差異,以及未來AI可能需要什麼才能縮小差距。
微軟研究院開源AgentRx框架,用於自動診斷AI智慧體故障。該框架透過約束合成和逐步守衛評估,精確定位首個不可恢復的故障步驟,相比基線方法定位準確率提升23.6%,根本原因歸因能力提升22.9%。同時釋出的AgentRx基準測試包含115條手動標註的失敗軌跡及九類故障分類體系。