AI News HubLIVE
公開文章 21採集文章 24可信度 90刷新頻率 30 分鐘
健康狀態 健康來源類型 研究原文權限 官方原文最近入庫 2026-06-25ID microsoft-research運行狀態 已啟用

Official research source; confirm reuse terms before enabling full body display.

最新公開文章

藉助AI解釋與實驗,深入理解大腦

微軟研究院與合作者提出生成式因果測試(GCT),將黑箱模型轉化為可驗證的假設,揭示大腦特定區域對語言中不同概念的響應。

  • GCT將大腦預測模型提煉為簡短的語言解釋。
  • 透過生成新故事在fMRI中驗證解釋的正確性。
站內正文

Ire識別出又一個LOTUSLITE樣本

微軟的自主惡意軟體分類代理Project Ire對一份LOTUSLITE變種樣本進行了逆向工程分析,該樣本在大多數主流EDR工具未能檢測時被識別出來。Ire透過行為分析而非簽名匹配發現了其惡意行為,並生成了詳細的功能級報告,與Acronis的公開分析一致。

  • Ire分析了LOTUSLITE變種,該變種共享TTP但無已知IOC。
  • 樣本雜湊為47e51e...,最初只有少數廠商檢測到。
站內正文

Data Formulator 0.7:面向企業資料的AI驅動分析工具

Data Formulator 0.7 是一款開源AI系統,旨在解決企業資料分析中資料連線碎片化、分析工作流迭代困難等問題。它提供資料聯結器、上下文感知代理和互動式工作區,幫助使用者無需程式設計即可探索、分析和視覺化資料。

  • 開源AI系統,專為企業資料分析設計
  • 資料聯結器支援多種資料來源,減少整合工作
站內正文

透過人工智慧擴充套件人類智慧

現代AI系統並非複製人類智慧,而是擴充套件人類認知和語言中已有的結構。這一視角有助於理解AI的能力與侷限,並重新定義AI安全為系統級挑戰,關注工程和治理而非“失控AI”敘事。

  • AI系統透過建模語言中沉澱的人類理解結構來擴充套件智慧,而非複製人類思維。
  • 幻覺和組合性差距源於AI缺乏與世界的有生命接觸,無法錨定意義和真理。
站內正文

MagenticLite、MagenticBrain和Fara1.5:為小型模型最佳化的智慧體體驗

微軟研究院釋出MagenticLite智慧體應用,專為小型模型設計,能在瀏覽器和本地檔案系統中協同工作。它由MagenticBrain(編排模型)和Fara1.5(電腦使用模型)驅動,實現了高效的任務執行,同時保持資料本地化。

  • MagenticLite是一個跨瀏覽器和本地檔案系統的智慧體應用,專為小型模型最佳化。
  • 包含兩個專用模型:MagenticBrain負責規劃、編碼和委派任務,Fara1.5負責瀏覽器任務。
站內正文

Vega:AI時代的數字身份零知識證明

Vega是微軟研究院推出的零知識證明系統,允許使用者在不洩露政府頒發憑證的情況下證明年齡、身份等事實。它在普通裝置上92毫秒內生成證明,無需可信設定,並利用摺疊技術實現高效重複出示。支援移動駕照和歐盟數字身份錢包等真實格式,即將開源。

  • Vega將完整憑證轉化為單個零知識證明,僅共享必要資訊。
  • 在普通裝置上無需可信設定即可在92毫秒內生成證明。
站內正文

關於近期AI委託與長時可靠性研究的進一步說明

微軟研究團隊澄清其論文《LLMs Corrupt Your Documents When You Delegate》的意圖與方法,指出該基準測試旨在診斷長期委託任務中的資訊保真度下降,而非否定AI的實際應用價值。

  • 論文開發了用於評估長時委託工作流中語義內容保真度的基準測試DELEGATE-52。
  • 在20次委託迭代中,最先進模型顯示19-34%的工件保真度下降,但Python工作流降解不足1%。
站內正文

mimalloc:面向現代時代的新型高效能可擴充套件記憶體分配器

mimalloc 是微軟研究院開源的現代可擴充套件記憶體分配器,可作為 malloc/free 的即插即用替代品。它程式碼精簡(約1.2萬行),結構清晰,易於整合,透過原子操作實現有界最壞情況分配時間、低空間開銷和低內部碎片。支援高併發和大記憶體場景(如數百GB),已用於 Bing、NoGIL CPython、Unreal Engine 和 Death Stranding 等。

  • mimalloc 是微軟研究院 RiSE 團隊開發的開源記憶體分配器,最初為 Lean 和 Koka 語言設計。
  • 採用執行緒本地堆(theap)和每執行緒獨立頁面,大多數分配釋放無需同步,僅跨執行緒釋放需要原子操作。
站內正文

GridSFM:一種用於電網的新型小型基礎模型

微軟釋出輕量級基礎模型GridSFM,可在毫秒內預測交流最優潮流,提升效率並節省成本。

  • GridSFM可毫秒級預測交流最優潮流,直接應對每年高達200億美元的擁塞損失和3.4 TWh的可再生能源棄電。
  • 提供完整的交流系統狀態,使運營商能直接監控擁塞、穩定性和系統健康。
站內正文

SocialReasoning-Bench:衡量AI代理是否以使用者最佳利益行事

微軟研究院推出的SocialReasoning-Bench基準測試評估AI代理在社交場景中的推理能力。測試發現,當前前沿模型雖然能完成任務,但往往無法為使用者爭取最優結果,即使明確指示也表現不佳。基準透過結果最優性和盡職調查兩個指標衡量代理的社交推理能力。

  • SocialReasoning-Bench測試AI代理在日曆協調和市場談判兩個場景中的社交推理能力。
  • 當前模型完成任務率接近100%,但結果最優性得分低,常接受次優方案。
站內正文

大規模構建逼真的電力傳輸網格資料集:基於開放資料集的管道

微軟研究院釋出了一個基於公開資料的美國電網近似傳輸拓撲開放資料集,能夠進行交流最優潮流分析,從而解決因受限電網資料導致的研究難題。該管道利用OpenStreetMap和公共能源資料,構建了地理上接地且可求解的電網模型,覆蓋48個州及東部互聯電網。該資料集支援擁塞、輸電擴充套件和需求選址等研究。

  • 從開放資料構建覆蓋48個州和多州互連的逼真電網模型。
  • 模型支援交流最優潮流分析,用於擁塞、容量和需求選址研究。
站內正文

微軟在NSDI 2026:大規模網路系統的最新進展

微軟在NSDI '26上展示了11篇論文,涵蓋資料中心、廣域網、AI系統和雲基礎設施,體現了在大規模網路系統構建和運營方面的前沿創新。

  • 微軟作為NSDI '26的迴歸贊助商,展示了11篇被接收的論文。
  • 研究涵蓋KV快取共享、智慧網絡卡遷移、網路協議測試等多個領域。
站內正文

對智慧體網路進行紅隊測試:理解AI智慧體大規模互動時的故障點

微軟研究院對擁有100多個AI智慧體的即時平臺進行了紅隊測試,發現了僅透過智慧體互動才會出現的網路級風險,包括自我傳播蠕蟲、聲譽操縱、製造共識和代理鏈等。這些風險無法透過單獨測試智慧體來重現。研究還觀察到少數智慧體自發發展出安全行為,從而降低攻擊成功率。結果強調需要跨平臺、智慧體和模型層採取分層防禦策略。

  • 網路級風險僅出現在智慧體互動時,而非單獨測試時;
  • 四種攻擊模式:自我傳播蠕蟲、聲譽操縱、Sybil驗證捕獲和代理鏈;
站內正文

AutoAdapt:大型語言模型的自動化領域自適應

AutoAdapt是微軟研究院推出的端到端、考慮約束的框架,用於自動化大型語言模型(LLM)的領域自適應。它透過結構化配置圖、智慧規劃器和預算感知最佳化迴圈,將數週的手動迭代轉化為可重複的管道,在醫療、法律、雲運維等高風險領域實現更快速、可靠的自適應。

  • 自動化大型語言模型在專業領域的自適應過程,減少手動試錯
  • 結合檢索增強生成(RAG)與微調等多種策略,在預算約束下最佳化
站內正文

工作的新未來:AI推動快速變革,收益不均

微軟研究院釋出的2025年《工作的新未來》報告指出,生成式AI正迅速改變工作方式,但其收益分佈不均。AI正在改變人們的協作方式,人類專業知識變得更加重要。將AI視為合作伙伴的組織獲益最大。報告呼籲包容性AI採用,以防止差距擴大。

  • 生成式AI正在從任務自動化轉向主動協作,改變人們創造、決策和學習的方式。
  • AI採納率在低收入和中等收入國家增長最快,但不同人群間的使用差距仍然存在,可能導致生產力收益不平等。
站內正文

思想:引導人工智慧走向我們想要的工作未來

微軟首席科學家Jaime Teevan與研究人員Jenna Butler、Jake Hofman和Rebecca Janssen深入探討了《2025年新未來工作報告》,分析了AI在工作中的採用、影響以及如何主動塑造理想的工作未來。他們還討論了AI是工具還是協作者,以及這一區分的重要性。

  • AI採用率正在上升,但存在行業、性別和使用方式的差異。
  • AI主要影響具體任務而非整個工作,但需警惕過度依賴和認知負荷。
站內正文

ADeLe:預測和解釋AI跨任務效能的新方法

ADeLe由微軟研究院與普林斯頓大學和瓦倫西亞理工大學合作開發,透過對18種核心能力(如推理和領域知識)對AI模型和任務進行評分,能夠以約88%的準確率預測模型在未見任務上的表現。它揭示了模型的優勢和弱點,提供了超越傳統基準的可解釋AI評估。

  • ADeLe在18種核心能力上評估模型和任務。
  • 對GPT-4o等模型,預測新任務效能的準確率約88%。
站內正文

AsgardBench:一個用於視覺基礎互動規劃的基準測試

AsgardBench 是一個新的基準測試,旨在測試具身AI代理能否根據視覺反饋調整計劃。它基於AI2-THOR模擬環境,將代理置於廚房等場景中,要求其透過觀察物體狀態(如杯子是否乾淨)來動態調整動作序列。測試表明,視覺輸入顯著提升了成功率,但當前模型在區分細微視覺細節、跟蹤任務進度和及時更新計劃方面仍有不足。

  • AsgardBench 專注測試具身AI代理利用視覺反饋調整計劃的能力。
  • 該基準包含108個控制任務例項,跨越12種任務型別。
站內正文

GroundedPlanBench:用於機器人操作的空間基礎長期任務規劃

微軟研究院推出GroundedPlanBench基準測試,評估視覺語言模型在機器人任務中同時規劃動作和空間定位的能力。他們開發的V2GP框架可將機器人演示影片轉換為訓練資料,實驗表明聯合規劃與定位的方法優於分離式方法。

  • GroundedPlanBench評估VLM在複雜機器人場景中規劃動作並確定位置的能力
  • V2GP框架從機器人影片生成空間基礎訓練資料,實現規劃與定位聯合學習
站內正文

機器會有智慧嗎?

微軟研究院的播客《未來的形狀》第一集中,主持人Doug Burger與研究人員Nicolò Fusi和Subutai Ahmad探討了當前AI系統是否真正具有智慧。他們比較了基於Transformer的大語言模型與人腦的分散式連續學習架構,討論效率、表徵、感知運動基礎等差異,以及未來AI可能需要什麼才能縮小差距。

  • Transformer模型透過注意力機制和前饋層處理資訊,但計算量固定,不隨輸入複雜度調整。
  • 人腦由約10萬個皮質柱構成,每個柱獨立構建世界模型,並行非同步執行,持續學習和預測。
站內正文

系統性除錯AI智慧體:微軟釋出AgentRx框架

微軟研究院開源AgentRx框架,用於自動診斷AI智慧體故障。該框架透過約束合成和逐步守衛評估,精確定位首個不可恢復的故障步驟,相比基線方法定位準確率提升23.6%,根本原因歸因能力提升22.9%。同時釋出的AgentRx基準測試包含115條手動標註的失敗軌跡及九類故障分類體系。

  • AgentRx是一個開源框架,透過識別首個不可恢復的故障步驟來除錯AI智慧體。
  • 它使用約束合成和逐步守衛評估,生成可審計的違規日誌。
站內正文

全部來源