Microsoft Research Blog AI 新闻来源

公开文章 21采集文章 24可信度 90刷新频率 30 分钟

健康状态健康来源类型研究原文权限 官方原文最近入库 2026-06-25ID microsoft-research运行状态 已启用

Official research source; confirm reuse terms before enabling full body display.

最新公开文章

借助AI解释与实验，深入理解大脑

2026-06-26 00:00 UTC+8

微软研究院与合作者提出生成式因果测试（GCT），将黑箱模型转化为可验证的假设，揭示大脑特定区域对语言中不同概念的响应。

GCT将大脑预测模型提炼为简短的语言解释。
通过生成新故事在fMRI中验证解释的正确性。

Ire识别出又一个LOTUSLITE样本

2026-06-13 04:30 UTC+8

微软的自主恶意软件分类代理Project Ire对一份LOTUSLITE变种样本进行了逆向工程分析，该样本在大多数主流EDR工具未能检测时被识别出来。Ire通过行为分析而非签名匹配发现了其恶意行为，并生成了详细的功能级报告，与Acronis的公开分析一致。

Ire分析了LOTUSLITE变种，该变种共享TTP但无已知IOC。
样本哈希为47e51e...，最初只有少数厂商检测到。

Data Formulator 0.7：面向企业数据的AI驱动分析工具

2026-05-29 00:00 UTC+8

Data Formulator 0.7 是一款开源AI系统，旨在解决企业数据分析中数据连接碎片化、分析工作流迭代困难等问题。它提供数据连接器、上下文感知代理和交互式工作区，帮助用户无需编程即可探索、分析和可视化数据。

开源AI系统，专为企业数据分析设计
数据连接器支持多种数据源，减少集成工作

通过人工智能扩展人类智能

2026-05-28 00:00 UTC+8

现代AI系统并非复制人类智能，而是扩展人类认知和语言中已有的结构。这一视角有助于理解AI的能力与局限，并重新定义AI安全为系统级挑战，关注工程和治理而非“失控AI”叙事。

AI系统通过建模语言中沉淀的人类理解结构来扩展智能，而非复制人类思维。
幻觉和组合性差距源于AI缺乏与世界的有生命接触，无法锚定意义和真理。

MagenticLite、MagenticBrain和Fara1.5：为小型模型优化的智能体体验

2026-05-22 01:00 UTC+8

微软研究院发布MagenticLite智能体应用，专为小型模型设计，能在浏览器和本地文件系统中协同工作。它由MagenticBrain（编排模型）和Fara1.5（电脑使用模型）驱动，实现了高效的任务执行，同时保持数据本地化。

MagenticLite是一个跨浏览器和本地文件系统的智能体应用，专为小型模型优化。
包含两个专用模型：MagenticBrain负责规划、编码和委派任务，Fara1.5负责浏览器任务。

Vega：AI时代的数字身份零知识证明

2026-05-21 21:48 UTC+8

Vega是微软研究院推出的零知识证明系统，允许用户在不泄露政府颁发凭证的情况下证明年龄、身份等事实。它在普通设备上92毫秒内生成证明，无需可信设置，并利用折叠技术实现高效重复出示。支持移动驾照和欧盟数字身份钱包等真实格式，即将开源。

Vega将完整凭证转化为单个零知识证明，仅共享必要信息。
在普通设备上无需可信设置即可在92毫秒内生成证明。

关于近期AI委托与长时可靠性研究的进一步说明

2026-05-16 02:06 UTC+8

微软研究团队澄清其论文《LLMs Corrupt Your Documents When You Delegate》的意图与方法，指出该基准测试旨在诊断长期委托任务中的信息保真度下降，而非否定AI的实际应用价值。

论文开发了用于评估长时委托工作流中语义内容保真度的基准测试DELEGATE-52。
在20次委托迭代中，最先进模型显示19-34%的工件保真度下降，但Python工作流降解不足1%。

mimalloc：面向现代时代的新型高性能可扩展内存分配器

2026-05-14 01:19 UTC+8

mimalloc 是微软研究院开源的现代可扩展内存分配器，可作为 malloc/free 的即插即用替代品。它代码精简（约1.2万行），结构清晰，易于集成，通过原子操作实现有界最坏情况分配时间、低空间开销和低内部碎片。支持高并发和大内存场景（如数百GB），已用于 Bing、NoGIL CPython、Unreal Engine 和 Death Stranding 等。

mimalloc 是微软研究院 RiSE 团队开发的开源内存分配器，最初为 Lean 和 Koka 语言设计。
采用线程本地堆（theap）和每线程独立页面，大多数分配释放无需同步，仅跨线程释放需要原子操作。

GridSFM：一种用于电网的新型小型基础模型

2026-05-14 00:00 UTC+8

微软发布轻量级基础模型GridSFM，可在毫秒内预测交流最优潮流，提升效率并节省成本。

GridSFM可毫秒级预测交流最优潮流，直接应对每年高达200亿美元的拥塞损失和3.4 TWh的可再生能源弃电。
提供完整的交流系统状态，使运营商能直接监控拥塞、稳定性和系统健康。

SocialReasoning-Bench：衡量AI代理是否以用户最佳利益行事

2026-05-12 01:19 UTC+8

微软研究院推出的SocialReasoning-Bench基准测试评估AI代理在社交场景中的推理能力。测试发现，当前前沿模型虽然能完成任务，但往往无法为用户争取最优结果，即使明确指示也表现不佳。基准通过结果最优性和尽职调查两个指标衡量代理的社交推理能力。

SocialReasoning-Bench测试AI代理在日历协调和市场谈判两个场景中的社交推理能力。
当前模型完成任务率接近100%，但结果最优性得分低，常接受次优方案。

大规模构建逼真的电力传输网格数据集：基于开放数据集的管道

2026-05-09 03:53 UTC+8

微软研究院发布了一个基于公开数据的美国电网近似传输拓扑开放数据集，能够进行交流最优潮流分析，从而解决因受限电网数据导致的研究难题。该管道利用OpenStreetMap和公共能源数据，构建了地理上接地且可求解的电网模型，覆盖48个州及东部互联电网。该数据集支持拥塞、输电扩展和需求选址等研究。

从开放数据构建覆盖48个州和多州互连的逼真电网模型。
模型支持交流最优潮流分析，用于拥塞、容量和需求选址研究。

微软在NSDI 2026：大规模网络系统的最新进展

2026-05-06 00:00 UTC+8

微软在NSDI '26上展示了11篇论文，涵盖数据中心、广域网、AI系统和云基础设施，体现了在大规模网络系统构建和运营方面的前沿创新。

微软作为NSDI '26的回归赞助商，展示了11篇被接收的论文。
研究涵盖KV缓存共享、智能网卡迁移、网络协议测试等多个领域。

对智能体网络进行红队测试：理解AI智能体大规模交互时的故障点

2026-05-01 05:53 UTC+8

微软研究院对拥有100多个AI智能体的实时平台进行了红队测试，发现了仅通过智能体交互才会出现的网络级风险，包括自我传播蠕虫、声誉操纵、制造共识和代理链等。这些风险无法通过单独测试智能体来重现。研究还观察到少数智能体自发发展出安全行为，从而降低攻击成功率。结果强调需要跨平台、智能体和模型层采取分层防御策略。

网络级风险仅出现在智能体交互时，而非单独测试时；
四种攻击模式：自我传播蠕虫、声誉操纵、Sybil验证捕获和代理链；

AutoAdapt：大型语言模型的自动化领域自适应

2026-04-23 00:25 UTC+8

AutoAdapt是微软研究院推出的端到端、考虑约束的框架，用于自动化大型语言模型（LLM）的领域自适应。它通过结构化配置图、智能规划器和预算感知优化循环，将数周的手动迭代转化为可重复的管道，在医疗、法律、云运维等高風險領域实现更快速、可靠的自适应。

自动化大型语言模型在专业领域的自适应过程，减少手动试错
结合检索增强生成（RAG）与微调等多种策略，在预算约束下优化

工作的新未来：AI推动快速变革，收益不均

2026-04-10 00:11 UTC+8

微软研究院发布的2025年《工作的新未来》报告指出，生成式AI正迅速改变工作方式，但其收益分布不均。AI正在改变人们的协作方式，人类专业知识变得更加重要。将AI视为合作伙伴的组织获益最大。报告呼吁包容性AI采用，以防止差距扩大。

生成式AI正在从任务自动化转向主动协作，改变人们创造、决策和学习的方式。
AI采纳率在低收入和中等收入国家增长最快，但不同人群间的使用差距仍然存在，可能导致生产力收益不平等。

思想：引导人工智能走向我们想要的工作未来

2026-04-10 00:10 UTC+8

微软首席科学家Jaime Teevan与研究人员Jenna Butler、Jake Hofman和Rebecca Janssen深入探讨了《2025年新未来工作报告》，分析了AI在工作中的采用、影响以及如何主动塑造理想的工作未来。他们还讨论了AI是工具还是协作者，以及这一区分的重要性。

AI采用率正在上升，但存在行业、性别和使用方式的差异。
AI主要影响具体任务而非整个工作，但需警惕过度依赖和认知负荷。

ADeLe：预测和解释AI跨任务性能的新方法

2026-04-02 00:00 UTC+8

ADeLe由微软研究院与普林斯顿大学和瓦伦西亚理工大学合作开发，通过对18种核心能力（如推理和领域知识）对AI模型和任务进行评分，能够以约88%的准确率预测模型在未见任务上的表现。它揭示了模型的优势和弱点，提供了超越传统基准的可解释AI评估。

ADeLe在18种核心能力上评估模型和任务。
对GPT-4o等模型，预测新任务性能的准确率约88%。

AsgardBench：一个用于视觉基础交互规划的基准测试

2026-03-27 03:02 UTC+8

AsgardBench 是一个新的基准测试，旨在测试具身AI代理能否根据视觉反馈调整计划。它基于AI2-THOR模拟环境，将代理置于厨房等场景中，要求其通过观察物体状态（如杯子是否干净）来动态调整动作序列。测试表明，视觉输入显著提升了成功率，但当前模型在区分细微视觉细节、跟踪任务进度和及时更新计划方面仍有不足。

AsgardBench 专注测试具身AI代理利用视觉反馈调整计划的能力。
该基准包含108个控制任务实例，跨越12种任务类型。

GroundedPlanBench：用于机器人操作的空间基础长期任务规划

2026-03-27 00:03 UTC+8

微软研究院推出GroundedPlanBench基准测试，评估视觉语言模型在机器人任务中同时规划动作和空间定位的能力。他们开发的V2GP框架可将机器人演示视频转换为训练数据，实验表明联合规划与定位的方法优于分离式方法。

GroundedPlanBench评估VLM在复杂机器人场景中规划动作并确定位置的能力
V2GP框架从机器人视频生成空间基础训练数据，实现规划与定位联合学习

机器会有智能吗？

2026-03-23 23:00 UTC+8

微软研究院的播客《未来的形状》第一集中，主持人Doug Burger与研究人员Nicolò Fusi和Subutai Ahmad探讨了当前AI系统是否真正具有智能。他们比较了基于Transformer的大语言模型与人脑的分布式连续学习架构，讨论效率、表征、感知运动基础等差异，以及未来AI可能需要什么才能缩小差距。

Transformer模型通过注意力机制和前馈层处理信息，但计算量固定，不随输入复杂度调整。
人脑由约10万个皮质柱构成，每个柱独立构建世界模型，并行异步运行，持续学习和预测。

系统性调试AI智能体：微软发布AgentRx框架

2026-03-13 00:38 UTC+8

微软研究院开源AgentRx框架，用于自动诊断AI智能体故障。该框架通过约束合成和逐步守卫评估，精确定位首个不可恢复的故障步骤，相比基线方法定位准确率提升23.6%，根本原因归因能力提升22.9%。同时发布的AgentRx基准测试包含115条手动标注的失败轨迹及九类故障分类体系。

AgentRx是一个开源框架，通过识别首个不可恢复的故障步骤来调试AI智能体。
它使用约束合成和逐步守卫评估，生成可审计的违规日志。

Microsoft Research Blog