借助AI解释与实验,深入理解大脑
微软研究院与合作者提出生成式因果测试(GCT),将黑箱模型转化为可验证的假设,揭示大脑特定区域对语言中不同概念的响应。
- GCT将大脑预测模型提炼为简短的语言解释。
- 通过生成新故事在fMRI中验证解释的正确性。
来源详情
AI News Hub 持续跟踪 Microsoft Research Blog 的 AI 更新,并公开来源状态、授权边界、抓取方式和已发布文章。
Official research source; confirm reuse terms before enabling full body display.
微软研究院与合作者提出生成式因果测试(GCT),将黑箱模型转化为可验证的假设,揭示大脑特定区域对语言中不同概念的响应。
微软的自主恶意软件分类代理Project Ire对一份LOTUSLITE变种样本进行了逆向工程分析,该样本在大多数主流EDR工具未能检测时被识别出来。Ire通过行为分析而非签名匹配发现了其恶意行为,并生成了详细的功能级报告,与Acronis的公开分析一致。
Data Formulator 0.7 是一款开源AI系统,旨在解决企业数据分析中数据连接碎片化、分析工作流迭代困难等问题。它提供数据连接器、上下文感知代理和交互式工作区,帮助用户无需编程即可探索、分析和可视化数据。
现代AI系统并非复制人类智能,而是扩展人类认知和语言中已有的结构。这一视角有助于理解AI的能力与局限,并重新定义AI安全为系统级挑战,关注工程和治理而非“失控AI”叙事。
微软研究院发布MagenticLite智能体应用,专为小型模型设计,能在浏览器和本地文件系统中协同工作。它由MagenticBrain(编排模型)和Fara1.5(电脑使用模型)驱动,实现了高效的任务执行,同时保持数据本地化。
Vega是微软研究院推出的零知识证明系统,允许用户在不泄露政府颁发凭证的情况下证明年龄、身份等事实。它在普通设备上92毫秒内生成证明,无需可信设置,并利用折叠技术实现高效重复出示。支持移动驾照和欧盟数字身份钱包等真实格式,即将开源。
微软研究团队澄清其论文《LLMs Corrupt Your Documents When You Delegate》的意图与方法,指出该基准测试旨在诊断长期委托任务中的信息保真度下降,而非否定AI的实际应用价值。
mimalloc 是微软研究院开源的现代可扩展内存分配器,可作为 malloc/free 的即插即用替代品。它代码精简(约1.2万行),结构清晰,易于集成,通过原子操作实现有界最坏情况分配时间、低空间开销和低内部碎片。支持高并发和大内存场景(如数百GB),已用于 Bing、NoGIL CPython、Unreal Engine 和 Death Stranding 等。
微软发布轻量级基础模型GridSFM,可在毫秒内预测交流最优潮流,提升效率并节省成本。
微软研究院推出的SocialReasoning-Bench基准测试评估AI代理在社交场景中的推理能力。测试发现,当前前沿模型虽然能完成任务,但往往无法为用户争取最优结果,即使明确指示也表现不佳。基准通过结果最优性和尽职调查两个指标衡量代理的社交推理能力。
微软研究院发布了一个基于公开数据的美国电网近似传输拓扑开放数据集,能够进行交流最优潮流分析,从而解决因受限电网数据导致的研究难题。该管道利用OpenStreetMap和公共能源数据,构建了地理上接地且可求解的电网模型,覆盖48个州及东部互联电网。该数据集支持拥塞、输电扩展和需求选址等研究。
微软在NSDI '26上展示了11篇论文,涵盖数据中心、广域网、AI系统和云基础设施,体现了在大规模网络系统构建和运营方面的前沿创新。
微软研究院对拥有100多个AI智能体的实时平台进行了红队测试,发现了仅通过智能体交互才会出现的网络级风险,包括自我传播蠕虫、声誉操纵、制造共识和代理链等。这些风险无法通过单独测试智能体来重现。研究还观察到少数智能体自发发展出安全行为,从而降低攻击成功率。结果强调需要跨平台、智能体和模型层采取分层防御策略。
AutoAdapt是微软研究院推出的端到端、考虑约束的框架,用于自动化大型语言模型(LLM)的领域自适应。它通过结构化配置图、智能规划器和预算感知优化循环,将数周的手动迭代转化为可重复的管道,在医疗、法律、云运维等高風險領域实现更快速、可靠的自适应。
微软研究院发布的2025年《工作的新未来》报告指出,生成式AI正迅速改变工作方式,但其收益分布不均。AI正在改变人们的协作方式,人类专业知识变得更加重要。将AI视为合作伙伴的组织获益最大。报告呼吁包容性AI采用,以防止差距扩大。
微软首席科学家Jaime Teevan与研究人员Jenna Butler、Jake Hofman和Rebecca Janssen深入探讨了《2025年新未来工作报告》,分析了AI在工作中的采用、影响以及如何主动塑造理想的工作未来。他们还讨论了AI是工具还是协作者,以及这一区分的重要性。
ADeLe由微软研究院与普林斯顿大学和瓦伦西亚理工大学合作开发,通过对18种核心能力(如推理和领域知识)对AI模型和任务进行评分,能够以约88%的准确率预测模型在未见任务上的表现。它揭示了模型的优势和弱点,提供了超越传统基准的可解释AI评估。
AsgardBench 是一个新的基准测试,旨在测试具身AI代理能否根据视觉反馈调整计划。它基于AI2-THOR模拟环境,将代理置于厨房等场景中,要求其通过观察物体状态(如杯子是否干净)来动态调整动作序列。测试表明,视觉输入显著提升了成功率,但当前模型在区分细微视觉细节、跟踪任务进度和及时更新计划方面仍有不足。
微软研究院推出GroundedPlanBench基准测试,评估视觉语言模型在机器人任务中同时规划动作和空间定位的能力。他们开发的V2GP框架可将机器人演示视频转换为训练数据,实验表明联合规划与定位的方法优于分离式方法。
微软研究院的播客《未来的形状》第一集中,主持人Doug Burger与研究人员Nicolò Fusi和Subutai Ahmad探讨了当前AI系统是否真正具有智能。他们比较了基于Transformer的大语言模型与人脑的分布式连续学习架构,讨论效率、表征、感知运动基础等差异,以及未来AI可能需要什么才能缩小差距。
微软研究院开源AgentRx框架,用于自动诊断AI智能体故障。该框架通过约束合成和逐步守卫评估,精确定位首个不可恢复的故障步骤,相比基线方法定位准确率提升23.6%,根本原因归因能力提升22.9%。同时发布的AgentRx基准测试包含115条手动标注的失败轨迹及九类故障分类体系。