2026-03-23 23:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

机器会有智能吗？

微软研究院的播客《未来的形状》第一集中，主持人Doug Burger与研究人员Nicolò Fusi和Subutai Ahmad探讨了当前AI系统是否真正具有智能。他们比较了基于Transformer的大语言模型与人脑的分布式连续学习架构，讨论效率、表征、感知运动基础等差异，以及未来AI可能需要什么才能缩小差距。

来源Microsoft Research Blog作者: Doug Burger, Subutai Ahmad, Nicolo Fusi

文章情报

工程师进阶

要点

Transformer模型通过注意力机制和前馈层处理信息，但计算量固定，不随输入复杂度调整。
人脑由约10万个皮质柱构成，每个柱独立构建世界模型，并行异步运行，持续学习和预测。
人脑通过不断添加和修剪突触进行持续学习，每四天约30%的弱突触被替换，而强突触保持稳定。
当前大语言模型的训练方式（教师强制）与人类学习不同，人类并非每个想法都获得即时反馈。

为什么重要

这条新闻值得关注，因为Transformer模型通过注意力机制和前馈层处理信息，但计算量固定，不随输入复杂度调整。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

在微软研究院最新推出的播客系列《未来的形状》第一集中，主持人Doug Burger与两位顶尖AI研究员——微软研究院的Nicolò Fusi和Numenta的Subutai Ahmad——围绕一个核心问题展开了深度对话：当前的机器是否真正拥有智能？

Fusi专注于数字架构，尤其是基于Transformer的大语言模型（LLM）。他解释了Transformer的两大核心组件：注意力层和前馈层。注意力层负责建立输入标记之间的关联，例如找出句子中“狗”与“跳”的关系；前馈层则存储知识，比如“杯子被碰倒会摔碎”这类常识。Transformer的并行计算能力使其成为“合适时间出现的合适架构”，突破了RNN的循环依赖瓶颈。

然而，Ahmad从神经科学角度提出了“千脑智能理论”。他指出，人脑新皮层由约10万个皮质柱组成，每个皮质柱都是一个完整的感觉运动处理单元，独立构建世界模型。这些皮质柱并行异步运行，不断进行预测和更新。与Transformer单一的潜在空间不同，人脑拥有数千个协同工作的潜在空间。例如，当手指靠近桌面时，对应指尖的皮质柱会预测即将接触到的触感；若接触到的物感异常冰冷或柔软，预测失败会触发学习。

一个显著的差异在于学习机制。人脑持续不断地形成和修剪突触连接：研究显示，成年小鼠大脑中每四天约有30%的弱突触被替换，而强突触保持稳定。这种“投机性学习”让大脑能够快速适应新信息，同时保留重要的知识。Ahmad用地下室台阶的比喻说明：当修复一阶台阶后，第一次下楼梯会因预测失误而失衡，但经过几次尝试，大脑的分子层面便学会了新时序。相比之下，当前LLM的训练通常采用“教师强制”方法，即每一步都提供即时反馈，这与人类稀疏的奖励信号截然不同。Fusi批评道，这种密集反馈虽然加速训练，但可能使模型更脆弱。

此外，效率问题也被提及。人脑的新皮层仅消耗约10瓦功率，却能完成复杂任务。而LLM无论输入难易，都消耗固定计算量。Ahmad指出，人脑会根据需要分配资源，例如指尖对应的皮质柱远多于背部，这启发了未来更高效的AI设计。

尽管存在差异，但两者都是基于预测的系统。Burger注意到，在训练Transformer时，预测错误越大，学习调整幅度越大，这与皮质柱对意外刺激的反应相似。Fusi则从信息论角度提出，生成模型本质上是压缩器——寻找更好的生成模型等同于寻找更优的数据压缩器。这一视角为理解AI的智能本质提供了信息论层面的洞见。

这场对话揭示，尽管当前AI取得了惊人进展，但与人脑的复杂性相比，仍有巨大差距。未来的AI系统可能需要融合更多生物启发，例如动态资源分配、异步并行架构和稀疏反馈机制，才能真正迈向通用智能。