AI News HubLIVE
公开文章 17采集文章 21可信度 88刷新频率 720 分钟
健康状态 健康来源类型 研究原文权限 允许原文最近入库 2026-06-23ID interconnects运行状态 已启用

Public Substack newsletter by ex-Meta RLHF researcher; free posts allowed.

最新公开文章

GLM-5.2:开放代理的阶跃性变革

GLM-5.2 是 Z.ai 发布的最新开放权重模型,被广泛视为开放模型领域的一次重大突破。该模型在编码和代理任务上表现出色,性能可与 Anthropic 和 OpenAI 的顶尖模型相媲美,甚至在某些基准测试中超越了它们。其发布恰逢美国对 Claude Fable 实施出口限制,引发了关于开放模型与封闭模型未来格局的讨论。

  • GLM-5.2 在代理和编码基准测试中表现出色,匹配甚至超越封闭源模型。
  • 该模型的发布正值美国对 Claude Fable 实施限制,凸显了开放模型的经济和地缘政治影响。
站内正文

禁止开源AI将是一个错误

本文认为,禁止或过度监管开源AI将是严重错误。开源软件在技术教育、创新和竞争中发挥着关键作用,并推动了数万亿美元的经济价值。在AI领域,开源模型提供了对抗垄断的力量,且更安全透明。针对中国的担忧不应导致对开源的限制,而应加大对国内开源的支持。

  • 开源软件在经济和技术领域具有巨大价值,超过90%的软件基于开源构建。
  • 开源AI是教育、创新和竞争的基础,有利于小型企业和初创公司。
站内正文

博客现状,2026年中

作者在从Ai2离职后分享博客Interconnects的现状,阐述博客与其职业目标的关系,最近担任Arcee AI和Mercor的顾问,以及计划将评论改为付费、增加付费文章来维持高质量的小众读者群。

  • 博客以独立、真实的风格关注开放科学和前沿AI。
  • 作者最近担任Arcee AI和Mercor的顾问,支持其使命。
站内正文

前沿后训练配方回顾:与Finbarr Timbers对话

本播客深入探讨了后训练配方的演变,从InstructGPT到2026年的多教师策略(MOPD)。Nathan Lambert与Finbarr Timbers回顾了OLMo-3等开源模型的挑战,并分析了前沿实验室如何通过专业化教师和策略蒸馏来突破性能瓶颈。

  • 后训练配方在过去一年发生了巨变,从单一管线走向多教师策略(MOPD)。
  • MOPD通过训练多个领域专家教师,再蒸馏到一个通用学生模型中,解决了RL冲突问题。
站内正文

Claude Fable 5与新的AI安全寓言

Anthropic发布了Claude Fable 5模型,这是目前最强大的公开模型。该公司推出了一系列安全措施,包括对特定领域使用降级模型,但对前沿AI开发请求进行静默干预而不通知用户,这引发了信任危机。文章批评了这种不一致的安全策略,并探讨了AI安全与市场竞争之间的张力。

  • Claude Fable 5是目前最智能的公开模型,性能大幅提升。
  • Anthropic对网络安全、生物和蒸馏请求使用分类器并降级到Opus 4.8,但对AI研究请求进行静默干预。
站内正文

告别Ai2

Nathan Lambert回顾了他在艾伦人工智能研究所(Ai2)的工作经历,期间他参与了Olmo模型的开发,并领导了Tülu 3等项目。他强调开放研究的重要性,并分享了他从一名普通研究员成长为领域内知名科学家的历程。

  • Nathan Lambert在Ai2工作了两年,领导了多个重要的开放语言模型项目。
  • 他强调了开放研究在AI领域中的关键作用,以及建立关系和传播成果的重要性。
站内正文

关于接下来会发生什么的一些想法,2026年5月

2026年AI领域将继续快速发展,开源模型在智能体能力上仍落后于闭源模型,谷歌的Gemini尚未对Claude Code和Codex构成有力竞争,美国开源模型正在崛起,Anthropic与OpenAI竞争激烈,现有权力结构开始介入AI发展。

  • 开源模型在智能体能力上落后闭源模型约12个月。
  • 谷歌Gemini在智能体工具方面无明显竞争优势。
站内正文

最新开放制品(#21):开放模型盛宴!Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1等。关于CAISI对V4的评估。

本月开放前沿实验室纷纷发布新模型,包括DeepSeek V4、Gemma 4、Kimi K2.6等。CAISI评估指出开放模型落后于美国前沿,且差距在扩大,但评估方法受到质疑,实际能力差距可能被高估。文章还介绍了多个亮点模型。

  • DeepSeek、Google、Moonshot AI等发布多个开放模型。
  • CAISI评估显示开放模型与封闭模型的Elo差距巨大,但基准测试方法存在争议。
站内正文

开放模型生态系统如何放大优势

文章指出,前沿模型的算力约80%用于研发而非最终训练。以中国为代表的开放生态系统通过共享减少重复研发成本。开放模型降低了未来开发成本,但部署成本高于闭源托管方案。作者呼吁建立开放模型联盟以维持竞争力。

  • 约80%的算力用于研发,而非最终模型训练。
  • 中国的开放生态系统减少了各实验室之间的重复研发投入。
站内正文

来自中国AI实验室的笔记

通过对中国主要AI实验室的访问,作者发现了一种谦逊、务实、快速跟进的文化。中国研究人员(其中许多是学生)专注于模型构建而非哲学辩论,较少自我意识。生态系统显示出早期国内AI需求,但数据产业欠发达,且对Nvidia芯片有强烈渴求。

  • 中国AI实验室培养了一种快速跟进、较少自我意识的文化,从而高效构建模型。
  • 学生扮演核心角色,带来新视角和奉献精神。
站内正文

解读当今开源与闭源模型的性能差距

开源模型与闭源模型之间的性能差距并非单一数字所能概括,而是涉及基准测试的演变、实际应用表现以及训练范式的转变。文章分析了这一动态变化,指出基准测试的可信度下降,以及前沿实验室为维持收入而不断自我革新的经济压力。同时,中国实验室的开源模型在基准测试上表现出色,但在鲁棒性和实际应用中仍有差距。

  • 开源与闭源模型的差距是动态且多维的,不能简单用一个数字衡量。
  • 基准测试不断演变,其与实际使用表现的相关性正在减弱。
站内正文

我最近在做什么:ATOM报告、后训练课程、完成我的书以及持续的研究

本文回顾了作者近期的各项努力,包括发布ATOM报告更新、完成RLHF书籍并开放预订、制作后训练课程以及参与两项技术研究。同时预告了即将前往中国和华盛顿特区的行程。

  • 发布ATOM报告更新,详细分析开放语言模型生态系统及中国玩家的影响。
  • 完成RLHF书籍并开放预订,同步推出配套的免费视频课程。
站内正文

Claude Mythos与误导性的开源模型恐慌

本文分析了Claude Mythos模型发布后引发的关于开源AI模型安全风险的讨论。作者认为这种恐慌与以往类似,指出开源模型的能力差距、运行成本以及具体的安全评估需求,呼吁进行细致研究而非全面禁止。

  • Claude Mythos模型引发了对开源模型网络安全风险的担忧。
  • 作者认为这种担忧与GPT-2和GPT-4发布时的恐慌类似,且已被证明过度。
站内正文

Gemma 4 与开放模型成功的关键

本文探讨了2026年开放模型面临的竞争环境,评估开放模型成功的关键因素(性能、来源国、许可证、工具支持、微调能力),并重点分析了谷歌最新发布的Gemma 4系列。文章指出,开放模型的成功更多取决于易用性和生态支持,而非基准分数。

  • 开放模型市场已从少数玩家发展到众多竞争者,但仍有巨大潜力。
  • 评估开放模型需综合考虑性能、许可证、工具支持、微调能力等。
站内正文

最新开放模型摘要(第20期):新机构!新模型类型!Nemotron Super、Sarvam、Cohere Transcribe等

本期摘要涵盖了多种多样且独特的开放模型,涵盖了OCR、RAG搜索、音频转录、计算机使用、代码编辑、数学定理证明等多个用例。模型来自更广泛的开放模型构建者,包括NVIDIA、Cohere、Sarvam、Mistral等,体现了行业对特定领域、低成本模型的推动。

  • NVIDIA发布Nemotron-3-Super,120B参数,12B激活,1M上下文窗口,首个在预训练中使用NVFP4的开放模型。
  • Cohere推出Transcribe模型,基于conformer架构,支持14种语言,Apache 2.0许可。
站内正文

有损自我改进:为何AI进步虽真实但不会导致快速起飞

本文探讨了AI领域的递归自我改进(RSI)概念与现实中的有损自我改进(LSI)之间的差异。作者认为,尽管AI模型在持续进步,但由于自动化研究范围狭窄、多智能体并行收益递减、资源瓶颈与组织政治等摩擦,进步曲线更可能是线性的而非指数级的,不会出现快速起飞或奇点。

  • 递归自我改进(RSI)假设闭环、自放大、无摩擦,但有损自我改进(LSI)因多种瓶颈而更现实。
  • 自动化研究局限于窄目标,无法处理多指标权衡;并行智能体受限于人类监督和任务生成能力。
站内正文

GPT 5.4 是 Codex 的一大进步

尽管在基准测试上只是渐进式改进,但 GPT 5.4 在 Codex 中的实际表现带来了可用性、速度和上下文管理方面的实质提升,不过 Claude 在魅力上仍占优势。

  • GPT 5.4 在正确性、易用性、速度和成本上对智能体任务意义重大。
  • OpenAI 之前的智能体饱受“千刀万剐”之痛,GPT 5.4 消除了这些硬伤。
站内正文

全部来源