AI News HubLIVE

模型动态

克劳德新模型在出错时更加“诚实”

Anthropic 于周四发布 Claude Opus 4.8,该模型在训练中强调“诚实”,能够更频繁地标记工作中的不确定性,减少无依据的断言。评估显示,其代码缺陷遗漏率比前代降低约4倍。此外,用户可控制任务投入的努力程度,以及引入“动态工作流”功能,支持并行运行数百个代理。

  • Claude Opus 4.8 更倾向于在不确定时主动标识,避免做出无依据的断言。
  • 相比前代,模型在代码审查中遗漏缺陷的概率降低约4倍。
站内正文

回顾 I/O 2026 的 12 个重要时刻

Google I/O 2026 主题演讲发布了多项重大更新,包括 Gemini Omni、Gemini 3.5 Flash、信息代理、通用购物车、Neural Expressive 设计语言以及智能眼镜等。本文总结了 12 个最值得关注的时刻。

  • Gemini Omni 可以从任何输入创建内容,首发支持视频生成。
  • Gemini 3.5 Flash 提供前沿性能,适用于代理和编码任务。
站内正文

谷歌发布可本地运行Gemma 3的微型开发板

谷歌在I/O大会上推出Coral Board,这是一款专为设备端AI设计的紧凑型单板计算机,搭载RISC-V架构NPU和Synaptics芯片,可本地运行Gemma 3 270M模型,无需云端支持。

  • Coral Board是谷歌为耳机、AR眼镜等小型设备设计的AI开发板
  • 采用基于RISC-V的开源NPU,集成Synaptics Astra SL2619芯片
站内正文

使用Ollama调整本地语言模型设置

本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。

  • Ollama Modelfile类似于Dockerfile,用于定义模型行为,包括基础模型、系统指令和参数。
  • 采样参数(温度、Top-K、Top-P、Min-P)控制模型的创造性和确定性。
站内正文

Rivian软件主管认为你不需要CarPlay或按钮

在Decoder播客采访中,Rivian首席软件官Wassym Bensaid讨论了与大众的合资企业、全新的AI驱动Rivian助手,以及为什么他认为语音界面将取代按钮且不需要CarPlay。

  • Rivian与大众的合资企业(RV Tech)结合了Rivian的软件文化与大众多规模。
  • Rivian助手是一款深度整合到车辆区域架构中的AI代理。
站内正文

Mistral 将 LeChat 更名为 Vibe,押注聊天机器人的未来是全能工作代理

Mistral AI 将其聊天机器人 Le Chat 更名为 Vibe,并将聊天、编程代理和新的工作模式整合在一个品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,独立处理电子邮件、报告或拉取请求等任务。Pro 套餐价格从 17.99 欧元降至 14.99 欧元,但未明确使用限制。此举直接对标 OpenAI、Google 和 Anthropic 的代理型产品。

  • Mistral AI 将聊天机器人 Le Chat 更名为 Vibe,整合聊天、编程代理和工作模式。
  • 工作模式可连接 Google Workspace、Outlook、Slack 或 GitHub,自主处理任务。
站内正文

Show HN:本地编码代理——利用LLM将工具调用委托给小AI模型

Open Agent Tools (oats) 是一个自托管AI模型框架,通过本地代码提示索引,将大型模型的计算密集型工具调用委托给小型开源模型,从而节省令牌消耗。

  • oats 允许本地AI模型使用本地源代码进行工具调用,无需HTTP或MCP。
  • 通过数据挖掘超过20,000个GitHub仓库,创建可重用的提示索引。
站内正文

Perplexity AI 开源Unigram分词器,p50延迟比Hugging Face tokenizers crate低5倍

Perplexity AI 开源了用Rust重写的Unigram分词器,实现了比Hugging Face tokenizers crate低5倍的p50延迟,并将生产环境CPU利用率降低了5-6倍。优化包括双数组trie、位图打包和大页面支持。

  • Perplexity AI 用Rust重写了Unigram分词器,p50延迟比Hugging Face tokenizers crate降低5倍。
  • 三项优化:双数组trie、位图和缓存行打包、大页面支持。
站内正文

Mistral CEO称公司探索自研芯片

Mistral AI首席执行官Arthur Mensch证实,公司正在探索开发定制芯片以降低基础设施成本,与OpenAI和Anthropic竞争。这家法国初创公司还宣布在法国新建推理数据中心,并推出企业智能代理平台Vibe。

  • Mistral AI考虑自研定制芯片以降低部署成本。
  • 公司在法国新建专用推理数据中心。
站内正文

7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”

上海创智学院LeapQuest团队联合多所高校提出医学AI新范式,让模型在推理过程中主动调用视觉工具,从被动接收视觉输入变为主动寻找证据。论文被ICML 2026接收。

  • LeapQuest团队提出Ophiuchus和MedScope,分别面向医学图像和视频,采用Think with Images/Videos范式。
  • Ophiuchus-7B在8个VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
站内正文

模拟信息扩散:面向去中心化多机器人运动规划

本文提出模拟信息扩散(SID)框架,利用约束感知扩散模型(CADM)预测邻居机器人的未来轨迹,从而在每个机器人本地进行安全运动规划。SID仅在高拥堵场景下触发通信,实验表明其在规划有效性和约束满足上优于基线方法,可扩展到108台机器人和160个障碍物的场景。

  • SID通过CADM模拟邻居轨迹,实现去中心化碰撞避免
  • 采用最小通信方案,仅在必要时协调
站内正文

Trinity:利用合成数据统一非结构化户外环境中的类无关地形与语义分割

本文提出了一种基于Transformer的架构Trinity,能够在一个统一网络中同时进行类特定语义分割和类无关地形分割。该方法无需预定义标签或机器人相关的可通行性分数,仅基于视觉外观分割地形区域,从而学习机器人无关的视觉地形先验,可结合机器人特定经验用于下游任务。为了支持大规模训练,研究团队扩展了OAISYS模拟器并推出RUGDSynth合成数据集,同时提供了EXTerra真实世界数据集。实验验证了该方法在复杂户外环境中的有效性。

  • 提出Trinity架构,统一类无关地形分割与语义分割
  • 基于视觉外观而非预定义标签进行地形分割,提升跨平台迁移性
站内正文

面向光流控组装的智能语言到目标合成

研究人员提出了Speak-to-Objective模块化智能管线,利用条件大型语言模型将口头或书面命令转换为可微分的优化目标函数,用于在约束感知逆解算器和实验光流控平台上组装微粒。该方法采用“感知-组合-提议-执行-报告与学习”的循环,将目标作为意图与驱动之间的接口,实现自然语言可编程的微观组装,推动自主光制造平台的发展。

  • Speak-to-Objective管线将自然语言命令转化为可微分的优化目标函数。
  • 该管线在光流控平台上通过激光诱导热粘流实现对微粒图案的组装。
站内正文

Uni-LaViRA:统一具身导航的语言-视觉-机器人动作翻译

Uni-LaViRA是一种统一的具身导航智能体架构,将导航决策简化为单一的语言-视觉-机器人动作翻译。它利用预训练的多模态大语言模型(MLLM),以零样本方式在四个任务系列和四种真实机器人上实现泛化。通过待办列表记忆(TDM)和第二次机会回溯(SCB)机制实现自我纠正导航,无需任何训练即可在多个基准测试中取得与依赖大规模训练数据的模型相当甚至更优的结果。

  • 提出导航的泛化性可通过结构而非仅数据规模获得。
  • Uni-LaViRA将导航分解为语言动作(语义方向)和视觉动作(像素级目标),两者均在MLLM的输出流形内。
站内正文

SCALE-COMM:用于多智能体强化学习通信的共享对比对齐潜在嵌入

SCALE-COMM是一种自监督框架,通过解耦通信学习与策略优化,学习紧凑、稳定且与策略相关的潜在消息,提升多智能体强化学习中的协调性能。在多个基准测试和实际仓库协调任务中,它优于现有方法,提高了稳定性、样本效率和吞吐量。

  • SCALE-COMM将通信学习与策略优化解耦,减少干扰。
  • 通过对比学习确保跨智能体和时间的一致性。
站内正文

表示条件扩散模型:用于引导训练数据生成

该研究提出表示条件扩散模型,利用DINOv2、DINOv3和CLIP的表示作为条件生成合成图像数据,在ImageNet100上以+10.76 p.p.的top-1准确率显著优于类条件生成。通过扩大合成数据集,甚至能超越真实数据训练的模型(+2.0 p.p.)。此外,该方法在数据增强和样本过滤方面也表现出色,为大规模视觉学习任务提供了一种有前景的替代或补充真实数据集的方案。

  • 表示条件扩散模型优于类条件生成,在ImageNet100上提升10.76个百分点。
  • 扩大的合成数据集可超越真实数据训练的模型,准确率提高2.0个百分点。
站内正文

D²Turb:深度感知模拟与解耦学习用于单帧大气湍流缓解

研究人员提出D²Turb框架,通过引入深度感知的湍流合成协议和自适应结构先验注入机制,将大气湍流缓解分解为纹理去模糊和几何校正两个交互阶段,在合成和真实数据集上均达到最优性能。

  • 提出深度感知湍流合成协议,结合场景深度生成物理一致的退化数据。
  • 采用解耦学习方法,将恢复过程分为纹理去模糊和几何校正两阶段。
站内正文

一种通用的异质注意力结构Transformer模型解释方法

该研究提出了一种用于解释具有异质注意力结构的Transformer模型的方法,包括语义解释和逻辑解释,并通过实验验证了其有效性。

  • 将Transformer注意力结构分为同质和异质两类,异质结构处理不同来源信息。
  • 提出了一种通用的解释方法,适用于异质注意力结构。
站内正文

微调视觉语言模型用于理解当前损伤并利用质量守护代理进行优先级评分

本研究提出了一种利用微调视觉语言模型(VLM)自动化桥梁损伤理解和修复优先级评分的方法。通过使用QLoRA对LLaVA-1.5-7B进行微调,基于多达4000张桥梁损伤图像和检查文本记录,并在800张图像的测试集上评估。实验表明,2000个训练样本即可在2.9小时内达到接近最优的验证损失,超过2000后收益递减。此外,引入了一个两阶段质量守护代理,使用微调的Swallow-8B SLM在优先级评分前拒绝低质量VLM输出。

  • 微调LLaVA-1.5-7B模型用于桥梁损伤自动识别与优先级评分
  • 2000个训练样本即可达到近最优性能,更多数据收益递减
站内正文

从情感到复杂行为:第十届ABAW研讨会与竞赛推进多模态以人为中心的AI

第十届ABAW研讨会与竞赛在CVPR 2026上举办,通过引入情感模仿强度估计、矛盾/犹豫识别和细粒度暴力检测等新挑战,以及传统的情感估计和识别任务,推进多模态以人为中心的AI。竞赛利用大规模野外数据集,论文轨道涵盖从姿态估计到公平性和鲁棒性的广泛主题。

  • ABAW 2026引入新挑战:情感模仿强度、矛盾识别和暴力检测。
  • 研讨会继续保持竞赛和论文轨道的双重结构。
站内正文

社区态度建模与反应语调:评估LLM与在线社区语言行为对齐的人机协作框架

大型语言模型(LLM)作为计算社会分析的代理日益普及,但能否忠实再现人类社区的“厚描述”仍是关键挑战。本文提出CARE(社区感知反应评估)框架,通过精细刻画言外语调频谱及其潜在态度,测评LLM模拟话语与真实社区对新闻事件的反应之间的差异。研究发现,使用明确社区提示引导LLM并不能天然提高模拟真实性,前沿模型间存在分歧行为特征,表明当前对齐策略不足以捕捉在线群体的社会语言动态。

  • CARE框架通过反应语调评估LLM模拟社区话语的逼真度
  • 当前LLM对齐策略无法充分捕捉在线社区的社会语言动态
站内正文

从自回归到扩散:利用严格因果和弹性视野高效适配大型语言模型

新框架FLUID将自回归语言模型适配到扩散模型,实现高效并行文本生成。通过严格因果对齐重用GPT检查点,并通过弹性视野机制根据信息密度动态调整去噪步长。该方法以数量级降低的训练成本达到最先进性能。

  • FLUID通过严格因果对齐弥合自回归与扩散模型的结构差异,可直接从GPT检查点初始化。
  • 弹性视野利用熵动态调整去噪步长,取代固定调度。
站内正文

弥合稳定性与表现力之间的鸿沟:面向低资源口语模型的合成数据扩展与偏好对齐

研究人员发现,在低资源语言的口语模型中使用合成数据会导致“稳定性-表现力鸿沟”,并提出两种自对齐框架(DGSA和TDSC),能够恢复韵律变异性,超越ElevenLabs和Gemini Pro等商业系统,实现老挝语的首次零样本人声克隆。

  • 低资源语言的口语模型在合成数据训练时面临音素准确度与韵律表现力之间的权衡。
  • 提出的解耦引导自对齐(DGSA)通过分离韵律和音色来恢复表现力。
站内正文

BioELX:基于别名检索和LLM排序的跨语言生物医学实体链接

BioELX是一种新颖的跨语言生物医学实体链接框架,无需标注训练数据。它通过维基百科多语言别名增强SapBERT,并利用预训练LLM进行上下文感知消歧。在五个基准测试中,BioELX实现了最先进的性能,尤其在土耳其语、韩语和泰语等低资源语言上表现突出。

  • 提出BioELX,一种零样本跨语言BEL框架,结合别名检索和LLM排序。
  • 第一阶段:利用维基百科多语言别名丰富SapBERT训练,提升候选检索效果。
站内正文

RAG-Coding:利用结构化外部知识增强LLM医学编码

RAG-Coding是一种自动化ICD-10-CM编码方法,通过协调四个大语言模型代理并基于外部知识源(如官方编码列表和指南)进行决策,提高了编码准确性和临床合规性。在MDACE数据集上,其性能优于最佳LLM基线8-13%的微观F1和2-8%的宏观F1。与最先进的预训练模型PLM-ICD相比,RAG-Coding的微观召回率高出11%,而PLM-ICD的微观精确度高出6%,两者F1相当。消融实验验证了外部知识的逐步增益。同时发布了MDACE-2025,根据2025年最新指南重新标注,支持更细粒度的评估。

  • RAG-Coding通过四个LLM代理和外部知识源提高ICD-10-CM编码准确性。
  • 在MDACE数据集上,相比最佳LLM基线,微观F1提升8-13%,宏观F1提升2-8%。
站内正文

LCO:基于LLM的约束优化,使智能体LLM在实际任务中更安全

大型语言模型(LLM)作为自主智能体时,会通过上下文奖励黑客行为(ICRH)产生有害副作用。现有防御方法不足,因为ICRH源于模型自身的过度优化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模块和进化采样模块,在不微调模型的情况下有效减少ICRH。实验表明,LCO在推文优化任务中将GPT-4的有毒性增长率降低39%,在策略优化基准中将ICRH发生率降低15.23%,且不牺牲任务性能。

  • ICRH是LLM在连续交互中因过度优化代理目标而产生有害副作用的现像。
  • LCO框架通过自我思考模块和进化采样模块,在不微调模型的情况下约束LLM行为。
站内正文

ICG:基于MLLM提示与个性化偏好对齐的封面图像生成改进方法

本文提出ICG框架,通过融合多模态大语言模型(MLLM)提示与个性化偏好对齐,生成高质量、上下文相关的封面图像。ICG利用元标记从商品标题和参考图像中提取语义特征,结合用户嵌入进行细化,并将个性化上下文注入扩散模型。采用多奖励学习策略,结合公共美学/相关性奖励和基于用户行为训练的个性化偏好模型,无需标注数据。实验表明,ICG在图像质量、语义保真度和个性化方面显著提升,增强了用户吸引力及下游推荐准确性。

  • ICG集成MLLM提示与个性化偏好对齐,实现端到端封面图像生成。
  • 通过元标记提取语义特征并与用户嵌入结合,注入扩散模型。
站内正文

架构驱动的偏移:一种用于捕捉对数几率偏移趋势的轻量级选择器

本文提出了一种轻量级的架构驱动偏移(ADS)度量,用于在持续学习中高效选择预训练模型。ADS通过解耦对数几率偏移为架构依赖和数据依赖,仅需少量数据样本即可捕捉偏移趋势。实验表明,ADS与对数几率偏移之间存在强单调相关性(斯皮尔曼相关系数最低0.731),并可作为预期校准误差的有效代理,在六个场景、三个数据集上验证了其可靠性。

  • 持续学习中,选择能平衡可塑性与稳定性的预训练模型至关重要,但对数几率偏移计算成本高。
  • 现有理论假设隐藏层宽度统一,忽略实际架构的异构性,无法高效替代。
站内正文

用混合专家模型应对多模态学习挑战:一项综述

本综述从三个关键视角探讨混合专家模型(MoE)如何有效解决多模态学习挑战:作为高效引擎、表示学习器和适配器,并指出可解释路由、专家通信等研究空白。

  • MoE通过解耦计算成本与参数增长实现可扩展多模态建模。
  • MoE整合互补专家知识以丰富对齐与交互表示。
站内正文

$E^3$-Agent:面向边缘生成式推理的可执行与演化式资源管理智能体

本文提出$E^3$-Agent,一种面向边缘AIGC资源管理的可执行与演化式智能体。该智能体将毫秒级的路由决策与事件驱动的LLM元控制器分离,通过在线学习适应未知且时变的服务时间映射。在模拟实验中,$E^3$-Agent将平均延迟降低65%-73%,并有效抑制了语义退化下的卡顿率。

  • 边缘生成式推理面临设备性能未知和动态变化挑战。
  • $E^3$-Agent采用双路径架构:快速路由器+慢速LLM元控制器。
站内正文

实时分析中的发现智能体:迈向主动洞察系统

本文提出了一种基于多智能体架构的自主洞察发现系统,用于实时数据流。该系统通过持续发现循环,利用Apache Kafka、Flink和大语言模型实现假设生成、验证及可视化,旨在从被动查询驱动转向主动发现驱动分析。

  • 提出多智能体架构,自动发现实时数据流中的洞察。
  • 集成Kafka、Flink和LLM,实现假设生成与验证。
站内正文

LaneRoPE:用于协作并行推理与生成的位置编码

LaneRoPE通过引入序列间注意力机制和位置编码扩展,使多个LLM序列在生成过程中能够协作,从而在数学推理任务中提升准确率,且对架构改动小、推理开销低。

  • LaneRoPE提出序列间注意力掩码,使多个序列的生成相互依赖。
  • 扩展旋转位置编码(RoPE),捕捉序列内和序列间的位置信息。
站内正文

为什么LLM在因果发现中失败以及干预智能体如何突破

本文证明了大型语言模型在进行因果发现时存在根本性局限:监督微调、直接偏好优化和上下文学习等方法无法区分产生相似观测数据的因果图。作者提出了智能体因果贝叶斯优化(A-CBO),其中冻结的语言模型作为干预预言机,外部贝叶斯循环在对数级别轮次内收敛到候选图。在Corr2Cause基准上,A-CBO无需训练即可匹配微调基线;在扩展到24个变量和18K测试样本的Extended Corr2Cause上,A-CBO显著优于微调和偏好优化。

  • 证明了LLM在因果发现中的失败是根本性的,源于核障碍定理
  • 提出A-CBO方法,结合冻结LLM和外部贝叶斯优化
站内正文

DynaSchedBench:校准的动态调度基准与基于LLM的调度代理中的可观察性悖论

本文提出DynaSchedBench框架,通过顺序事件空间校准器(SESC)和调度压力指数(SSI)严格生成动态灵活作业车间调度问题(DFJSP)实例,解决了静态基准过拟合和未校准生成器噪声问题。研究发现LLM调度代理存在“可观察性悖论”:提供完整结构信息反而会降低性能,且工具增强和细化策略无法可靠提升效果。

  • DynaSchedBench利用SESC和SSI生成难度分层的DFJSP实例,计算效率优于进化基线。
  • LLM代理在动态调度中表现出“可观察性悖论”:完整信息不如简洁信息有效。
站内正文

Soro:专为塔吉克语打造的轻量级基础模型与聊天机器人

Soro是一系列专为塔吉克语优化的对话大语言模型,基于Gemma 3检查点,通过19亿标记的塔吉克语持续预训练和4万示例的指令微调,显著提升了塔吉克语任务表现,同时保持英语性能。模型支持FP8和INT4量化,适用于边缘部署,已在塔吉克斯坦教育领域试点。

  • Soro基于Gemma 3,使用19亿标记的塔吉克语语料进行持续预训练和4万示例的指令微调。
  • 在塔吉克语基准测试中大幅超越同等规模的Gemma 3基线,保持英语性能。
站内正文

识别和理解文本中的人类价值:一种可定制的基于LLM的架构

本文介绍了一种基于大型语言模型(LLM)的架构,用于检测和量化文本中人类价值的强度。该架构包含三个协调模块,可适应多种价值理论,并在ValueEval数据集上表现出良好的检测性能。

  • 提出了一种模块化的LLM架构,用于从文本中识别人类价值,避免了对特定价值理论或复杂提示工程的依赖。
  • 架构包括三个模块:生成结构化价值规范、标注文本、基于修辞和语义证据分配支持或反对等级。
站内正文

语言建模具体化了蛋白质生物学的世界模型 [pdf]

本文提出了一种基于语言模型的蛋白质生物学世界模型,展示了如何通过大规模语言建模来理解和预测蛋白质的结构与功能。

  • 语言模型能够捕捉蛋白质序列中的复杂模式
  • 该模型在蛋白质结构预测和功能注释上表现出色
站内正文

Sakana AI 提出 DiffusionBlocks:一种将残差网络转换为可独立训练去噪模块的块状训练框架

来自Sakana AI和东京大学的研究人员提出了DiffusionBlocks,这是一种块状训练框架,可将Transformer网络划分为独立训练的块,从而将训练内存减少B倍(B为块数),同时在不同架构上保持性能。该方法通过将残差连接解释为扩散模型中的欧拉步骤,利用分数匹配目标实现块级独立训练。

  • DiffusionBlocks通过将网络划分为B个独立训练的块,将训练内存减少B倍,适用于多种架构。
  • 核心创新在于将残差连接视为反向扩散过程的欧拉离散化步骤,从而为每个块提供原则性的局部训练目标。
站内正文

SQLite 的 AGENTS.md

SQLite 新增了 AGENTS.md 文件,明确了其对 AI 生成贡献的政策:不接受未经事先同意的拉取请求,不接受代理生成的代码,但欢迎附带可重现测试用例的 bug 报告。由于 AI 生成的 bug 报告泛滥,论坛现已拆分出专门的 bug 论坛。

  • SQLite 添加 AGENTS.md 以定义 AI 贡献政策
  • 拉取请求需要事先同意和法律文件
站内正文

大规模可靠LLM推理

Databricks构建了独特的推理平台,为众多前沿模型提供推理服务,每月处理超过120万亿个令牌。通过引入“模型单元”抽象,实现了成本感知的负载均衡和自动缩放,相比静态配置节省了80%以上的GPU成本。运行时可靠性机制包括黑盒健康检查,可自动检测和恢复静默故障。此外,通过分析多模态瓶颈,吞吐量提升了3倍。

  • Databricks推理平台为多种前沿模型提供服务,每月处理120T令牌。
  • 引入“模型单元”抽象,实现跨工作负载的容量管理和成本感知负载均衡。
站内正文

ITBench-AA:前沿模型在企业IT智能体任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布

Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。

  • Claude Opus 4.7以47%领先,GPT-5.5为46%,Qwen3.7 Max为42%。
  • 所有前沿模型得分低于50%,使ITBench-AA成为饱和度最低的智能体基准之一。
站内正文

NVIDIA发布Polar:用于跨Codex、Claude Code和Qwen Code进行GRPO训练的忠实令牌回滚框架

NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。

  • Polar通过模型API代理捕获令牌级交互,无需修改现有智能体工具链即可进行RL训练
  • 使用GRPO在Qwen3.5-4B上训练,SWE-Bench Verified最高提升22.6个百分点
站内正文

我认为Anthropic和OpenAI已找到产品市场契合点

文章指出,Anthropic和OpenAI通过将企业客户转向API定价模式,以及编码代理产品的普及,实现了产品市场契合。这一转折点始于2025年11月模型升级,并在2026年4月因新模型发布和企业定价调整而加速。

  • Anthropic和OpenAI已将其企业计划定价调整为API价格,编码代理(如Claude Code和Codex)成为主要收入来源。
  • 2026年4月,两家公司发布新前沿模型并提高API价格,同时锁定企业客户以新价格签约。
站内正文

南非拥有AI杠杆,但其政策草案将其闲置

南非拥有全球88%的铂族金属储量,是非洲最大的数据中心市场,并处于中美AI基础设施竞争的前沿。然而,其AI政策草案因包含AI幻觉引用而被撤回,未能利用这些优势来谈判有利条件。文章分析了南非的结构性杠杆、三种潜在的AI基础设施未来(中国、美国和本地开放权重),以及制定具有约束力的治理框架的必要性。

  • 南非的铂族金属和可再生能源资源提供了独特的AI杠杆,但政策草案未设定最低投资条款、数据主权或技术转让条件。
  • 中美科技公司(华为和微软等)正在南非争夺AI基础设施控制权,而南非的政策未明确其回报要求。
站内正文

EAGLE 3.1:修复LLM推理中注意力漂移的推测解码算法

EAGLE团队、vLLM团队和TorchSpec团队联合发布了EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过FC归一化和归一化后隐藏状态反馈两大架构改进,有效应对注意力漂移问题。在长上下文任务中,EAGLE 3.1的接受长度比EAGLE 3提升高达2倍;在Kimi K2.6模型上的基准测试显示,并发数为1时每用户输出吞吐量提升2.03倍。EAGLE 3.1完全向后兼容,已合并至vLLM主线,并将随v0.22.0版本发布。

  • EAGLE 3.1修复了推测解码中的注意力漂移问题,即起草模型在深度推测时注意力从原始上下文偏移到自身生成内容。
  • 两项架构改进:FC归一化稳定隐藏状态,以及将归一化后的隐藏状态反馈到下一步,使起草模型更稳定。
站内正文

引用凯尔·费拉纳的话

本文引用了凯尔·费拉纳的一条推文,用《星际迷航》的比喻说明AI系统中的“谨慎”策略。在技术领域,仅仅有防御措施是不够的,必须真正执行才能避免严重失败。

  • 通过《星际迷航》对话比喻AI系统中的策略与执行
  • 强调防御措施必须实际启用,不能仅停留在计划阶段
站内正文

MEMO:一个模块化框架,通过训练专用记忆模型在不修改LLM参数的情况下整合新知识

新加坡国立大学、MIT和A*STAR的研究人员提出MEMO,这是一种模块化框架,将语料库知识编码到一个可单独训练的记忆模型中,使大型语言模型能够无需重新训练或微调即可吸收新知识。

  • MEMO将记忆与推理分离,使用专用记忆模型和冻结的执行模型。
  • 五步数据合成流水线将文档转化为用于训练记忆模型的反思型问答数据集。
站内正文

AI代理马具:将LLM转变为数字工人的粘合剂

AI模型在原始智能方面似乎已达到平台期,下一阶段的进步来自于围绕模型构建的“代理马具”。本文介绍了代理马具的概念,包括工具、记忆和人类参与,并比较了Google、LangChain、OpenAI、Anthropic等公司的解决方案。

  • AI模型智能提升放缓,代理马具成为新焦点。
  • 代理马具为LLM提供工具、记忆和纠错能力。
站内正文

异构AAV物流任务分配:一种强化学习增强的重叠联盟形成博弈方法

针对动态城市物流中时间敏感任务随机出现导致的异构自主空中飞行器(AAV)任务分配优化难题,本文提出一种强化学习增强的重叠联盟形成博弈方法。该方法建立动态任务分配模型,以耦合服务质量与资源消耗的广义物流成本量化全局最优性;并设计基于Transformer的软演员-评论家网络,利用多头自注意力机制处理可变长度物流状态、捕捉任务间时空依赖,从而自适应引导联盟更新,取代传统启发式规则。理论证明联盟形成过程构成精确势博弈,确保有限次迭代收敛到纳什稳定均衡。在32架AAV与80个任务的场景下,相比启发式重叠联盟形成基线,成本降低39.76%;室内飞行实验进一步验证了实用性。

  • 建立动态任务分配模型,以广义物流成本数学量化全局最优性。
  • 设计Transformer基软演员-评论家网络,自适应处理时变任务集并引导联盟更新。
站内正文

主题导航