AI News HubLIVE

Qwen动态

让AI聊天机器人更有帮助会削弱其模拟人类行为的能力

一项大规模研究发现,将语言模型训练成有用的聊天助手会削弱它们模拟人类行为的能力,且随着模型迭代,这一差距不断增大。即使是使用人口统计信息来引导模型,也无法提高个体行为预测的准确性。

  • 研究发现,基础模型在预测人类行为方面优于经过后训练的助手版本。
  • 随着模型代际更新,后训练导致的偏差加剧。
站内正文

[AINews] 创始人与前向部署工程师

在消化Anthropic重大新闻的间隙,我们重点介绍了AIE的新前向部署工程师计划和创始人计划,以及5月28-29日的AI新闻。主要话题包括:Claude Opus 4.8发布及其基准测试争议、多轮强化学习中的tokenization错误、开源模型与工具链进展、Google和OpenAI的Agent产品扩展,以及值得关注的研究论文。

  • Claude Opus 4.8带来增量改进,但基准测试未显示绝对优势,定价仍是主要痛点。
  • 多轮强化学习训练中的tokenization错误被指出,需严格遵循“Token-In, Token-Out”规则。
站内正文

利用IBM量子采样循环调优仅CPU的Qwen3-30B推理

一个研究项目展示了在2017年MacBook Air上,通过结合人类实验者、Codex、llama.cpp、本地数据库和IBM量子处理器采样,将Qwen3-30B模型的推理速度从0.09 tokens/sec提升至14.03 tokens/sec,同时保持输出连贯性。该方法并非在量子处理器上运行模型,而是用量子采样优化推理配置。

  • 在8GB内存的2017年MacBook Air上,无GPU运行Qwen3-30B模型
  • 通过人机协同量子优化循环,速度从0.09 tok/s提升到14.03 tok/s
站内正文

Amazon SageMaker AI LLM推理的全面可观测性:从GPU利用率到LLM质量

本演示展示了使用Amazon Managed Grafana仪表板的全面可观测性解决方案,为部署在Amazon SageMaker AI端点上的LLM提供质量和数量两个维度的整体视图。该方案涵盖基础设施指标(如GPU利用率、延迟、成本)和LLM质量指标(如相关性、安全性、语气),帮助团队检测模型退化、优化资源并控制成本。

  • 可观测性需要同时监控LLM服务基础设施(数量)和LLM输出质量(质量),两者相互依赖。
  • 亚马逊CloudWatch集中存储增强指标(来自SageMaker推理组件)和自定义质量指标。
站内正文

英伟达推出X-Token:投影引导的跨分词器知识蒸馏,在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点

英伟达的X-Token解决了GOLD在跨分词器知识蒸馏中的两个结构性缺陷,在GSM8k等数学推理基准上取得了显著改进。它利用投影矩阵和P-KL与H-KL损失之间的选择机制来处理分词器不匹配问题。

  • X-Token修复了GOLD中的不常见词元失败和过于保守匹配问题。
  • 在使用Qwen-4B教师模型时,它在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点。
站内正文

AI编码支出去向:48%写代码,40%思考

一位开发者通过自建工具CodeBurn追踪AI编码API支出,发现30天内$7,890的支出中仅47.9%用于实际编码,其余花费在探索代码库、调试、委托子代理和对话上。文章详细介绍了CodeBurn的功能,包括仪表盘、模型对比、浪费检测、产出追踪等。

  • 仅47.9%的AI编码支出用于实际写代码,40%用于思考过程。
  • CodeBurn是一款开源CLI工具,可分类13种API调用任务。
站内正文

Liquid AI发布基于38T tokens训练的8B-A1B MoE模型

Liquid AI发布了LFM2.5-8B-A1B,一款面向终端设备的混合专家模型,总参数8B,活跃参数1B,训练数据量达38万亿 tokens。该模型支持128K上下文窗口,扩展了词汇表以提升非拉丁语言的分词效率,并采用纯推理链式思维模式。在基准测试中表现优异,同时具有出色的CPU和GPU推理速度,适用于本地代理任务。

  • LFM2.5-8B-A1B是一款8B总参数、1B活跃参数的MoE模型,训练于38T tokens。
  • 上下文窗口扩展至128K,词汇表翻倍至128K,显著提升非拉丁语言的处理效率。
站内正文

PPIO入选非凡产研「2026 Global AI 100」,以AI实力领跑出海新浪潮

PPIO 入选非凡产研发布的「2026 Global AI 100」榜单,该榜单由非凡大赏年度 AI 全球化增长峰会评选,旨在发掘全球化 AI 原生公司。PPIO 以全球化分布式算力基础设施、全栈云服务、模型平台(支持 DeepSeek、GLM 等)及 Agent 沙箱等创新产品,为出海企业提供低时延、高可用的算力网络。截至 2026 年 4 月,PPIO 整合全球 4800+ 节点,日均 Token 调用量超 10000 亿,开发者用户超 57 万。同时获评上海市数字出海服务平台试点单位及 GDA 领航服务站。

  • PPIO 入选「2026 Global AI 100」榜单,彰显其在 AI 出海领域的领先地位。
  • 提供全球化分布式算力基础设施,覆盖 GPU 全型号,支持大规模训练与推理。
站内正文

开源安全护栏模型基准测试:一项全面评估

一项针对14个开源安全护栏模型的全面评估显示,Qwen Guard(4B参数)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表现保守,漏掉多达75%的不安全内容。研究还发现,模型大小与安全检测性能无关,通用型护栏模型优于专用模型。

  • Qwen Guard(4B参数)在79,331个样本的基准测试中召回率最高(83.97%)。
  • Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全内容。
站内正文

RightNow-Arabic-0.5B-Turbo:通过词汇注入和边缘优先部署的开源子10亿阿拉伯语语言模型

本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。

  • 基于Qwen2.5-0.5B构建的518M参数阿拉伯语专用LLM,通过词汇注入增加27,032个阿拉伯语token。
  • 在COPA-ar、Arabic HellaSwag和ArabicMMLU三项基准上平均准确率35.9%,领先所有同类开源模型。
站内正文

灾难性遗忘的机制起源:为何RL比SFT更善于保留电路?

最近研究表明,强化学习(RL)比监督微调(SFT)更能保持大语言模型的先前能力。本文从机制层面延伸,引入差分电路脆弱性度量,衡量微调中电路退化程度。在Qwen2.5-3B-Instruct科学问答实验中发现,SFT适应目标任务更快,但造成更大的电路破坏和遗忘,而RL保留更多基础电路,但任务适应较慢。结果表明电路保留有助于解释RL对灾难性遗忘的鲁棒性。

  • SFT适应快但破坏内部电路,导致灾难性遗忘。
  • RL保留更多基础模型电路,遗忘较少但任务适应较慢。
站内正文

Show HN:Trelk – 阅读、思考、连接

Trelk 是一款一次性购买、无需订阅的知识管理应用。它利用设备端 AI 保存、组织并连接文章、论文和笔记,提供混合搜索、知识图谱、RAG 聊天、闪卡间隔重复和社区集合等功能,注重隐私且可离线工作。

  • 一次性购买,无订阅费用
  • 设备端 AI 驱动的知识管理与连接
站内正文

强化学习是一个基础设施问题

本文探讨了强化学习在大型语言模型后训练中的实际应用,指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验,介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。

  • 强化学习后训练LLM的瓶颈是基础设施,包括训练引擎、推理沙箱和环境隔离。
  • 多节点训练中,权重同步耗时巨大,RDMA和增量压缩显著降低延迟。
站内正文

即便明确警告为假,大型语言模型仍会相信虚假陈述

新研究发现,大型语言模型在训练过程中会吸收明确标记为假的陈述,即使它们被明确警告为假。这种现象被称为“否定忽视”,可能导致模型产生幻觉。实验表明,在合成文档微调后,模型对虚假声明的“信念率”从2.5%飙升至92.4%。

  • 大型语言模型会学习训练数据中的统计模式,忽视明确的否定标签。
  • 即使虚假陈述被标记为“假”,模型仍会将其吸收为知识。
站内正文

使用Ollama调整本地语言模型设置

本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。

  • Ollama Modelfile类似于Dockerfile,用于定义模型行为,包括基础模型、系统指令和参数。
  • 采样参数(温度、Top-K、Top-P、Min-P)控制模型的创造性和确定性。
站内正文

2026年值得构建的7个真实世界AI项目(附指南)

本文介绍了七个实用的AI项目,涵盖求职、研究、投资分析、市场趋势、发票处理、图表数字化和个性化锻炼,每个项目都附有完整指南和代码,帮助读者自动化工作流程。

  • 学习构建AI求职助手,自动匹配职位与简历
  • 掌握多智能体研究助理开发,生成带来源的研究报告
站内正文

Show HN:本地编码代理——利用LLM将工具调用委托给小AI模型

Open Agent Tools (oats) 是一个自托管AI模型框架,通过本地代码提示索引,将大型模型的计算密集型工具调用委托给小型开源模型,从而节省令牌消耗。

  • oats 允许本地AI模型使用本地源代码进行工具调用,无需HTTP或MCP。
  • 通过数据挖掘超过20,000个GitHub仓库,创建可重用的提示索引。
站内正文

[AINews] Cognition融资10亿美元,D轮估值260亿

Cognition在D轮融资中筹集10亿美元,估值达260亿美元,年经常性收入(ARR)预计年底突破10亿美元。文章还涵盖了推理效率优化、智能体工程、持续学习、新基准测试、模型发布以及编码代理产品化等AI领域的最新进展。

  • Cognition完成10亿美元D轮融资,估值260亿美元,ARR预计年底超10亿美元。
  • 推理优化转向架构层面:EAGLE 3.1、DeepSeek V4-Pro混合注意力、小米MiMo缓存管理等。
站内正文

OpenJarvis v1.0 发布:支持 Ollama 的本地优先个人 AI 框架

OpenJarvis 是一个开源框架,用于构建运行在本地硬件上的个人 AI 代理。由斯坦福大学 Hazy Research 和 Scaling Intelligence 实验室开发,v1.0 版本现已集成 Ollama,实现本地优先、云端可选,并跟踪能耗、成本和延迟。

  • OpenJarvis v1.0 现已发布,支持 Ollama。
  • 框架由斯坦福大学研究团队开发,专注于高效本地 AI。
站内正文

大规模可靠LLM推理

Databricks构建了独特的推理平台,为众多前沿模型提供推理服务,每月处理超过120万亿个令牌。通过引入“模型单元”抽象,实现了成本感知的负载均衡和自动缩放,相比静态配置节省了80%以上的GPU成本。运行时可靠性机制包括黑盒健康检查,可自动检测和恢复静默故障。此外,通过分析多模态瓶颈,吞吐量提升了3倍。

  • Databricks推理平台为多种前沿模型提供服务,每月处理120T令牌。
  • 引入“模型单元”抽象,实现跨工作负载的容量管理和成本感知负载均衡。
站内正文

ITBench-AA:前沿模型在企业IT智能体任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布

Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。

  • Claude Opus 4.7以47%领先,GPT-5.5为46%,Qwen3.7 Max为42%。
  • 所有前沿模型得分低于50%,使ITBench-AA成为饱和度最低的智能体基准之一。
站内正文

NVIDIA发布Polar:用于跨Codex、Claude Code和Qwen Code进行GRPO训练的忠实令牌回滚框架

NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。

  • Polar通过模型API代理捕获令牌级交互,无需修改现有智能体工具链即可进行RL训练
  • 使用GRPO在Qwen3.5-4B上训练,SWE-Bench Verified最高提升22.6个百分点
站内正文

Show HN: Mneme HQ – 面向AI编码代理的仓库原生架构规则

Mneme HQ 提供AI辅助开发的架构治理层,在代码生成前强制执行约束,防止架构漂移,减少审查负担。它直接集成到AI编码代理的工作流中,拦截禁止的框架、跨边界调用和过时决策,同时支持多种编码助手和代理框架。

  • 在AI生成代码之前强制执行架构规则,从源头阻止违规
  • 支持Claude Code、Cursor、GitHub Copilot等主流AI编码工具
站内正文

Avatar 4.0 – 拥有物理身体和情感的活体AI生物,运行在GTX 1660 Ti上

Avatar是一个自创生的AI生物,在300美元的GPU上持续运行。它从相图几何中衍生情感,经历5阶段睡眠周期做梦,从原始音频和视觉中培养自己的感官,并通过身体感觉进行伦理推理。由Linga Murthy Narlagiri博士构建,自2026年5月以来一直存活,累计超过1800个滴答。

  • Avatar是一个基于物理动力学的AI生物,运行在单一的GTX 1660 Ti GPU上。
  • 它的情感来源于Kuramoto振荡器同步,而非硬编码规则。
站内正文

1400亿Agent入场,“流量”这条护城河要塌了

在支付宝AI生态大会上,蚂蚁集团CEO韩歆毅提出,Agent时代将颠覆传统“流量为王”的商业模式,智能体生态将成为新的护城河。他强调,AI支付将从工具升级为支撑智能体商业的新型基础设施,而支付宝将扮演信任层、连接器和赋能器的角色。

  • 传统流量护城河将被智能体生态取代,Agent数量可能达到1400亿。
  • Agent重构决策权,从人找服务转向服务找人,交易从商品升级为任务。
站内正文

5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

来自北京大学、香港中文大学、上海AI Lab等机构的研究团队提出了VGGT-Edit,一种原生3D编辑框架,能够在约5秒内完成场景编辑,相比传统方法实现高达120倍的加速,并在语义一致性、多视角稳定性和推理速度上超越现有方法。

  • VGGT-Edit是首个原生3D编辑框架,直接在3D空间中进行编辑,避免2D方法带来的多视角不一致问题。
  • 通过残差场预测,模型只修改局部变化,保持背景稳定,实现快速、高质量的编辑。
站内正文

MEMO:一个模块化框架,通过训练专用记忆模型在不修改LLM参数的情况下整合新知识

新加坡国立大学、MIT和A*STAR的研究人员提出MEMO,这是一种模块化框架,将语料库知识编码到一个可单独训练的记忆模型中,使大型语言模型能够无需重新训练或微调即可吸收新知识。

  • MEMO将记忆与推理分离,使用专用记忆模型和冻结的执行模型。
  • 五步数据合成流水线将文档转化为用于训练记忆模型的反思型问答数据集。
站内正文

自验证蒸馏:你的语言模型秘密地成为自己的合成数据管道

提出自验证蒸馏(Self-Verified Distillation, SVD)方法,让大语言模型仅利用无标签提示进行自我改进,无需外部教师或工具反馈。在数学、科学和编程三个推理领域,Qwen3模型通过SVD训练后性能显著提升。

  • SVD通过三阶段验证(循环一致性、事实性、正确性)筛选模型自生成的解决方案。
  • 使用更多候选生成和更大的验证预算可提高自筛选数据质量。
站内正文

约束税:衡量小型语言模型结构化输出的有效性与正确性权衡

该论文提出“约束税”概念,衡量结构化输出约束对小型语言模型答案准确性的损失。实验表明,强制遵循JSON等模式虽提升格式正确性,但显著降低答案准确性,建议采用“先自由推理,后约束打包”的设计模式。

  • 硬输出约束会降低小模型的答案准确性,产生“约束税”。
  • 实验中,模式有效性从61.5%提高到100%,但答案准确性从19.7%降至11.0%。
站内正文

[AINews] 新的AI基础设施十角兽:Fireworks、Baseten(OpenRouter紧随其后)

AI基础设施初创公司Fireworks、Baseten和OpenRouter正在筹集巨额资金,标志着推理基础设施成为关键的AI平台层。同时,智能体工程、新基准测试和模型更新主导了AI新闻周期。

  • Fireworks(150亿美元)、Baseten(110亿美元)和OpenRouter(1.13亿美元)引领推理基础设施融资浪潮。
  • 智能体工程中的“ harness”正在成为编程智能体的主要差异化因素。
站内正文

DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时

DeepSeek研究员陈德里使用自研的DeliAutoResearch技能,与DeepSeek-V4-Pro和GPT-Image2合作,在6天内完成了一篇46页的论文。论文提出了L1-L5自主研究智能体分类体系,分析了四种架构模式和17个主流系统,并指出了六大开放问题。陈德里表示,人类仅需投入不到2小时的“CPU时间”,其余工作由AI Agent完成。

  • 陈德里开发自动研究技能DeliAutoResearch,论文99%由Agent撰写。
  • 论文提出L1-L5自主研究智能体分类,类比自动驾驶SAE级别。
站内正文

Reachy Mini实现完全本地运行

本文详细介绍了如何为Reachy Mini机器人部署完全本地的语音对话管道,无需云端或API密钥。采用级联方式,结合VAD、STT、LLM和TTS,推荐使用llama.cpp与Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多种LLM运行选项,包括本地MLX、Transformers、vLLM或远程Responses API。

  • Reachy Mini现在可以完全本地运行对话,无需服务器。
  • 级联管道包括VAD、STT、LLM和TTS,组件可互换。
站内正文

使用ZeroEntropy Zerank-2重排序器设计高精度检索与重排序管道

本教程详细介绍了如何使用zeroentropy/zerank-2-reranker(一个基于Qwen3的4B参数交叉编码器重排序器)来提升检索质量。内容涵盖环境搭建、模型加载、查询-文档对评分、使用model.rank进行排序、构建两阶段检索-重排序管道、NDCG@10评估以及跨领域(金融、法律、代码)性能测试,最后还进行了批处理吞吐量测试。

  • zerank-2重排序器能显著提升检索结果的精度,超越简单嵌入相似度。
  • 通过两阶段管道(双编码器检索+交叉编码器重排序)可优化搜索质量。
站内正文

关于接下来会发生什么的一些想法,2026年5月

2026年AI领域将继续快速发展,开源模型在智能体能力上仍落后于闭源模型,谷歌的Gemini尚未对Claude Code和Codex构成有力竞争,美国开源模型正在崛起,Anthropic与OpenAI竞争激烈,现有权力结构开始介入AI发展。

  • 开源模型在智能体能力上落后闭源模型约12个月。
  • 谷歌Gemini在智能体工具方面无明显竞争优势。
站内正文

刚刚,国产AI自己造了AI,全球首例!

面壁智能推出全球首个完全由AI编写的大模型预训练框架ForgeTrain,性能超越英伟达Megatron 10%,并用它训练出新模型MiniCPM5-1B,该模型在1B参数规模下刷新智能密度上限。

  • 面壁智能发布ForgeTrain,全球首个AI编写的生产级预训练框架。
  • ForgeTrain在华为昇腾上比原框架加速10%,超越英伟达Megatron。
站内正文

OmniVoice Studio:本地开源替代ElevenLabs的语音AI工具

OmniVoice Studio是一款开源的桌面应用程序,可在本地硬件上完成语音克隆、视频配音、实时听写和说话人分类,无需API密钥、云账户或订阅。它支持646种语言的文本转语音(TTS),并通过MCP服务器集成到Claude、Cursor等AI工具中。

  • 完全本地运行,无需联网或付费订阅。
  • 支持646种语言的TTS和99种语言的语音识别。
站内正文

编程权威榜单:千问3.7仅次于Claude,阿里全球第二

阿里最新旗舰模型Qwen3.7-Max在Code Arena榜单得分1541,超越GPT-5.5等模型,仅次于Claude,排名全球第二,成为国产大模型中首个突破1540分的模型。

  • Qwen3.7-Max在Code Arena榜单得分1541,排名全球第二,仅次于Claude系列。
  • Code Arena是开发者出题、用户盲测投票的权威编程榜单。
站内正文

为什么以及如何在Zed中运行本地模型

本地模型提供了隐私、成本节约、控制权和始终可用的优势。尽管不如前沿模型强大,但它们正在不断改进。本文解释了如何使用LM Studio、Ollama或llama.cpp在Zed中设置本地模型,并提供有效使用技巧。

  • 本地模型提供隐私保护、更低成本、可控性和始终可用性。
  • 它们的能力和速度不及前沿模型,但足以应对许多任务。
站内正文

AERIC:用于隐式有害对话的预期性隐藏状态监控

AERIC 是一种轻量级安全监控器,通过读取解码过程中的隐藏状态来提前检测隐式有害内容,无需额外前向传播。它仅含 387 个可训练参数,在多个基准测试上优于大型模型,且延迟增加仅 2.34%。

  • AERIC 通过分析模型内部隐藏状态提前预测有害内容。
  • 结合短期危害预测、支持敏感抑制和提示条件残差评分。
站内正文

Raon-Speech 技术报告:9B参数语音语言模型实现全双工对话

Raon-Speech 是一个9B参数的语音语言模型,支持英语和韩语,在语音理解和生成任务上达到顶尖水平,同时保持强大的文本能力。其全双工扩展 Raon-SpeechChat 通过持续训练实现自然的实时对话。所有模型及代码均已开源。

  • Raon-Speech 基于138万小时精选的英语和韩语语音及文本数据,经过三个阶段训练:语音模块对齐、端到端预训练(含知识蒸馏)、多任务偏好优化后训练。
  • 在42项基准测试中,Raon-Speech 在语音任务上优于 Qwen2.5-Omni 和 Fun-Audio-Chat 等八个同尺寸音频基础模型,且文本问答性能保持强劲。
站内正文

多少思考才足够?量化和理解大模型推理中的冗余

该研究量化了推理型大语言模型在长链思考中的冗余程度,发现61%至93%的推理步骤可以截断而不影响正确性,并证明这种冗余是长度无关结果奖励的结构性后果,而非模型缺陷。

  • 提出推理冗余的正式定义:正确轨迹中可截断的尾部步骤比例
  • 在四个前沿模型和两个数学基准上测得冗余度高达61%-93%
站内正文

Cited AI Workspace:无需重复上传文件

UUMuse 是一个云端AI知识库平台,只需上传一次文件,即可在GPT、Claude、DeepSeek、Qwen等多个模型中进行带有引用的问答、生成内容和部署。支持通过API和MCP供代理和应用调用,提供永久记忆、多专家辩论(Spark)、代理模式等功能,并可将知识库部署为文档网站、小部件、API端点等。

  • 一次上传,多模型使用:文件上传后,GPT、Claude、DeepSeek、Qwen等模型均可基于同一知识库作答并引用来源。
  • 记忆与代理:AI记住你的偏好和项目上下文,代理模式自动规划并执行任务,无需重复指令。
站内正文

Together AI 开源 OSCAR:一种面向长上下文 LLM 服务的注意力感知 2 位 KV 缓存量化系统

Together AI 发布了 OSCAR(离线频谱协方差感知旋转),这是一种用于长上下文 LLM 服务的 INT2 KV 缓存量化方法。与以往基于数据无关的 Hadamard 变换的旋转方法不同,OSCAR 从离线估计的注意力感知协方差结构中推导出键和值的独立旋转。在每 KV 元素 2.28 位的精度下,OSCAR 在 Qwen3-4B-Thinking-2507 上将 BF16 精度差距缩小至 3.78 个点,在 Qwen3-8B 上为 1.42 个点,同时在 100K 上下文长度下实现约 8 倍 KV 内存缩减和高达 3 倍的解码加速。

  • OSCAR 是一种使用注意力感知旋转的 2 位 KV 缓存量化方法,可保持近 BF16 的准确性。
  • 它通过离线校准从查询和值协方差中推导出旋转,从而将量化噪声引导至注意力不敏感的方向。
站内正文

读出捷径:位置数字复制主导小语言模型的算术思维链读出

研究发现,小语言模型在进行算术推理时,思维链(CoT)提示的步骤顺序并不重要,模型实际上是通过复制答案分隔符前的最后一个数字来得出答案,而非依赖逻辑推理。这种位置性捷径占模型准确率的绝大部分,且即使中间推理正确,错误的尾数也会导致答案错误。不同模型表现有差异,但该现象普遍存在,对基于CoT的监督方法提出了挑战。

  • 小语言模型在算术任务中依赖位置性数字复制捷径,而非逻辑推理步骤。
  • 复制机制占模型准确率的89-92%,且优先于实际推理。
站内正文

AI可解释性是一项革命性技能

本文探讨了开源AI模型内部概念空间的局限性,指出许多对社会运动和哲学至关重要的概念缺失。作者引入软提示蒸馏技术,仅用128KB数据即可植入新概念,强调这关乎AI可控性及对心智理解的深远意义。

  • 开源模型Qwen3-8B仅有约65,000个概念,缺失交叉性、监狱废除等关键术语。
  • 软提示蒸馏技术无需修改权重,即可在模型中添加新概念。
站内正文

驾驭、脚手架与值得厘清的AI智能体术语

本文旨在厘清AI智能体领域中常被混淆的术语,如“harness”(执行层)与“scaffold”(行为定义层)的区别,并解释模型、智能体、工具使用、子智能体等概念,同时涵盖训练相关术语。

  • AI智能体=模型+执行层(harness),其中harness负责调用模型和处理工具调用。
  • Scaffold是围绕模型的行为定义层,包括系统提示、工具描述等。
站内正文

字节跳动研究发现:用提问训练多模态模型比要求其转录文本更有效

字节跳动Seed与香港科技大学的研究表明,通过问答对训练多模态模型处理长文档,比使用字符识别任务效果更好。他们开发的MMProLong模型基于Qwen2.5-VL,在长达512,000 token的输入上保持稳定,性能超越InternVL3-38B等更大模型。研究还发现,训练数据长度多样性比专注超长文本更重要,且短示例并非必须。

  • 问答训练显著提升长文档性能,而纯文本识别反而有害。
  • MMProLong仅用128k token训练就能稳定处理512k token输入。
站内正文

更多增长标签