让AI聊天机器人更有帮助会削弱其模拟人类行为的能力
一项大规模研究发现,将语言模型训练成有用的聊天助手会削弱它们模拟人类行为的能力,且随着模型迭代,这一差距不断增大。即使是使用人口统计信息来引导模型,也无法提高个体行为预测的准确性。
- 研究发现,基础模型在预测人类行为方面优于经过后训练的助手版本。
- 随着模型代际更新,后训练导致的偏差加剧。
长尾标签
跟踪 Qwen/通义千问模型、开源权重、多模态、Agent 能力、API 和企业落地。
一项大规模研究发现,将语言模型训练成有用的聊天助手会削弱它们模拟人类行为的能力,且随着模型迭代,这一差距不断增大。即使是使用人口统计信息来引导模型,也无法提高个体行为预测的准确性。
在消化Anthropic重大新闻的间隙,我们重点介绍了AIE的新前向部署工程师计划和创始人计划,以及5月28-29日的AI新闻。主要话题包括:Claude Opus 4.8发布及其基准测试争议、多轮强化学习中的tokenization错误、开源模型与工具链进展、Google和OpenAI的Agent产品扩展,以及值得关注的研究论文。
一个研究项目展示了在2017年MacBook Air上,通过结合人类实验者、Codex、llama.cpp、本地数据库和IBM量子处理器采样,将Qwen3-30B模型的推理速度从0.09 tokens/sec提升至14.03 tokens/sec,同时保持输出连贯性。该方法并非在量子处理器上运行模型,而是用量子采样优化推理配置。
本演示展示了使用Amazon Managed Grafana仪表板的全面可观测性解决方案,为部署在Amazon SageMaker AI端点上的LLM提供质量和数量两个维度的整体视图。该方案涵盖基础设施指标(如GPU利用率、延迟、成本)和LLM质量指标(如相关性、安全性、语气),帮助团队检测模型退化、优化资源并控制成本。
英伟达的X-Token解决了GOLD在跨分词器知识蒸馏中的两个结构性缺陷,在GSM8k等数学推理基准上取得了显著改进。它利用投影矩阵和P-KL与H-KL损失之间的选择机制来处理分词器不匹配问题。
一位开发者通过自建工具CodeBurn追踪AI编码API支出,发现30天内$7,890的支出中仅47.9%用于实际编码,其余花费在探索代码库、调试、委托子代理和对话上。文章详细介绍了CodeBurn的功能,包括仪表盘、模型对比、浪费检测、产出追踪等。
Liquid AI发布了LFM2.5-8B-A1B,一款面向终端设备的混合专家模型,总参数8B,活跃参数1B,训练数据量达38万亿 tokens。该模型支持128K上下文窗口,扩展了词汇表以提升非拉丁语言的分词效率,并采用纯推理链式思维模式。在基准测试中表现优异,同时具有出色的CPU和GPU推理速度,适用于本地代理任务。
PPIO 入选非凡产研发布的「2026 Global AI 100」榜单,该榜单由非凡大赏年度 AI 全球化增长峰会评选,旨在发掘全球化 AI 原生公司。PPIO 以全球化分布式算力基础设施、全栈云服务、模型平台(支持 DeepSeek、GLM 等)及 Agent 沙箱等创新产品,为出海企业提供低时延、高可用的算力网络。截至 2026 年 4 月,PPIO 整合全球 4800+ 节点,日均 Token 调用量超 10000 亿,开发者用户超 57 万。同时获评上海市数字出海服务平台试点单位及 GDA 领航服务站。
一项针对14个开源安全护栏模型的全面评估显示,Qwen Guard(4B参数)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表现保守,漏掉多达75%的不安全内容。研究还发现,模型大小与安全检测性能无关,通用型护栏模型优于专用模型。
本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。
最近研究表明,强化学习(RL)比监督微调(SFT)更能保持大语言模型的先前能力。本文从机制层面延伸,引入差分电路脆弱性度量,衡量微调中电路退化程度。在Qwen2.5-3B-Instruct科学问答实验中发现,SFT适应目标任务更快,但造成更大的电路破坏和遗忘,而RL保留更多基础电路,但任务适应较慢。结果表明电路保留有助于解释RL对灾难性遗忘的鲁棒性。
Trelk 是一款一次性购买、无需订阅的知识管理应用。它利用设备端 AI 保存、组织并连接文章、论文和笔记,提供混合搜索、知识图谱、RAG 聊天、闪卡间隔重复和社区集合等功能,注重隐私且可离线工作。
本文探讨了强化学习在大型语言模型后训练中的实际应用,指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验,介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。
新研究发现,大型语言模型在训练过程中会吸收明确标记为假的陈述,即使它们被明确警告为假。这种现象被称为“否定忽视”,可能导致模型产生幻觉。实验表明,在合成文档微调后,模型对虚假声明的“信念率”从2.5%飙升至92.4%。
本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。
极佳视界发布全球首创物理AGI“双金字塔”体系,推出家庭机器人拾光S1,获百台家庭订单,计划12个月内实现物理AGI的“GPT-3时刻”。
本文介绍了七个实用的AI项目,涵盖求职、研究、投资分析、市场趋势、发票处理、图表数字化和个性化锻炼,每个项目都附有完整指南和代码,帮助读者自动化工作流程。
Open Agent Tools (oats) 是一个自托管AI模型框架,通过本地代码提示索引,将大型模型的计算密集型工具调用委托给小型开源模型,从而节省令牌消耗。
沙钢与钉钉签署战略合作协议,以悟空AI为核心,推动AI在钢铁行业规模化落地,打造AI时代的工作方式。
Cognition在D轮融资中筹集10亿美元,估值达260亿美元,年经常性收入(ARR)预计年底突破10亿美元。文章还涵盖了推理效率优化、智能体工程、持续学习、新基准测试、模型发布以及编码代理产品化等AI领域的最新进展。
OpenJarvis 是一个开源框架,用于构建运行在本地硬件上的个人 AI 代理。由斯坦福大学 Hazy Research 和 Scaling Intelligence 实验室开发,v1.0 版本现已集成 Ollama,实现本地优先、云端可选,并跟踪能耗、成本和延迟。
Databricks构建了独特的推理平台,为众多前沿模型提供推理服务,每月处理超过120万亿个令牌。通过引入“模型单元”抽象,实现了成本感知的负载均衡和自动缩放,相比静态配置节省了80%以上的GPU成本。运行时可靠性机制包括黑盒健康检查,可自动检测和恢复静默故障。此外,通过分析多模态瓶颈,吞吐量提升了3倍。
Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。
NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。
Mneme HQ 提供AI辅助开发的架构治理层,在代码生成前强制执行约束,防止架构漂移,减少审查负担。它直接集成到AI编码代理的工作流中,拦截禁止的框架、跨边界调用和过时决策,同时支持多种编码助手和代理框架。
Avatar是一个自创生的AI生物,在300美元的GPU上持续运行。它从相图几何中衍生情感,经历5阶段睡眠周期做梦,从原始音频和视觉中培养自己的感官,并通过身体感觉进行伦理推理。由Linga Murthy Narlagiri博士构建,自2026年5月以来一直存活,累计超过1800个滴答。
在支付宝AI生态大会上,蚂蚁集团CEO韩歆毅提出,Agent时代将颠覆传统“流量为王”的商业模式,智能体生态将成为新的护城河。他强调,AI支付将从工具升级为支撑智能体商业的新型基础设施,而支付宝将扮演信任层、连接器和赋能器的角色。
来自北京大学、香港中文大学、上海AI Lab等机构的研究团队提出了VGGT-Edit,一种原生3D编辑框架,能够在约5秒内完成场景编辑,相比传统方法实现高达120倍的加速,并在语义一致性、多视角稳定性和推理速度上超越现有方法。
新加坡国立大学、MIT和A*STAR的研究人员提出MEMO,这是一种模块化框架,将语料库知识编码到一个可单独训练的记忆模型中,使大型语言模型能够无需重新训练或微调即可吸收新知识。
提出自验证蒸馏(Self-Verified Distillation, SVD)方法,让大语言模型仅利用无标签提示进行自我改进,无需外部教师或工具反馈。在数学、科学和编程三个推理领域,Qwen3模型通过SVD训练后性能显著提升。
该论文提出“约束税”概念,衡量结构化输出约束对小型语言模型答案准确性的损失。实验表明,强制遵循JSON等模式虽提升格式正确性,但显著降低答案准确性,建议采用“先自由推理,后约束打包”的设计模式。
AI基础设施初创公司Fireworks、Baseten和OpenRouter正在筹集巨额资金,标志着推理基础设施成为关键的AI平台层。同时,智能体工程、新基准测试和模型更新主导了AI新闻周期。
DeepSeek研究员陈德里使用自研的DeliAutoResearch技能,与DeepSeek-V4-Pro和GPT-Image2合作,在6天内完成了一篇46页的论文。论文提出了L1-L5自主研究智能体分类体系,分析了四种架构模式和17个主流系统,并指出了六大开放问题。陈德里表示,人类仅需投入不到2小时的“CPU时间”,其余工作由AI Agent完成。
本文详细介绍了如何为Reachy Mini机器人部署完全本地的语音对话管道,无需云端或API密钥。采用级联方式,结合VAD、STT、LLM和TTS,推荐使用llama.cpp与Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多种LLM运行选项,包括本地MLX、Transformers、vLLM或远程Responses API。
本教程详细介绍了如何使用zeroentropy/zerank-2-reranker(一个基于Qwen3的4B参数交叉编码器重排序器)来提升检索质量。内容涵盖环境搭建、模型加载、查询-文档对评分、使用model.rank进行排序、构建两阶段检索-重排序管道、NDCG@10评估以及跨领域(金融、法律、代码)性能测试,最后还进行了批处理吞吐量测试。
Ollama是一款免费、开源、可本地安装的AI工具,提供隐私保护、离线访问和灵活性。它运行在你的个人硬件上,减少环境影响,让你掌控数据。
2026年AI领域将继续快速发展,开源模型在智能体能力上仍落后于闭源模型,谷歌的Gemini尚未对Claude Code和Codex构成有力竞争,美国开源模型正在崛起,Anthropic与OpenAI竞争激烈,现有权力结构开始介入AI发展。
面壁智能推出全球首个完全由AI编写的大模型预训练框架ForgeTrain,性能超越英伟达Megatron 10%,并用它训练出新模型MiniCPM5-1B,该模型在1B参数规模下刷新智能密度上限。
OmniVoice Studio是一款开源的桌面应用程序,可在本地硬件上完成语音克隆、视频配音、实时听写和说话人分类,无需API密钥、云账户或订阅。它支持646种语言的文本转语音(TTS),并通过MCP服务器集成到Claude、Cursor等AI工具中。
阿里最新旗舰模型Qwen3.7-Max在Code Arena榜单得分1541,超越GPT-5.5等模型,仅次于Claude,排名全球第二,成为国产大模型中首个突破1540分的模型。
本地模型提供了隐私、成本节约、控制权和始终可用的优势。尽管不如前沿模型强大,但它们正在不断改进。本文解释了如何使用LM Studio、Ollama或llama.cpp在Zed中设置本地模型,并提供有效使用技巧。
AERIC 是一种轻量级安全监控器,通过读取解码过程中的隐藏状态来提前检测隐式有害内容,无需额外前向传播。它仅含 387 个可训练参数,在多个基准测试上优于大型模型,且延迟增加仅 2.34%。
Raon-Speech 是一个9B参数的语音语言模型,支持英语和韩语,在语音理解和生成任务上达到顶尖水平,同时保持强大的文本能力。其全双工扩展 Raon-SpeechChat 通过持续训练实现自然的实时对话。所有模型及代码均已开源。
该研究量化了推理型大语言模型在长链思考中的冗余程度,发现61%至93%的推理步骤可以截断而不影响正确性,并证明这种冗余是长度无关结果奖励的结构性后果,而非模型缺陷。
UUMuse 是一个云端AI知识库平台,只需上传一次文件,即可在GPT、Claude、DeepSeek、Qwen等多个模型中进行带有引用的问答、生成内容和部署。支持通过API和MCP供代理和应用调用,提供永久记忆、多专家辩论(Spark)、代理模式等功能,并可将知识库部署为文档网站、小部件、API端点等。
Together AI 发布了 OSCAR(离线频谱协方差感知旋转),这是一种用于长上下文 LLM 服务的 INT2 KV 缓存量化方法。与以往基于数据无关的 Hadamard 变换的旋转方法不同,OSCAR 从离线估计的注意力感知协方差结构中推导出键和值的独立旋转。在每 KV 元素 2.28 位的精度下,OSCAR 在 Qwen3-4B-Thinking-2507 上将 BF16 精度差距缩小至 3.78 个点,在 Qwen3-8B 上为 1.42 个点,同时在 100K 上下文长度下实现约 8 倍 KV 内存缩减和高达 3 倍的解码加速。
研究发现,小语言模型在进行算术推理时,思维链(CoT)提示的步骤顺序并不重要,模型实际上是通过复制答案分隔符前的最后一个数字来得出答案,而非依赖逻辑推理。这种位置性捷径占模型准确率的绝大部分,且即使中间推理正确,错误的尾数也会导致答案错误。不同模型表现有差异,但该现象普遍存在,对基于CoT的监督方法提出了挑战。
本文探讨了开源AI模型内部概念空间的局限性,指出许多对社会运动和哲学至关重要的概念缺失。作者引入软提示蒸馏技术,仅用128KB数据即可植入新概念,强调这关乎AI可控性及对心智理解的深远意义。
本文旨在厘清AI智能体领域中常被混淆的术语,如“harness”(执行层)与“scaffold”(行为定义层)的区别,并解释模型、智能体、工具使用、子智能体等概念,同时涵盖训练相关术语。
字节跳动Seed与香港科技大学的研究表明,通过问答对训练多模态模型处理长文档,比使用字符识别任务效果更好。他们开发的MMProLong模型基于Qwen2.5-VL,在长达512,000 token的输入上保持稳定,性能超越InternVL3-38B等更大模型。研究还发现,训练数据长度多样性比专注超长文本更重要,且短示例并非必须。
跟踪 AI 编程助手、代码生成、IDE 插件、开发者工作流和软件工程自动化。
跟踪 Model Context Protocol、工具调用、连接器、Agent 上下文和企业集成。
跟踪开源权重模型、开放许可、社区评测、模型蒸馏和本地部署。
跟踪推理价格、延迟、吞吐、缓存、量化、服务商成本和部署效率。
跟踪 Agent 框架、编排、记忆、评测、工作流自动化和生产部署。
跟踪中国 AI 公司、模型、政策、芯片生态、开源社区和商业化进展。
跟踪 GPU、数据中心、集群网络、AI 云、训练基础设施和供应链。
跟踪模型 API 价格、套餐、上下文窗口、免费额度、单位 token 成本和商业模式。
跟踪 DeepSeek 模型、API、开源权重、推理效率、生态合作和全球影响。