AI News HubLIVE

中国 AI动态

谷歌与FBI首次联合起诉中国AI诈骗网络,OpenAI封禁涉华影响力集群

谷歌和OpenAI几乎同时揭露了据称源自中国的利用AI进行欺诈和隐秘影响力活动的行动。谷歌起诉了一个名为“Outsider Enterprise”的中国网络犯罪团伙,该团伙利用其AI系统Gemini针对数十万美国人进行金融诈骗。同时,OpenAI封禁了两个据称位于中国的ChatGPT集群,这些集群试图操纵美国科技政策辩论。

  • 谷歌与FBI合作起诉中国犯罪网络,称其利用Gemini生成虚假网站和消息进行诈骗。
  • OpenAI封禁两个集群,分别针对AI数据中心扩张和贸易政策进行影响力操作。
站内正文

Moonshot AI发布Kimi Work:本地桌面代理运行于Kimi K2.6,拥有300个子代理的代理群

Kimi Work是Moonshot AI推出的本地桌面AI代理,支持macOS和Windows。它能在用户本地运行多达300个子代理的代理群,通过WebBridge控制已登录的浏览器,并内置定时任务引擎。基于Moonshot的旗舰模型Kimi K2.6(混合专家模型,激活参数约320亿,上下文窗口256K),它可读取本地文件、运行Python脚本、生成报告和幻灯片。与云端代理不同,它直接在用户桌面上执行操作,保证数据本地化。

  • Kimi Work是本地桌面代理,而非云端工具,可直接访问用户本地文件和浏览器会话。
  • 支持最多300个子代理并行工作,协调完成复杂任务。
站内正文

Pythagoras-Prover: 通过增强型Lean形式化推进高效形式化证明

Pythagoras-Prover是一个计算高效的Lean定理证明器家族,包含4B和32B的自回归模型以及4B的扩散模型。它通过分层课程SFT和动态证明过滤提高训练效率,并引入增强型Lean形式化(ALF)扩展验证语料库。实验显示,4B模型在MiniF2F-Test上以86.1%的pass@32超越DeepSeek-Prover-V2-671B(82.4%),而32B模型达到93.0%的新开源最佳水平,并在PutnamBench上解决93个问题。

  • Pythagoras-Prover包含4B和32B自回归模型及4B扩散模型,扩散模型在推理时迭代细化证明。
  • 通过分层课程SFT和动态证明过滤实现训练效率提升,保持8k token上下文预算。
站内正文

构建巴基斯坦通知助手:一款针对本地安全问题的简易AI工具

作者为Hugging Face的Build Small黑客马拉松开发了一款专注于巴基斯坦本地安全问题的AI工具——巴基斯坦通知助手。该工具使用小模型(Qwen3.5 4B)分析可疑消息,提供风险标签、解释和下一步安全建议,支持英文和乌尔都语(包括从右到左的布局)。文章详细分享了模型选型、技术栈、用户界面设计以及使用Codex加速开发的经验。

  • 巴基斯坦通知助手是一款针对巴基斯坦本地诈骗消息的AI安全工具,支持文本和截图分析。
  • 最终采用Qwen3.5 4B Q8模型(通过llama.cpp),在评估中所有高风险诈骗案例和截图案例均通过。
站内正文

Seedream 5.0 图像与视频——一站式AI创作平台

字节跳动旗舰AI图像模型Seedream整合Kling 2.1视频动画,提供从文本到图像再到视频的完整创作流程。支持四种版本一键切换,免费试用,定价灵活,适用于电商、社交媒体等场景。

  • 集成Seedream 4.5/5.0/5.0 Lite/4.0四种版本,可自由切换
  • 图像生成后一键通过Kling 2.1转化为5-15秒视频
站内正文

美国人工智能的OnlyFans经济

本文尖刻批评了美国AI行业的现状,将之称为“OnlyFans经济”,指责Anthropic和OpenAI等公司过度炒作、定价高昂且充满虚伪。作者对比中国模型Qwen 3.7 Max,认为其在实用性和性价比上全面超越美国前沿模型,并呼吁开发者根据实际需求理性选择,避免为品牌溢价付费。文章还警告了盲目追捧带来的估值泡沫可能对普通投资者造成伤害。

  • 作者批评美国AI公司(尤其是Anthropic和OpenAI)的虚伪和傲慢,认为其存在双重标准。
  • 中国开源模型Qwen 3.7 Max在性能和成本上优于美国前沿模型,成为更具性价比的选择。
站内正文

展示 HN:为 5090 找到的最佳本地 LLM 设置(llama.cpp 分支 + turboquant)

本文详细介绍了如何在单张 32GB VRAM 的 RTX 5090 显卡上,通过 llama.cpp 的 TurboQuant 分支和 YaRN 缩放技术,运行 Qwen 3.6 35B MoE 模型并实现 450K token 的上下文窗口。内容涵盖模型选择、量化权衡、内存预算校准、KV 缓存量化、RoPE 缩放、多模态设置、实际复制指南、VRAM 生命周期管理以及性能评估。

  • 使用 Qwen3.6-35B-A3B-Q6_K 模型,结合 llama.cpp 的 TurboQuant 分支,在 RTX 5090 上实现 450K 上下文。
  • 通过 3-bit KV 缓存量化(turbo3)和 YaRN 缩放将上下文从 262K 扩展到 450K,但会带来困惑度损失和检索精度下降。
站内正文

五个实验室,五个思维:用小型模型构建多模型金融戏剧

本文介绍了《千令牌之林》v2版本,这是一个基于多个小型语言模型的多智能体经济模拟游戏。玩家扮演隐匿的金融家,通过借贷、提供内幕消息(真假皆有)、做空和贿赂来影响市场,而每个智能体(动物角色)使用来自不同实验室的小型模型(GPT-OSS-20B、MiniCPM3-4B、Nemotron-Mini-4B和微调Qwen 0.5B)。文章详细讨论了异构模型集成的技术挑战(如vLLM服务层、CUDA工具链)、信息不对称的防火墙设计、记忆管理(采用有界摘要而非完整历史)以及实验结果(真相防火墙零泄露、内幕消息优势、微调模型高可靠性)。最终结论是:小型模型是可靠的格式生成器但推理不可靠,异构模型群体更有趣且配置成本低,秘密信息必须通过数据流防火墙保护,持久记忆需有界以保持模型专注。

  • 每个智能体使用不同实验室的小型模型,异构性使市场行为更真实
  • 信息不对称通过防火墙设计实现,测试证明内幕消息的隐藏标志从未泄露
站内正文

职位搜索器:AI驱动的求职助手

职位搜索器是一款为应届毕业生设计的AI工具,通过分析简历自动生成LinkedIn搜索查询,并基于技能、经验、教育、行业和资历五个维度对职位进行评分。该项目使用DeepSeek V4 Pro作为教师模型生成标签,Qwen3-8B作为学生模型进行推理,训练数据包括2500份简历和约10000个职位。所有代码、数据集和模型均已开源。

  • 自动简历分析并生成LinkedIn搜索查询
  • 基于五个维度的职位匹配评分
站内正文

新型开源语音模型持续监听,每0.4秒决定是否说话或保持沉默

与GPT-4o或Qwen3.5-Omni不同,Audio Interaction无需等待录音结束:它能在单一流中翻译、转录、聊天并识别咳嗽等日常噪音。代码、模型权重和下载说明已在GitHub上以Apache 2.0开源许可发布,训练数据将后续提供。

  • Audio Interaction模型能够持续监听音频流,每0.4秒做出决策。
  • 该模型支持翻译、转录、对话以及环境噪音识别。
站内正文

千符森林:在3B模型上运行多智能体经济

一篇关于在Build Small Hackathon中构建的微型多智能体经济模拟的现场报告,使用Qwen2.5-3B模型驱动五个林间生物进行贸易、囤积和恐慌。文章探讨了小型模型在实时仿真中的可行性、设计稀缺性的必要性以及如何通过提示工程弥补模型推理能力的不足。

  • 使用3B参数模型实现了多智能体经济的实时模拟,证明了小型模型在特定场景下的实用性。
  • 通过设计食物多样性、易腐性和冬季燃料危机等机制,引入了稀缺性,使经济活动得以持续。
站内正文

面向电信客服的小语言模型参数高效微调:基于LoRA配置与能耗分析的比较研究

该论文系统研究了使用低秩适应(LoRA)对Qwen2.5-3B进行参数高效微调,以构建电信客服领域的专用对话助手。研究引入了组合式合成数据生成方法,评估了16种LoRA配置,揭示了定量验证损失与定性人工对齐排名之间的差异,并提供了能耗-性能权衡分析。

  • 使用52个行业术语的组合式合成数据生成方法,生成了约30,000个训练样本,覆盖1,560个不同问题场景。
  • 对16种LoRA配置的评估显示,最低验证损失(0.5024)在定性评估中仅排第6-7位,而最高损失(0.6807)被两位评判者均评为第一。
站内正文

通用三重潜在压缩与门控联想检索

本文研究通用三重潜在序列模型,该模型通过维护运行中的令牌状态和压缩的配对记忆路径来捕获高阶令牌交互,无需特定基准解析。三重潜在族在字节级WikiText-2和基于分词器的MiniMind语言模型基准上改进了小型Transformer基线,而专注于回忆的门控键值检索扩展提高了联想回忆能力,但对种子敏感且当前参考实现速度较慢。

  • 提出通用三重潜在序列模型,结合运行令牌状态和压缩配对记忆路径。
  • 在WikiText-2和MiniMind基准上优于小型Transformer基线。
站内正文

通过基于方差感知的评分奖励与GRPO改进LLMs中专注于心脏的医学问答

本研究提出了一种采用组相对策略优化(GRPO)结合方差感知奖励框架的方法,用于后训练大型语言模型(LLMs)以提升其在心脏相关医学问答中的表现。该方法将传统的二元标准聚合和整体Likert评分替换为连续分析奖励函数,从而提供更丰富的优化信号。在HealthBench的心脏子集上,最佳变体相对于Qwen3-14B基础模型将准确率从0.362提升至0.502,F1从0.532提升至0.668,性能与GPT-OSS-120B相当。

  • 提出方差感知奖励框架,利用GRPO对LLMs进行后训练,专注于心脏医学问答。
  • 用连续分析奖励函数取代二元标准聚合和整体Likert评分,增强优化信号。
站内正文

大型语言模型中的时间偏好概念及其功能

研究人员在一款蒸馏版大型语言模型(Qwen3-4B-Instruct-2507)中定位了负责时间偏好的神经子图,发现模型对未来折扣的程度远低于人类,且这种偏好在不同上下文中不稳定,而通过引导向量可以调节时间偏好。

  • 在模型的中高层节点定位了时间偏好子图
  • 时间偏好的几何结构编码在残差流中
站内正文

DeepSWE 结果不可靠——同一模型解决了全部 3/3 个“失败”任务

对 DeepSWE 基准测试的审计发现,deepseek-v4-pro 的报告结果(8% 解决率,平均成本 4.22 美元)存在多个问题:成本因忽略缓存定价膨胀约 5 倍,所有三个失败任务均被同一模型成功解决,OpenRouter 隐私设置默认阻止 DeepSeek 导致 404 错误,且模型未像竞品一样进行推理努力调优。

  • 成本膨胀约 5 倍:基准测试对所有输入令牌按缓存未命中率计费,忽略 78% 的缓存命中(99.2% 折扣)。
  • 三个“失败”任务全部解决:使用相同模型 deepseek-v4-pro,总成本约 0.86 美元。
站内正文

SMAC-Talk: 面向大语言模型的星际争霸多智能体挑战的自然语言扩展

SMAC-Talk 是星际争霸多智能体挑战(SMAC)的自然语言扩展,专为评估基于大语言模型(LLM)的智能体在协作多智能体环境中的表现而设计。该环境保留了分散控制、部分可观测性和长期决策等关键特性,并新增了一个自然语言通信通道,用于探测智能体的协调与信任。研究设置了包含欺骗性通信者的场景,并使用 Qwen3.5 系列中的四个模型进行了基准测试,考察了推理结构、记忆和模型规模对协调的影响。SMAC-Talk 已作为开放基准发布。

  • SMAC-Talk 扩展了星际争霸多智能体挑战,引入自然语言通信通道以评估 LLM 智能体的协调能力。
  • 环境支持分散控制、部分可观测性和长期决策,并包含欺骗性通信者场景以测试鲁棒性。
站内正文

使用SFT和DPO在Amazon SageMaker AI上提高智能体的工具调用准确性

本文介绍了如何结合监督微调(SFT)和直接偏好优化(DPO)来提升小型语言模型(SLM)的工具调用准确性。示例使用Amazon SageMaker AI训练作业,并基于Qwen3 1.7B模型和When2Call数据集进行微调。文章还涵盖了环境设置、数据准备、训练与评估过程。

  • 监督微调(SFT)和直接偏好优化(DPO)结合可有效提升智能体工具调用准确性。
  • 使用Amazon SageMaker AI训练作业,无需管理基础设施。
站内正文

Qwen 3.7 Plus:阿里巴巴的高智能但昂贵且缓慢的模型

Qwen 3.7 Plus 是阿里巴巴于2026年6月发布的专有推理模型,在人工智能分析智能指数上得分53,远超平均水平。然而,它的价格昂贵,速度较慢,且非常冗长。该模型支持文本、图像和视频输入,上下文窗口达100万token。

  • 智能得分53,远超同类模型平均水平(23)。
  • 输入价格每百万token 0.40美元,输出价格1.16美元,属于昂贵区间。
站内正文

DigitalOcean 成为 OpenRouter AI 模型提供商

DigitalOcean 宣布成为 OpenRouter 的模型提供商,提供 DeepSeek V3.2、Kimi K2.6 和 DeepSeek V4 Flash 模型。此举表明该公司正从云基础设施扩展到 AI 推理领域。

  • DigitalOcean 在 X 上宣布成为 OpenRouter 的模型提供商
  • 首批模型包括 DeepSeek V3.2、Kimi K2.6 和 DeepSeek V4 Flash
站内正文

线性探针检测到的是任务格式,而非语言模型隐藏状态中的推理模式

一项针对Qwen3-14B隐藏状态的探测研究表明,线性探针在分类推理类型(演绎、归纳、溯因)时达到了100%的准确率,但实际上检测的是任务格式混淆因素(如来源、选项数量、响应长度),而非真正的推理模式。消除混淆后,准确率降至随机水平,因果干预实验也未发现功能关联。研究结果呼吁在机械可解释性中进行常规的任务格式去混淆。

  • 线性探针可100%准确区分LLM隐藏状态中的推理类型。
  • 控制任务格式混淆因素(如来源、选项数)后,准确率降至随机水平。
站内正文

AURA:恒定VRAM的机器人策略动作门控记忆

AURA-Mem是一种针对机器人策略的恒定大小循环记忆,通过动作门控机制仅在观察改变未来动作时才写入,显著减少内存写入次数,同时保持准确性。在合成基准和真实机器人任务中,AURA-Mem匹配或超越基线,且内存占用恒定(4,224字节),远小于KV缓存。

  • AURA-Mem使用恒定大小(4,224字节)的循环记忆,替代可增长的KV缓存。
  • 动作门控机制根据是否影响后续动作决定写入,减少5-7倍写入次数。
站内正文

Dropstone 1.5:每月15美元,两倍于Claude Code的使用量

Dropstone 1.5 是一款终端中的AI编程代理,每月重新评估顶级模型并切换至最佳者。当前基于DeepSeek和Kimi模型,美国服务器托管,不存储数据。每月15美元提供约450次深度编程会话,约为Claude Code Pro的两倍(后者20美元)。注重安全,所有操作需确认。

  • 每月15美元,约450次深度编程会话,是Claude Code Pro的两倍。
  • 使用DeepSeek V4 Flash、V4 Pro和Kimi K2.6模型,美国服务器托管。
站内正文

阿里Qwen团队推出Qwen3.7-Plus:在百炼平台新增视觉、深度推理、工具调用和自主迭代能力

阿里云Qwen团队发布了Qwen3.7-Plus,这是一款多模态大语言模型,支持图像和视频理解,并具备深度推理、自编程、工具调用、验证测试和自主迭代等智能体功能。该模型现已在百炼平台(国际版称Model Studio)提供API服务。其预览版在Vision Arena中排名第16,使阿里巴巴在视觉领域实验室中位列第5。

  • Qwen3.7-Plus是阿里云百炼平台上的多模态智能体模型,支持图像和视频理解。
  • 新增五大智能体能力:深度推理、自编程、工具调用、验证测试和自主迭代。
站内正文

欧盟将加入美国主导的芯片联盟“Pax Silica”以对抗中国AI竞赛

欧盟将加入由华盛顿主导的“Pax Silica”倡议,该倡议旨在协调出口管制和先进芯片的共同投资,以遏制中国在人工智能等领域的技术崛起。

  • 欧盟将加入美国领导的芯片联盟Pax Silica。
  • 该联盟旨在协调出口管制和芯片投资,限制中国AI发展。
站内正文

SENSE:基于语义嵌入导航与软门控评估的检索式推测解码方法

提出SENSE方法,通过基于目标模型隐藏状态的语义检索和软门控评估,提升检索式推测解码的鲁棒性和效率,在LLaMA和Qwen上实现高达4.09的平均接受长度和3.26倍加速。

  • SENSE利用目标模型隐藏状态进行语义检索,取代传统基于词汇的检索。
  • 引入软门控评估模块,验证语义等价性而非表面形式。
站内正文

[AINews] NVIDIA Cosmos 3, Nemotron 3 Ultra 和 RTX Spark

NVIDIA 发布了 Cosmos 3 统一多模态世界模型、Nemotron 3 Ultra 高效 LLM 和 RTX Spark 个人 AI 超级芯片。同时,MiniMax M3、Qwen3.7-Plus 和 JetBrains Mellum2 等开放模型推动智能体领域发展。

  • NVIDIA 推出 Cosmos 3,采用 Mixture-of-Transformers 架构,统一语言、图像、视频、音频和动作。
  • Nemotron 3 Ultra 为 550B 参数开放权重模型,成为美国最新 SOTA,速度快至 300+ tok/s。
站内正文

高效推理服务MiniMax-M3:解锁百万Token上下文与多模态能力,毫无遗憾

Together AI 通过KV块主稀疏注意力、分页MSA解码、优化索引评分内核以及基于Rust的多模态预处理网关等创新,实现了对MiniMax M3模型的高效服务,在不同并发级别下吞吐量提升81%–125%。

  • MiniMax M3 是一款集成编码、智能体工作流和多模态推理的全能模型,支持1M上下文窗口。
  • Together AI 的推理和内核团队实现了多项工程突破,包括KV块主稀疏注意力内核和分页注意力集成。
站内正文

MiniMax 发布 M3 模型:采用 MSA 架构,支持 100 万 Token 上下文、原生多模态与智能编程

MiniMax 于 2026 年 6 月 1 日正式发布 M3 模型,引入 MiniMax 稀疏注意力(MSA)架构,支持 100 万 Token 上下文窗口、原生图像/视频输入及桌面操作,API 已上线。

  • M3 采用 MSA 稀疏注意力架构,在 100 万 Token 上下文下,预填充速度提升 9 倍以上,解码速度提升 15 倍以上。
  • SWE-Bench Pro 得分 59.0%,超越 GPT-5.5 和 Gemini 3.1 Pro。
站内正文

MiniMax M3:拥有百万token上下文窗口的开源模型挑战专有领导者

中国AI公司MiniMax发布了其新模型M3,号称是首个结合顶尖编码性能、百万token上下文窗口和原生多模态能力的开源模型。

  • MiniMax发布M3模型,是首个结合顶级编码、百万token上下文和原生多模态的开源模型。
  • 该模型旨在挑战专有模型在性能上的领先地位。
站内正文

MiniMax推出专为长复杂编程任务设计的AI模型

中国人工智能初创公司MiniMax发布了其最新旗舰AI模型M3,该模型专为编码代理和自动化工作流设计,能够处理高达100万令牌的数据,计算需求降至原来的二十分之一,并在编程基准测试中击败了OpenAI GPT-5.5和Google Gemini 3.1 Pro。公司还启动了科创板IPO准备,并与蚂蚁集团支付宝合作以拓展AI支付基础设施。

  • MiniMax发布新模型M3,支持100万令牌上下文,计算成本降低至二十分之一。
  • M3在SWE-Bench Pro基准测试中优于OpenAI GPT-5.5和Google Gemini 3.1 Pro。
站内正文

Token贵只因你喂给模型的垃圾太多了丨@亚马逊王晓野AIGC2026

亚马逊云科技技术总监王晓野在2026中国AIGC产业峰会上指出,87%的企业宣称大规模部署AI,但仅10%获得实际价值。他强调了个人与企业级Agent落地的巨大差异,提出企业需要关注算力、模型、数据、Agentic平台和应用五层能力,并指出Token贵往往是因为喂给模型过多无用信息。

  • 87%企业部署AI但仅10%获得价值
  • 个人与企业级Agent落地是两回事
站内正文

PhyDrawGen:从自然语言生成符合物理规律的图表

PhyDrawGen是一种神经符号管道,可从文本生成物理图,严格遵循物理定律。它先由大语言模型提取场景图,再由确定性求解器转换为平面直线图,最后通过微调Qwen-VL模型进行验证。在1449个物理问题基准测试中,其物理准确性显著优于GPT-5-image等模型。

  • PhyDrawGen将大语言模型、确定性求解器和视觉模型结合,确保物理图准确。
  • 它有效避免了力向量幻觉和违反守恒定律等问题。
站内正文

别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

复旦大学和通义实验室联合提出ToolCUA,解决混合GUI-Tool动作空间中的路径选择难题。ToolCUA-8B在OSWorld-MCP上达到46.85%准确率,超过Claude-4-Sonnet。通过两阶段训练(数据合成与在线强化学习),模型学会何时使用GUI或工具,显著提升任务成功率与效率。

  • 混合GUI-Tool动作空间导致模型路径困惑,准确率不升反降
  • ToolCUA提出两阶段训练:先合成交错轨迹数据,再通过在线强化学习优化路径选择
站内正文

为什么中国AI实验室选择开源并将继续开源

文章指出中国AI实验室开源模型并非出于国家战略,而是商业策略,旨在通过开源获得全球关注和信任。以DJI和Insta360为例,它们在YouTube上的营销成功证明了市场推广的重要性。中国AI实验室缺乏国际营销能力,因此开源成为他们进入全球对话的唯一途径。未来,开源模型将继续发布,并可能涉及定制化标准。

  • 中国AI实验室开源是为了获得全球关注和信任,而非政府推动。
  • 它们缺乏国际营销团队,开源成为进入全球对话的唯一方式。
站内正文

AI原生时代下,让世界适应Agent,而非教AI做人 | 港大黄超@AIGC2026

港大助理教授黄超在2026中国AIGC产业峰会上提出,Agent时代应重新设计数字世界基础设施,让软件直接说AI语言(CLI),而非让AI模仿人类界面。其团队开源的轻量级Agent nanobot已获20万下载,并展示了CLI-Anything等创新,强调Agent自进化应采用技能积累的外部进化模式。

  • 黄超认为应重新设计数字世界为Agent优化,而非让Agent适应人类工具。
  • 开源通用Agent nanobot,连续100天迭代,下载量超20万。
站内正文

从Token无上限到全员Agent:MiniMax的AI Native组织进化实践

MiniMax是一家专注多模态模型的AI创业公司,于2026年1月港股上市。公司坚持大模型与应用并行、ToC和ToB并重。内部实践中,全员不限量使用Token,利用Agent自动化工作流,从高价值但不受欢迎的场景切入,显著提升效率并推动组织扁平化。未来2-3年AI将与各行业深度融合。

  • MiniMax从创立起致力于下一代AI,强调Intelligence with Everyone,坚持大模型与应用、ToC与ToB双轮驱动。
  • 内部实践:全员无上限Token、Agent参与HR筛选与代码生成、组织扁平化,研发效率提升30%。
站内正文

英伟达称已基本将中国AI芯片市场让给华为

英伟达CEO黄仁勋表示,由于美国出口限制,公司已基本将中国AI芯片市场让给华为。尽管季度业绩强劲,但英伟达在中国的销售前景有限。

  • 英伟达因美国出口管制向华为退让中国AI芯片市场。
  • 英伟达一季度营收增长85%至816.2亿美元,宣布800亿美元回购。
站内正文

利用IBM量子采样循环调优仅CPU的Qwen3-30B推理

一个研究项目展示了在2017年MacBook Air上,通过结合人类实验者、Codex、llama.cpp、本地数据库和IBM量子处理器采样,将Qwen3-30B模型的推理速度从0.09 tokens/sec提升至14.03 tokens/sec,同时保持输出连贯性。该方法并非在量子处理器上运行模型,而是用量子采样优化推理配置。

  • 在8GB内存的2017年MacBook Air上,无GPU运行Qwen3-30B模型
  • 通过人机协同量子优化循环,速度从0.09 tok/s提升到14.03 tok/s
站内正文

新综述论文:代码不仅是AI智能体的产物,更是其思考与行动的方式

一篇新综述论文指出,自主AI智能体的真正瓶颈并非语言模型本身,而是围绕其构建的软件层。工具、记忆、测试和权限边界将无状态模型转变为可工作的智能体。Deepseek已在北京组建专门的“Harness”团队,其核心公式验证了该论点:模型加Harness等于AI智能体。

  • 论文强调AI智能体的瓶颈在于软件封装层,而非语言模型。
  • 工具、记忆、测试和权限管理是将模型转化为智能体的关键。
站内正文

PPIO入选非凡产研「2026 Global AI 100」,以AI实力领跑出海新浪潮

PPIO 入选非凡产研发布的「2026 Global AI 100」榜单,该榜单由非凡大赏年度 AI 全球化增长峰会评选,旨在发掘全球化 AI 原生公司。PPIO 以全球化分布式算力基础设施、全栈云服务、模型平台(支持 DeepSeek、GLM 等)及 Agent 沙箱等创新产品,为出海企业提供低时延、高可用的算力网络。截至 2026 年 4 月,PPIO 整合全球 4800+ 节点,日均 Token 调用量超 10000 亿,开发者用户超 57 万。同时获评上海市数字出海服务平台试点单位及 GDA 领航服务站。

  • PPIO 入选「2026 Global AI 100」榜单,彰显其在 AI 出海领域的领先地位。
  • 提供全球化分布式算力基础设施,覆盖 GPU 全型号,支持大规模训练与推理。
站内正文

开源安全护栏模型基准测试:一项全面评估

一项针对14个开源安全护栏模型的全面评估显示,Qwen Guard(4B参数)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表现保守,漏掉多达75%的不安全内容。研究还发现,模型大小与安全检测性能无关,通用型护栏模型优于专用模型。

  • Qwen Guard(4B参数)在79,331个样本的基准测试中召回率最高(83.97%)。
  • Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全内容。
站内正文

RightNow-Arabic-0.5B-Turbo:通过词汇注入和边缘优先部署的开源子10亿阿拉伯语语言模型

本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。

  • 基于Qwen2.5-0.5B构建的518M参数阿拉伯语专用LLM,通过词汇注入增加27,032个阿拉伯语token。
  • 在COPA-ar、Arabic HellaSwag和ArabicMMLU三项基准上平均准确率35.9%,领先所有同类开源模型。
站内正文

灾难性遗忘的机制起源:为何RL比SFT更善于保留电路?

最近研究表明,强化学习(RL)比监督微调(SFT)更能保持大语言模型的先前能力。本文从机制层面延伸,引入差分电路脆弱性度量,衡量微调中电路退化程度。在Qwen2.5-3B-Instruct科学问答实验中发现,SFT适应目标任务更快,但造成更大的电路破坏和遗忘,而RL保留更多基础电路,但任务适应较慢。结果表明电路保留有助于解释RL对灾难性遗忘的鲁棒性。

  • SFT适应快但破坏内部电路,导致灾难性遗忘。
  • RL保留更多基础模型电路,遗忘较少但任务适应较慢。
站内正文

AI正在重写软件行业?8岁孩子做操作系统,一人公司拿下千万订单

百度秒哒产品总经理朱广翔在2026中国AIGC产业峰会上分享,AI将编程门槛从写代码降低到聊天,87%不懂代码的用户通过秒哒创建应用。8岁小孩做出操作系统,一人公司(OPC)靠项目经理拿下千万订单,石油工程师替代140万采购平台。Vibe Coding让需求方变成供给方,实现大众创业。

  • 第四次编程革命:自然语言编程,门槛降至最低,创造者数量爆发
  • 秒哒用户87%不懂代码,OPC成最大群体,16%创业者
站内正文

NVIDIA发布Polar:用于跨Codex、Claude Code和Qwen Code进行GRPO训练的忠实令牌回滚框架

NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。

  • Polar通过模型API代理捕获令牌级交互,无需修改现有智能体工具链即可进行RL训练
  • 使用GRPO在Qwen3.5-4B上训练,SWE-Bench Verified最高提升22.6个百分点
站内正文

自验证蒸馏:你的语言模型秘密地成为自己的合成数据管道

提出自验证蒸馏(Self-Verified Distillation, SVD)方法,让大语言模型仅利用无标签提示进行自我改进,无需外部教师或工具反馈。在数学、科学和编程三个推理领域,Qwen3模型通过SVD训练后性能显著提升。

  • SVD通过三阶段验证(循环一致性、事实性、正确性)筛选模型自生成的解决方案。
  • 使用更多候选生成和更大的验证预算可提高自筛选数据质量。
站内正文

DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时

DeepSeek研究员陈德里使用自研的DeliAutoResearch技能,与DeepSeek-V4-Pro和GPT-Image2合作,在6天内完成了一篇46页的论文。论文提出了L1-L5自主研究智能体分类体系,分析了四种架构模式和17个主流系统,并指出了六大开放问题。陈德里表示,人类仅需投入不到2小时的“CPU时间”,其余工作由AI Agent完成。

  • 陈德里开发自动研究技能DeliAutoResearch,论文99%由Agent撰写。
  • 论文提出L1-L5自主研究智能体分类,类比自动驾驶SAE级别。
站内正文

Reachy Mini实现完全本地运行

本文详细介绍了如何为Reachy Mini机器人部署完全本地的语音对话管道,无需云端或API密钥。采用级联方式,结合VAD、STT、LLM和TTS,推荐使用llama.cpp与Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多种LLM运行选项,包括本地MLX、Transformers、vLLM或远程Responses API。

  • Reachy Mini现在可以完全本地运行对话,无需服务器。
  • 级联管道包括VAD、STT、LLM和TTS,组件可互换。
站内正文

更多增长标签

中国 AI AI News | AI News Hub