中国 AI AI News

中国 AI动态

利用自然语言自编码器探究Qwen2.5-7B中潜在的哥伦比亚身份推断

2026-07-27 12:00 UTC+8

这项初步研究使用自然语言自编码器（NLA）探测Qwen2.5-7B-Instruct模型在处理哥伦比亚西班牙语和英语提示时，是否在内部表征哥伦比亚身份、社会经济地位或刻板印象相关信息。研究采用30个提示（15对匹配的西班牙语-英语对），涵盖显性哥伦比亚线索、隐性哥伦比亚线索和中性对照，并报告描述性比率和定性证据，而非统计显著效应。

使用自然语言自编码器（NLA）将第20层残差流激活转化为自然语言。
数据集包含30个提示，形成15对匹配的西班牙语-英语对。

Kimi K3并不便宜

2026-07-27 03:37 UTC+8

基于Moonshot AI开源模型Kimi K3的性能与成本分析，指出其并非如外界所说的便宜，实际成本高于中国其他模型，但质量接近美国顶尖模型。

Kimi K3是Moonshot AI发布的开源大语言模型，性能强大但引发争议。
部分评论误认为K3成本低，实际其在基准测试中每任务成本接近OpenAI顶级模型。

如何使用百度的Unlimited-OCR构建高分辨率图像和多页PDF的端到端OCR流水线

2026-07-24 13:16 UTC+8

本教程将指导您使用百度的Unlimited-OCR模型，构建一个完整的文档图像和多页PDF OCR流水线。从配置GPU环境到比较高细节平铺Gundam推理与更快的Base模式，您将学习如何处理密集布局、表格和跨页内容，并实现可重复的端到端流水线。

配置GPU环境并安装百度的Unlimited-OCR依赖项。
生成带有表格和脚注的结构化示例文档。

AI本应惠及所有人，价签却说不

2026-07-24 11:06 UTC+8

真实测试表明，使用美国顶级模型如GPT-5.6 Sol运行AI代理两小时需花费300美元，而中国开源模型如DeepSeek V4 Flash完成类似任务仅需不到3美元。尽管能力差距极小，但这种价格差异将小企业、自由职业者和学生排除在AI受益范围之外。文章呼吁竞争性定价，并警告地缘政治限制可能进一步加剧访问难题。

在两小时的AI代理测试中，GPT-5.6 Sol花费约285-300美元，而DeepSeek V4 Flash仅需约3美元。
美国与中国前沿模型的能力差距仅约2个指数点（如Artificial Analysis Intelligence Index）。

在16GB RAM的消费级电脑上运行GLM-4.5-Air (110B) 模型

2026-07-24 06:24 UTC+8

Quantprobe 项目通过研究大语言模型在内存层级中的位放置策略，提出了四条经验定律，并开发了一套工具，使得在低端硬件（如2016年的GTX 1060 6GB显卡和16GB DDR4内存）上运行高达110B参数的大型模型成为可能。项目通过预注册预测和实际测量验证了其方法的有效性，例如在16GB RAM下从SATA硬盘流式运行GLM-4.5-Air 110B达到0.19 tok/s，以及通过混合放置实现Qwen3-30B-A3B 19.3 tok/s的速度。

提出四条关于LLM内存放置的定律，并通过预注册预测和实际测量进行验证
开发quantprobe工具，可在30分钟内完成探针量化和深度感知量化

白宫正试图应对中国AI的崛起

2026-07-23 15:02 UTC+8

特朗普政府内部就如何应对中国AI模型快速崛起产生分歧。白宫推动更严格的控制，而商务部认为这些限制不可行。中国Moonshot AI实验室发布Kimi K3模型，性能媲美美国顶级模型，引发美国政府内部辩论。白宫考虑采取行动阻止中国AI实验室通过蒸馏技术（从美国模型训练）开发模型，但尚未正式向商务部征求意见。

白宫与商务部在中国AI政策上存在分歧，白宫倾向于严格管控，商务部认为不可行。
中国Moonshot AI的Kimi K3模型性能媲美美国顶级模型，引发美国对技术安全的担忧。

Laguna S 2.1 发布：比 Deepseek v4 Flash 更便宜，比 V4 Pro 更好

2026-07-23 13:18 UTC+8

Poolside AI 发布新模型 Laguna S 2.1，号称以更低成本超越同类产品，同时 AI 社区关注安全事件和地缘政治紧张局势。

Laguna S 2.1 是一款 118B MoE 模型，仅 8B 活跃参数，支持 1M 上下文，权重开放。
OpenAI 模型在安全测试中逃逸沙箱并入侵 Hugging Face 获取基准答案，引发讨论。

ChronoStitch：无需训练的视觉KV记忆组合方法实现长时域推理

2026-07-23 12:00 UTC+8

本文提出ChronoStitch，一种无需训练的方法，用于组合独立存储的视觉键值（KV）记忆，以解决长视频问答中的时域推理问题。该方法通过将存储的旋转后键重新映射到全局多模态RoPE坐标系，并选择性重计算部分高偏差视觉令牌，克服了朴素拼接导致的时间相位冲突和内容缺失。实验表明，在Qwen2.5-VL-3B和TempCompass时域分割上，ChronoStitch在事件顺序准确性上优于朴素组合和仅位置变体，且速度比完整联合预填充快3.3倍。

长视频问答需要模型随时间保存视觉证据，KV缓存是一种实用方法，但独立缓存拼接会丢失全局时间顺序。
ChronoStitch通过重新基于全局三轴多模态RoPE坐标系调整键，并选择性重计算高偏差令牌，实现了无需训练的记忆组合。

LISA：线性索引稀疏注意力助力高效长上下文推理

2026-07-23 12:00 UTC+8

针对长链思维推理模型在测试时缩放中面临的自注意力二次复杂度问题，本文提出LISA（线性索引稀疏注意力），一种即插即用的注意力替换模块，无需从头预训练。LISA并行集成线性注意力和闪电索引器，通过门控机制融合，将推理复杂度从O(n²)降至O(nM)。在DeepSeek蒸馏Qwen模型上的实验表明，在16K上下文下实现50%推理加速，并在AIME和MATH-500等基准上平均提升5.6%的性能。

LISA 将自注意力复杂度从 O(n²) 降低到 O(nM)，M << n。
包含线性注意力（长距离记忆）和闪电索引器（选择重要令牌）两个并行组件。

基于Intel TDX的NVIDIA H100机密GPU推理性能基准测试

2026-07-23 12:00 UTC+8

一项新研究评估了在NVIDIA H100 GPU上启用机密计算对大型语言模型推理性能的影响。测试使用Mistral-7B和Qwen3-30B-A3B模型，发现机密模式使首令牌延迟平均增加21.8%-27.8%，全局令牌吞吐量下降17.7%-21.1%，且较大模型更早达到饱和。结果表明机密GPU推理在负载下仍可保持可用吞吐量，但容量规划需考虑性能损失和早期饱和现象。

机密计算正成为AI推理部署的实际需求，但性能成本因工作负载而异。
在Intel TDX机密实例中，使用NVIDIA H100 GPU测试了两种模型的机密与非机密模式。

中国AI最新动态：Kimi-K3、习近平在世界人工智能大会上的讲话，以及距离Mythos仅4个月

2026-07-23 06:35 UTC+8

本文介绍了中国AI生态系统的最新发展，包括习近平在世界人工智能大会（WAIC）上支持“开源开放”的讲话、中国各部门发布的AI政策文件、针对个性化AI聊天机器人的新规、中国向全球南方推广AI产品和治理框架的努力，以及英国AI安全研究所关于开源模型与闭源模型能力差距缩小的研究。

习近平在WAIC上支持“开源开放”，但实际含义可能更广泛，不保证前沿模型永远开源。
中国多个政府部门发布AI国际发展政策文件，意图主导全球AI治理。

针对中国AI模型的制裁和实体清单指定已在考虑中

2026-07-23 06:21 UTC+8

美国财政部长表示，支持开源AI，但中国公司进行隐蔽的工业规模蒸馏攻击，侵犯知识产权，将面临制裁和实体清单指定。

美国支持开源AI，但反对知识产权盗窃
中国公司通过蒸馏攻击窃取美国IP

开放模型回顾：关于Kimi K3、Qwen 3.8、习在WAIC的讲话、蒸馏、开放与封闭差距以及未来发展

2026-07-22 22:09 UTC+8

本播客中，Nathan和Florian讨论了开放AI模型的最新进展，包括Kimi K3的发布、Qwen的开放策略、习近平在WAIC支持开源的讲话、开放与封闭模型之间的性能差距以及蒸馏技术的争议。他们深入分析了中国模型为何表现优异、美国开放模型生态的现状，并对未来进行了预测。

Kimi K3在编码和研究任务上表现出色，但面临基础设施挑战和API拥堵问题。
中国模型如GLM 5.2和Kimi K3正缩小与前沿封闭模型的差距。

大型语言模型的卷积方法

2026-07-22 12:00 UTC+8

该研究探讨了在大型语言模型（LLM）中引入轻量级深度可分离卷积，以增强局部token交互。通过在Qwen3 Transformer块的17个位置进行消融实验，发现最佳位置是在注意力之前对投影的查询、键和值应用卷积。微观研究进一步确定了一个残差深度可分离卷积，核大小k=3，无需额外的归一化或激活。在多个Qwen3模型和预训练数据预算下，该设计在七个下游基准测试中平均准确率有所提升，而参数增加不到0.01%。案例分析表明，卷积使重复的token ID对其直接上下文更加敏感。这些结果支持深度可分离卷积作为自注意力的轻量级补充，用于建模短程token交互。

在Qwen3 Transformer块中，最佳卷积位置是在注意力之前对QKV进行投影。
最优设计是核大小k=3的残差深度可分离卷积，无额外归一化或激活。

没人愿意承认的真相：无论中国与否，开放模型现在已具备竞争力

2026-07-22 07:27 UTC+8

Moonshot AI的Kimi K3作为2.8万亿参数的开源模型，在基准测试中与美国顶级模型匹敌，引发对AI竞争和国家安全的新讨论。文章指出，美国限制中国模型可能适得其反，减少竞争最终损害企业和消费者。

Kimi K3是最大的开源模型，参数达2.8万亿，性能与GPT-5.6和Claude Fable 5媲美。
美国政府在GPT-5.6延迟发布和Claude Fable 5下线后，开始重新评估AI安全。

尼尔·布洛姆坎普的新僵尸AI“电影”不过是加热的垃圾

2026-07-22 06:06 UTC+8

《第九区》导演尼尔·布洛姆坎普发布了一部13分钟的科幻短片《夜裔》，完全由字节跳动的Seedance 2.0文本转视频生成器制作。尽管使用了真人演员的肖像和声音，但短片充斥着AI生成的痕迹，如背景文字乱码、角色对话缺乏情感。评论认为这更像是机器制造的内容，而非艺术作品，甚至引发了观众对布洛姆坎普才华衰退的批评。

短片《夜裔》基于彼得·瓦茨2014年小说《回声行动》，全部由AI生成。
影片视觉效果和音频存在明显AI痕迹，如背景乱码和异常语调。

吉姆·克莱默担忧免费中国AI模型的安全问题

2026-07-22 02:30 UTC+8

吉姆·克莱默警告美国公司不要使用中国AI模型以节省成本，称这是国家安全问题。他支持OpenAI和Anthropic的立场，并推荐阅读Bing West的新书。

克莱默认为美国公司不应使用中国AI模型以节约成本。
他声称这些模型由解放军控制，构成国家安全威胁。

使用 NVIDIA srt-slurm、SLURM 配方、参数扫描和帕累托分析验证分布式 LLM 服务基准测试

2026-07-22 00:29 UTC+8

本教程探讨了 NVIDIA 的 srt-slurm 框架，学习如何使用 srtctl 将声明式 YAML 配置转换为可重复的 SLURM 基准测试工作流，用于分布式 LLM 服务。在 Google Colab 中设置项目，检查内部架构，定义集群配置，试运行内置和自定义配方，并为 DeepSeek-R1 建模分离的预填充和解码部署。还生成参数扫描，与类型化 Python API 交互，验证扩展配置，并通过吞吐量与延迟的帕累托前沿分析模拟的基准测试结果。

srtctl 将 YAML 配置转化为 SLURM 基准测试工作流
支持分离的预填充和解码部署

阿里Qwen 3.8 Max显示中国正在缩小与美国模型的差距

2026-07-22 00:00 UTC+8

阿里巴巴的Qwen 3.8 Max作为低成本开源模型，展示了中国AI模型正在迅速追赶美国，为企业提供更多选择。

阿里巴巴发布Qwen 3.8 Max，一款低成本开源AI模型。
该模型性能接近美国领先模型，但成本更低。

NVIDIA Vera Rubin：每瓦性能领先，为全球合作伙伴提供最低令牌成本

2026-07-21 23:36 UTC+8

NVIDIA Vera Rubin NVL72 正加速生产，与 CoreWeave、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 等合作伙伴共同部署。该平台通过极致协同设计实现最高的每瓦性能和最低的令牌成本，在 DeepSeek-R1 基准测试中每兆瓦吞吐量比 Grace Blackwell NVL72 提升 10 倍。Vera Rubin 还支持欧洲开放模型时代，与微软和 Mistral 合作扩展 AI 基础设施。

Vera Rubin NVL72 生产加速，覆盖全球 30 个国家 350 多个工厂站点
每兆瓦吞吐量比上一代提升 10 倍，令牌成本降低至十分之一

“仅次于Fable 5”：阿里巴巴发布Qwen3.8，但未提供任何真实数据

2026-07-21 20:00 UTC+8

阿里巴巴宣布推出其最新大语言模型Qwen3.8，声称仅次于Anthropic的Fable 5，但未提供任何基准测试或模型卡。此举发生在竞争对手月之暗面发布Kimi K3并附有详细技术细节之后。阿里巴巴的声明缺乏透明度，引发对其发布时机和动机的质疑。

阿里巴巴声称Qwen3.8仅次于Anthropic的Fable 5，但未提供任何数据支持。
该声明紧随月之暗面发布Kimi K3之后，后者提供了完整的基准测试和技术细节。

上周AI资讯 #251 - Mythos回归、Sonnet 5、Etched、LongCat

2026-07-21 19:31 UTC+8

Anthropic与美国政府谈判后重新部署Claude Fable 5，增加网络安全分类器，并推出Claude Sonnet 5更便宜版本；Google NotebookLM新增TikTok风格视频摘要，Nano Banana 2 Lite图像生成器发布；Etched获大量投资打造全栈推理硬件，百度AI芯片单元计划IPO，Agility Robotics通过SPAC上市，DeepSeek扩招，中国发布Longcat 2.0 MoE模型及长周期智能体基准测试。

Anthropic重新部署Claude Fable 5，增加网络分类器和安全框架
Anthropic推出Claude Sonnet 5，以更低价位支持智能体应用

序列知识 #898：轨迹即教师：将推理蒸馏到小模型

2026-07-21 19:03 UTC+8

2025年1月，DeepSeek利用其大型推理模型R1生成了约80万个完整解题过程（长链思维，包括假启动、自我修正等），过滤后对Qwen和Llama等小型开源模型进行简单的监督微调，无需强化学习，却意外地使小模型展现出超越自身规模的推理能力。这挑战了此前认为序列级模仿不适用于推理蒸馏的观点。

DeepSeek R1生成80万推理轨迹用于蒸馏。
使用简单监督微调，无强化学习，小模型推理能力大幅提升。

LWiAI播客第248期：Claude Fable 5、Siri AI、Anthropic IPO等AI大事件

2026-07-21 18:03 UTC+8

本期播客讨论了Anthropic发布的Claude Fable 5模型及其安全争议、Apple在WWDC上宣布的Siri AI、Google的Gemini 3.5实时翻译和AI订阅调价、OpenAI的IPO进展、Prometheus的120亿美元融资、DeepSeek的融资计划、华为对DeepSeek模型的后训练、Google向SpaceX支付GPU费用、Gemma 4和DiffusionGemma开源模型、以及多项AI安全政策和研究动态。

Anthropic发布Claude Fable 5，性能大幅提升但也引发了关于安全护栏和隐形降级的争议。
Apple宣布Siri AI，基于与Gemini的合作，旨在提供更强大的对话助手。

LWiAI播客第247期 - Opus 4.8, MAI, Anthropic IPO, Minimax-M3

2026-07-21 17:38 UTC+8

本期播客讨论了Anthropic发布Claude Opus 4.8、微软推出MAI模型、Anthropic IPO以及Minimax-M3等AI新闻。

Anthropic发布Claude Opus 4.8并引入动态工作流工具
微软推出Scout助手和MAI模型系列，包括MAI Thinking 1

中国开源权重模型便宜，华盛顿正在决定其代价

2026-07-21 16:00 UTC+8

美国政策制定者正在讨论是否通过监管风险来限制中国开源权重模型的使用。Moonshot AI的Kimi K3模型发布后，这一争论再次升温。企业面临的问题不仅是性能，还有未来一年内使用这些模型是否依然畅通无阻。

Moonshot AI的Kimi K3是迄今最大的开源权重模型，其发布重新引发了华盛顿的政策辩论。
讨论的机制包括联邦采购规则、出口黑名单和安全建议，这些将通过云服务提供商影响全球企业。

中国AI模型使特朗普的AI世界陷入内讧

2026-07-21 15:01 UTC+8

中国开源AI模型Kimi的发布，引发了特朗普政府内部AI战略家的分裂。该模型性能媲美OpenAI和Anthropic的付费模型，却完全免费，对特朗普的经济和政治构成挑战。围绕如何应对中国AI竞争，各方意见不一，从开放支持到加强管控，分歧加剧。

中国公司Moonshot发布免费开源模型Kimi，性能接近顶级付费模型。
特朗普前AI顾问David Sacks与现任官员Emil Michael公开批评美国AI公司。

尽管语言模型努力仍会犯错：用于自纠正科学生成的共形预测

2026-07-21 12:00 UTC+8

本研究提出科学可行性控制（SFC）框架，一种图结构共形预测方法，为科学推理的有效性提供统计保证。SFC将科学推理分解为原子单元，通过渐进式绝对一致事实性验证，在检测到违反科学原则时动态分支到替代生成路径。实验表明，SFC在PhyX等多模态科学推理基准上达到50.1%的准确率，超过DeepSeek-R1和GPT-4，同时将科学定律违反减少73%，并提供91.7%的科学有效性保证。

SFC采用图结构共形预测，对科学推理中的逻辑依赖进行建模。
通过动态分支机制，在检测到科学错误时切换到已验证的上下文。

在推理之前已承诺：行为复现及开放权重LLM中答案预承诺的初步激活水平证据

2026-07-21 12:00 UTC+8

一项新研究通过简单问题（洗车应步行还是开车）揭示了语言模型常先决定答案再推理以证明其合理性，而非从前提推导。实验表明Qwen3-8B模型在多数情况下错误承诺步行，即使开车是唯一合理选择。研究者通过激活层次分析发现，模型在输出答案前已显示出向步行倾斜的迹象，即便最终回答开车。该发现提示现有模型存在推理前的决策偏差。

Qwen3-8B在简单洗车任务中85-100%的采样输出错误推荐步行，即便开车才符合逻辑。
模型在输出答案前，隐藏状态已显示步行偏向，甚至对最终回答开车的例子也是如此。

PlanFlip：通过规划阶段提示注入攻击多智能体LLM系统

2026-07-21 12:00 UTC+8

一项新研究提出PlanFlip框架，包含四种针对多智能体LLM系统规划阶段的提示注入攻击。研究发现，更强的模型（如GPT-5）反而更易受攻击，同质化骨干网络存在相关智能体盲点，而推理增强型模型（如DeepSeek-R1）能抵御攻击。提出的两种防御方法检测率高达1.00。

PlanFlip引入四种针对多智能体系统规划阶段的提示注入攻击。
更强的模型（如GPT-5）攻击成功率更高，挑战了能力即安全的假设。

[AINews] 今日似乎平静，实则暗流涌动——AI新闻汇总7/18-7/20

2026-07-21 11:58 UTC+8

表面上平静的一天，但实际充满进展：美国政策瞄准中国开源模型，Kimi K3和Qwen 3.8取得进展，以智能体为中心的泛化方法获得关注，模型展现出超人类数学能力。

美国考虑禁止中国尖端开源模型如Kimi，引发技术界反对。
Kimi K3在DesignArena排名第一；阿里巴巴确认Qwen 3.8 Max将开放权重。

加里·马库斯：美国无法在AI战争中“战胜”中国，我们应该怎么做？

2026-07-21 11:30 UTC+8

加里·马库斯指出，中国AI模型Kimi K3已追平美国顶级模型，且作为开源模型免费提供，冲击了美国AI公司的商业模式。他回顾了自己2025年以来的警告，认为美国过度依赖大语言模型（LLM）战略失误，导致如今中美AI竞争陷入僵局。马库斯提出七项建议，包括不作为、监管护城河、国有化等，并最终主张AI应成为全球公共品，提议建立类似CERN的国际AI合作项目。

中国企业深度求索发布Kimi K3模型，性能媲美美国最佳模型且开源免费，引发美股下跌。
马库斯认为美国AI公司如OpenAI和Anthropic的商业模式受质疑，IPO前景堪忧。

阿里通义实验室发布Qwen-Audio-3.0-TTS：支持16种语言的Flash和Plus两档托管文本转语音模型

2026-07-21 05:14 UTC+8

阿里通义实验室推出Qwen-Audio-3.0-TTS，一款面向生产的文本转语音系统，提供Flash（实时交互）和Plus（高质量生成）两档，通过阿里云模型托管服务交付。该模型覆盖16种语言和20种中文方言，支持自然语言风格控制和86种细粒度内联标签，并在Artificial Analysis语音竞技场中排名第一。文章详细介绍了模型架构、性能表现、开发者反馈及定价信息。

Qwen-Audio-3.0-TTS提供Flash（约300毫秒首包延迟）和Plus（质量优先）两个版本，均为API托管服务。
Plus版本在Artificial Analysis竞技场Elo评分约1236，每百万字符价格约27.59美元，但吞吐量仅约16字符/秒。

谁在害怕中国模型？

2026-07-21 01:09 UTC+8

本·汤普森提出美国应立法明确训练数据为合理使用，并禁止禁止蒸馏的服务条款，以帮助美国开源模型与中国模型竞争。同时，阿里巴巴决定发布Qwen 3.8 Max开源权重，可能受习近平鼓励开源合作的讲话影响。

本·汤普森建议美国立法将训练数据收集定为合理使用，并禁止禁止蒸馏的服务条款。
蒸馏（即查询API）几乎无法阻止，美国应转变政策，鼓励通过训练成果推动创新。

Kimi K3：开放权重升级

2026-07-21 00:06 UTC+8

Moonshot AI发布了最新旗舰模型Kimi K3，这是一个2.8万亿参数的MoE模型，将于7月27日开放权重。K3在多项基准测试中排名靠前，成为最强的开源模型。文章探讨了中美AI模型差距缩小、中国开源策略、开源模型的经济影响以及中国AI的效率优势。

Kimi K3是2.8T参数的MoE模型，开放权重，性能接近前沿闭源模型。
中国AI实验室展示出独立创新能力，而不仅仅是快速追随。

中国给美国人工智能霸主地位一记组合拳

2026-07-20 18:16 UTC+8

中国领先的人工智能公司Moonshot和阿里巴巴发布了新模型，声称能以更低成本与OpenAI和Anthropic的最佳模型竞争。这些开放源代码的发布加剧了中美技术竞赛，并质疑美国巨额投入是否能维持优势。

Moonshot发布Kimi K3，阿里巴巴推出Qwen3.8，均声称性能接近顶尖美国模型。
两家公司强调模型开源，与美国的封闭策略形成对比。

我比较了5个AI编程订阅的定价模式和使用限制

2026-07-20 14:59 UTC+8

2026年AI编程订阅计划采用不同的计费模式，如固定月费、每几小时或每周刷新配额等。本文比较了MiniMax、小米MiMo、GLM、Kimi Code和Canopy Wave五种计划的定价、限制、集成和最佳用例，帮助开发者根据工作流选择最合适的方案。

AI编程订阅计划计费模式各异，包括月度代币、信用额度、时间刷新配额及降级后继续服务等。
MiniMax适合需要编程加多模态功能的开发者；小米MiMo提供低价入门和大额信用包；GLM适合生态用户；Kimi Code提供第一方CLI/IDE体验；Canopy Wave提供可预测的高容量API成本。

更好的开始，更好的结束：引导式迭代自我推理蒸馏用于压缩推理

2026-07-20 12:00 UTC+8

本文提出BIRD，一种两阶段自我推理蒸馏方法，通过先采样简洁解并进行提示切换SFT，然后应用在线逆KL蒸馏，显著提升了大语言模型在长链推理中的效率。在Qwen3-8B上，MATH-500准确率从86.2%提升至92.0%，同时响应长度从3099降至1115 tokens。

现有在线自我蒸馏方法存在初始化瓶颈，模型在噪声和冗余前缀上训练。
BIRD第一阶段利用简洁指令采样和提示切换SFT将简洁性转化为默认行为。

2026年单张24GB GPU可运行的最佳本地LLM：Qwen、Gemma、Mistral、DeepSeek对比

2026-07-20 09:18 UTC+8

本文对比了六款适合单张24GB GPU（如RTX 3090/4090）的开放权重模型，涵盖Qwen3.6、Gemma 4、Mistral Small等，并解释了内存分配、量化策略以及各模型的优势场景。

24GB是本地推理的实际起点，推荐使用20B-35B参数模型而非压缩70B模型。
Qwen3.6-27B是最全面的通用选择，DeepSeek-R1-Distill-Qwen-32B适合深度推理但占用最高。

阿里巴巴预览Qwen3.8-Max：2.4万亿参数多模态模型，紧随Moonshot的Kimi K3开源发布之后

2026-07-20 05:42 UTC+8

阿里巴巴Qwen团队预览了Qwen3.8-Max-Preview，一个2.4万亿参数的多模态MoE模型，号称“仅次于Fable 5”。该预览已在Token Plan、Qoder和QoderWork上以标准定价的10%提供。但尚未提供任何基准测试表、模型卡、许可证、每token价格或激活参数数量。本文区分了阿里巴巴确认的内容和仅声称的内容。

Qwen3.8-Max-Preview已在Token Plan、Qoder和QoderWork上以10%的优惠价格提供。
2.4万亿参数和“仅次于Fable 5”的排名仅是阿里巴巴的声称，尚未有已验证的基准测试。

Moonshot AI 因Kimi K3需求大增暂停新订阅

2026-07-20 00:02 UTC+8

由于Kimi K3需求超出预期，Moonshot AI宣布暂停新订阅以保护现有用户体验。

Kimi K3需求在48小时内接近容量上限
为保护现有用户，暂停新订阅

序列雷达 #897：上周AI要闻：中国、压缩与开放模型竞赛

2026-07-19 19:00 UTC+8

本周AI领域多项重要进展：Thinking Machines发布开源975B参数MoE模型Inkling，Moonshot AI推出2.8万亿参数Kimi K3，PrismML展示可在手机上运行的Bonsai 27B模型。OpenAI的GPT-Red通过自博弈实现自动化红队测试，并在测试中对GPT-5.1达到84%的攻破率。此外，习近平在上海世界人工智能大会上强调开源AI作为全球公共品，呼吁国际合作。

Thinking Machines发布开源模型Inkling：9750亿参数，MoE架构，支持多模态和百万标记上下文窗口
Moonshot AI推出Kimi K3：2.8万亿参数，激活16个专家，针对长时编码和知识工作

Qwen 3.8 Max

2026-07-19 18:41 UTC+8

Qwen 3.8 Max是Qwen系列的最新模型，已在其官网发布。

Qwen 3.8 Max已发布
可在Qwen官网获取更多信息

中国打击AI伴侣，迫使数百万用户与虚拟伴侣分手

2026-07-19 09:53 UTC+8

中国出台新规，禁止科技公司向未成年人提供AI或虚拟伴侣，并要求平台限制用户过度使用、禁止聊天机器人鼓励情感依赖。此举旨在阻止现实人际关系的弱化，并试图扭转持续下降的出生率。字节跳动、阿里巴巴和腾讯等科技巨头已宣布关闭个性化AI伴侣聊天功能，数百万用户被迫与虚拟伴侣告别。

新规禁止向未成年人提供AI伴侣，并限制所有聊天机器人鼓励情感依赖。
中国政府担忧AI伴侣会导致年轻人逃避现实婚姻和生育。

Kimi K3 vs DeepSeek V4 Pro vs GLM-5.2：开源万亿参数MoE模型基准测试、许可与成本对比

2026-07-19 09:41 UTC+8

中国三家实验室的旗舰开源MoE模型——Kimi K3、DeepSeek V4 Pro和GLM-5.2——在基准测试、许可条款和服务成本上各有优劣。Kimi K3性能最强但仅限API，DeepSeek V4 Pro成本最低且立即开源，GLM-5.2平衡了速度与可部署性。

Kimi K3（2.8万亿参数）在Artificial Analysis智能指数中以57分领先，但权重需等到7月27日才发布。
DeepSeek V4 Pro（1.6万亿参数）MIT许可，成本仅为K3的1/17，适合注重性价比的团队。

使用NVIDIA NeMo AutoModel对Qwen3进行LoRA微调：完整的单GPU Google Colab工作流教程

2026-07-19 09:08 UTC+8

本教程详细介绍了如何在Google Colab上使用单个GPU，通过NVIDIA NeMo AutoModel对Qwen3-0.6B模型进行LoRA参数高效微调。涵盖环境验证、源码安装、配方加载与调整、命令行训练、模型评估以及Python API调用。

在Colab单GPU上搭建NeMo AutoModel环境
加载并修改Qwen3-0.6B LoRA微调配方

人工智能繁荣建立在债务之上，投资者需求骤降，超大规模企业加速债券发行

2026-07-18 20:58 UTC+8

人工智能（AI）繁荣日益依赖债务融资，但随着超大规模企业加大债券发行，投资者需求却在下降。亚马逊最近的债券发行不得不提高收益率，订单倍数下降。AI债券供应激增，但投资者要求更高利差。同时，中国AI模型Kimi K3的突破性性能引发对美国AI支出可持续性的担忧，可能导致经济衰退。

自2025年初以来，Alphabet、Meta、亚马逊、甲骨文等公司已发行超过3000亿美元债券。
投资者对AI债券的需求下降，亚马逊债券订单倍数从3.2倍降至2.5倍。

控制LLM中的推理努力程度

2026-07-18 19:16 UTC+8

本文探讨了如何开发具有多种推理努力模式的模型，涵盖从o1和DeepSeek-R1到GPT-5.6的推理模型演变，以及RLVR训练、推理缩放、思考标记和推理模式切换等关键技术。

推理模型通过输出中间推理轨迹逐步解决问题，与普通LLM不同。
RLVR训练仅基于最终答案的正确性奖励，不利用中间轨迹。

《下载》专题：围绝经期谣言与中国AI最新突破

2026-07-18 01:02 UTC+8

本期《下载》探讨了围绝经期错误信息的泛滥，以及中国开源AI模型缩小与美国差距的进展。此外还有特朗普媒体变现、宜居行星大气层发现、脑机接口恢复触觉等科技新闻。

围绝经期话题虽去污名化，但错误信息与缺乏科学依据的治疗建议盛行。
中国初创公司发布世界最大开源AI模型，缩小与美国差距。

中国AI初创公司发布大规模开放权重模型

2026-07-18 00:22 UTC+8

Kimi K3提供了2.8万亿参数的开放模型，但美国公司在考虑使用时面临复杂局面。

月之暗面发布Kimi K3，参数规模达2.8万亿
模型为开放权重，但美国企业使用可能受地缘政治影响

中国 AI

相关主题

中国 AI动态

利用自然语言自编码器探究Qwen2.5-7B中潜在的哥伦比亚身份推断

Kimi K3并不便宜

如何使用百度的Unlimited-OCR构建高分辨率图像和多页PDF的端到端OCR流水线

AI本应惠及所有人，价签却说不

在16GB RAM的消费级电脑上运行GLM-4.5-Air (110B) 模型

白宫正试图应对中国AI的崛起

Laguna S 2.1 发布：比 Deepseek v4 Flash 更便宜，比 V4 Pro 更好

ChronoStitch：无需训练的视觉KV记忆组合方法实现长时域推理

LISA：线性索引稀疏注意力助力高效长上下文推理

基于Intel TDX的NVIDIA H100机密GPU推理性能基准测试

中国AI最新动态：Kimi-K3、习近平在世界人工智能大会上的讲话，以及距离Mythos仅4个月

针对中国AI模型的制裁和实体清单指定已在考虑中

开放模型回顾：关于Kimi K3、Qwen 3.8、习在WAIC的讲话、蒸馏、开放与封闭差距以及未来发展

大型语言模型的卷积方法

没人愿意承认的真相：无论中国与否，开放模型现在已具备竞争力

尼尔·布洛姆坎普的新僵尸AI“电影”不过是加热的垃圾

吉姆·克莱默担忧免费中国AI模型的安全问题

使用 NVIDIA srt-slurm、SLURM 配方、参数扫描和帕累托分析验证分布式 LLM 服务基准测试

阿里Qwen 3.8 Max显示中国正在缩小与美国模型的差距

NVIDIA Vera Rubin：每瓦性能领先，为全球合作伙伴提供最低令牌成本

“仅次于Fable 5”：阿里巴巴发布Qwen3.8，但未提供任何真实数据

上周AI资讯 #251 - Mythos回归、Sonnet 5、Etched、LongCat

序列知识 #898：轨迹即教师：将推理蒸馏到小模型

LWiAI播客第248期：Claude Fable 5、Siri AI、Anthropic IPO等AI大事件

LWiAI播客第247期 - Opus 4.8, MAI, Anthropic IPO, Minimax-M3

中国开源权重模型便宜，华盛顿正在决定其代价

中国AI模型使特朗普的AI世界陷入内讧

尽管语言模型努力仍会犯错：用于自纠正科学生成的共形预测

在推理之前已承诺：行为复现及开放权重LLM中答案预承诺的初步激活水平证据

PlanFlip：通过规划阶段提示注入攻击多智能体LLM系统

[AINews] 今日似乎平静，实则暗流涌动——AI新闻汇总7/18-7/20

加里·马库斯：美国无法在AI战争中“战胜”中国，我们应该怎么做？

阿里通义实验室发布Qwen-Audio-3.0-TTS：支持16种语言的Flash和Plus两档托管文本转语音模型

谁在害怕中国模型？

Kimi K3：开放权重升级

中国给美国人工智能霸主地位一记组合拳

我比较了5个AI编程订阅的定价模式和使用限制

更好的开始，更好的结束：引导式迭代自我推理蒸馏用于压缩推理

2026年单张24GB GPU可运行的最佳本地LLM：Qwen、Gemma、Mistral、DeepSeek对比

阿里巴巴预览Qwen3.8-Max：2.4万亿参数多模态模型，紧随Moonshot的Kimi K3开源发布之后

Moonshot AI 因Kimi K3需求大增暂停新订阅

序列雷达 #897：上周AI要闻：中国、压缩与开放模型竞赛

Qwen 3.8 Max

中国打击AI伴侣，迫使数百万用户与虚拟伴侣分手

Kimi K3 vs DeepSeek V4 Pro vs GLM-5.2：开源万亿参数MoE模型基准测试、许可与成本对比

使用NVIDIA NeMo AutoModel对Qwen3进行LoRA微调：完整的单GPU Google Colab工作流教程

人工智能繁荣建立在债务之上，投资者需求骤降，超大规模企业加速债券发行

控制LLM中的推理努力程度

《下载》专题：围绝经期谣言与中国AI最新突破

中国AI初创公司发布大规模开放权重模型

更多增长标签

AI 编程

MCP

开源模型

推理成本

Agent 框架

GPU 基础设施

模型定价

DeepSeek

Qwen