推理成本 AI News

本报告研究针对台湾地区的设备端英文到繁体中文字幕翻译，在短输入、短输出、单批次推理、低延迟和隐私约束下的优化。作者将原始151k词表替换为64k字幕领域分词器，并进行嵌入校准和微调，在OpenSubtitles2024子集上实现了59.2%的胜率（排除平局），并在Apple M2上获得1.63倍加速。

设备端英文到繁体中文字幕翻译，针对短输入、低延迟和隐私优化。
将151k词表替换为64k字幕领域分词器，应用嵌入校准和微调。

闭环控制：规则对齐的小语言模型与多智能体自我修正

2026-07-14 12:00 UTC+8

本文研究了一种基于小型语言模型（SLM）的闭环控制框架，通过GRPO对齐的Qwen2.5-1.5B模型，结合动作智能体、数字孪生验证层和重提示智能体，实现了从自然语言需求规范生成控制策略。在随机热控制模拟中，该框架达到91.5%的动作对齐准确率，平均推理延迟3.84秒，展示了在边缘设备上实现可重构自主控制的可行性。

使用1.5B参数的小型语言模型（Qwen2.5-1.5B）通过GRPO进行对齐，用于控制推理
多智能体架构包括动作生成器、符号/数字孪生验证器和迭代修正的重提示智能体

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

2026-07-14 08:58 UTC+8

Anthropic发布了Claude Sonnet 5，这是其最强的中端代理模型，在多项基准测试中超越前代Sonnet 4.6，并缩小了与旗舰Opus 4.8的差距。Sonnet 5引入了努力水平（effort levels）以控制推理成本，在低/中努力水平下性价比极高，但高努力水平下成本可能超过Opus 4.8。它已作为Free和Pro计划的默认模型，并可通过API调用。

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基准测试中均优于Sonnet 4.6，接近Opus 4.8。
定价低于Opus 4.8：$2/$10每百万token（至2026年8月31日），之后为$3/$15。

Director：通过在线主动专家放置加速分布式MoE服务

2026-07-13 12:00 UTC+8

本文介绍了Director，一种新的分布式MoE推理系统，通过预测驱动的在线专家放置优化，显著降低端到端延迟。系统采用轻量级级联预测器或低比特量化副本预测专家激活模式，结合近乎零停机的在线迁移模块，以及基于松弛优化的专家放置算法，在多项式时间内达到(1+ε)近似比。实验表明，在Mistral、DeepSeek和Qwen等流行MoE模型上，相比现有工作延迟降低11%~55%。

提出预测驱动的在线专家放置方法
设计近乎零停机的专家迁移模块

KV-PRM：通过KV缓存传递实现高效过程奖励建模，用于多智能体测试时扩展

2026-07-13 12:00 UTC+8

KV-PRM是一种高效的过程奖励模型，通过直接利用大语言模型生成阶段自然产生的KV缓存，避免了文本重新编码，将评分成本从O(L²)降至O(L)。实验表明，在多个基准上，KV-PRM在匹配或超越文本PRM性能的同时，实现了高达5000倍的FLOPs减少、37倍延迟降低和34倍内存占用减少。

传统文本PRM需要重新编码整个轨迹，成本随序列长度二次增长。
KV-PRM利用KV缓存仅处理单个验证令牌，成本线性增长。

亨利·沙因公司利用Amazon SageMaker AI实现牙科影像实时验证

2026-07-10 23:33 UTC+8

亨利·沙因公司开发了Image Verify，这是一个基于Amazon SageMaker AI的AI驱动系统，可实时评估牙科X光片质量，减少保险理赔拒付。该系统在数月内从概念扩展到超过10,000个场所，处理了数百万张X光片，中位延迟低于2秒。

高达20%的牙科保险理赔因图像质量差而最初被拒。
Image Verify在拍摄时提供实时质量评分（1-5分），允许立即重拍。

在SageMaker HyperPod上实现LLM推理的分离式预填充和解码

2026-07-10 23:20 UTC+8

本文介绍了如何使用vLLM在Amazon SageMaker HyperPod上通过HyperPod推理运算符实现分离式预填充和解码（DPD）。DPD通过将预填充和解码阶段分配到不同的GPU池，消除了长提示对令牌生成的干扰，从而降低了首令牌延迟和令牌间延迟，提高了推理性能。

分离式预填充和解码（DPD）将LLM推理的预填充和解码阶段分开，运行在独立的GPU池上。
DPD显著提升长上下文、高并发流式工作负载的性能。

Infinity-Parser2 技术报告发布：多模态文档解析新范式

2026-07-10 12:00 UTC+8

Infinity-Parser2 是一个结合可控数据合成与多任务强化学习的大规模多模态模型，旨在解决文档解析中标注数据稀缺的问题。它开源了包含500万样本的中英文双语语料库 Infinity-Doc2-5M，并提出了联合强化学习框架统一八项任务。Flash 版针对低延迟优化，Pro 版在多项基准上达到新 SOTA。

提出可控数据合成管线与迭代优化循环，构建500万样本双语语料库 Infinity-Doc2-5M
引入可验证的多任务奖励系统，通过联合强化学习同时优化八项文档理解任务

快速令牌生成成为关键差异点，异构推理逐渐普及

2026-07-10 03:14 UTC+8

随着代理型AI用例增多，实时交互需求推动推理基础设施重构。d-Matrix与NVIDIA合作推出异构计算解决方案，通过堆叠DRAM和逻辑芯片提升内存带宽，实现低延迟快速令牌生成，开启新的营收层级。

快速令牌生成是AI推理的关键差异点，其价格可达标准令牌的10倍。
d-Matrix的Corsair加速器与NVIDIA GPU结合，构成商业级异构推理方案。

OpenAI发布最新ChatGPT模型，此前因白宫网络安全担忧而延迟

2026-07-10 02:48 UTC+8

OpenAI于周四发布了其最新的高级AI模型ChatGPT 5.6，此前因美国政府担忧网络安全而推迟了公开发布。特朗普政府上月要求OpenAI将发布范围限制在政府批准的小部分用户内。OpenAI遵从了要求，在向政府官员介绍能力后，仅向受信任合作伙伴开放。更广泛的发布是在政府AI标准与创新机构进行额外测试后进行的。此举与竞争对手Anthropic最新AI模型所受限制类似。

OpenAI发布ChatGPT 5.6，此前因白宫网络安全担忧延迟发布。
特朗普政府要求OpenAI限制发布范围，OpenAI遵从。

指纹，而非蓝图：位置编码如何设置注意力的默认谱代数

2026-07-09 12:00 UTC+8

该研究探讨了注意力机制中得分矩阵的谱特性如何受位置编码影响。通过分析七个预训练模型，发现RoPE下的前词头具有旋转谱，而绝对位置编码和ALiBi则不然。动态分析表明谱特征在行为之后出现，因果实验显示没有谱通道是必需的，但移除会延迟学习。

RoPE位置编码使注意头谱呈旋转特征，绝对位置和ALiBi则呈非旋转特征。
谱特征在注意力行为出现后形成，而非预先存在。

LangChain与NVIDIA联合发布NemoClaw深度代理蓝图

2026-07-08 23:04 UTC+8

LangChain与NVIDIA合作推出NemoClaw深度代理蓝图，结合LangChain深度代理代码、NVIDIA Nemotron 3 Ultra和OpenShell，为企业构建开放、受治理的代理系统。该蓝图在代理评估中实现了领先性能，且推理成本降低约10倍。

NemoClaw深度代理蓝图整合了LangChain的代理框架、NVIDIA的开放模型Nemotron 3 Ultra以及安全运行时OpenShell。
该蓝图在LangChain代理评估套件中达到0.86的综合得分，成本仅为4.48美元，相比竞争对手的43.48美元，推理成本降低约10倍。

NVIDIA Nemotron 借助 LangChain 深度代理框架实现基准领先性能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 与 LangChain 深度代理框架结合，在开放模型中取得最高准确率，同时以比顶级封闭模型低 10 倍的推理成本完成更多任务。该成果无需重新训练模型，而是通过优化模型周围环境实现。Abridge、Amdocs、Box 等企业正在将专业代理嵌入其平台，EY 等系统集成商则基于此开放栈为客户构建定制化代理。

LangChain 为 NVIDIA Nemotron 3 Ultra 调优的深度代理框架在开放模型中取得最高准确率，任务量更大且成本仅为封闭模型的 1/10。
所有性能提升均来自工程优化而非模型重新训练，调整包括系统提示、工具描述和中间件。

人工智能成为平价市场，少数高端模型仍居顶端

2026-07-08 15:47 UTC+8

AI推理成本分化：普通模型价格走低，前沿模型费用飙升。企业AI支出占劳动力成本10-20%，但存在效率拐点。开源模型接近前沿水平，成本优势显著。

GPT-4级模型推理成本四年内下降55倍，前沿模型价格反升。
市场分裂为平价推理和高端推理，企业支出占比达10-20%。

记忆在循环中：进程内检索作为语言代理的扩展工作记忆

2026-07-08 12:00 UTC+8

该研究提出将记忆存储移入语言代理的推理循环中，在每个步骤读取和写入，以克服网络延迟问题。实验表明，进程内存储（约100微秒）可将冗余动作从7.2/12降至0.0/12，并将召回率从0/5提升至3.6-4.8/5。瓶颈在于嵌入生成而非存储。

传统语言代理的记忆查询受限于网络延迟（数十至数百毫秒），导致每步操作延迟增加最高83倍。
进程内存储以约100微秒响应，使记忆成为扩展的工作记忆而非外部工具。

Show HN：如果个人网站变成ChatGPT会怎样？

2026-07-07 20:42 UTC+8

一位开发者将个人简历网站改造为AI聊天界面，访客可通过对话探索其职业经历。网站采用Groq进行LLM推理，延迟仅100-200毫秒，并故意限制令牌生成速度以模拟自然对话。后端使用纯Swift构建，无客户端JavaScript。

网站通过AI聊天界面呈现简历，替代传统静态浏览
采用Groq实现极低延迟LLM推理，且成本低廉

OpenAI发布GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用于API中的低延迟语音代理

2026-07-07 12:35 UTC+8

OpenAI在API中新增了两个Realtime模型：gpt-realtime-2.1和gpt-realtime-2.1-mini。后者是一款针对实时语音的迷你推理模型，定价与之前的gpt-realtime-mini相同。OpenAI还通过改进缓存将p95延迟降低了至少25%。本文介绍了模型的变化、定价对比以及如何通过WebRTC连接。

OpenAI推出gpt-realtime-2.1和gpt-realtime-2.1-mini，后者为低延迟语音推理模型。
定价与之前的mini模型相同，p95延迟降低至少25%。

Compressor V2：三层压缩技术将LLM智能体成本降低50%

2026-07-06 16:13 UTC+8

Edgee AI发布Compressor V2，通过三层正交压缩策略（简洁输出、工具表面缩减、工具结果修剪）显著降低LLM编码智能体的运行成本。在SWE-bench Lite基准测试中，仅简洁输出策略即可实现中位数约30%的成本削减。文章详细阐述了压缩的必要性、V1到V2的演进、实验方法和统计显著性验证，展示了压缩技术在经济性、延迟、上下文窗口和吞吐量方面的综合优势。

Compressor V2包含三种非重叠压缩策略，分别针对输出令牌、工具目录和工具结果。
在编码任务中，简洁输出策略使中位数成本降低约27.5%（约30%），具有统计显著性（p=0.031）。

分割，快与慢：基于双路径处理的实时开放词汇视频实例分割

2026-07-02 12:00 UTC+8

本文提出SegFS，一种双流快慢框架，用于开放词汇视频实例分割（OV-VIS）。通过在稀疏关键帧上使用开放词汇对象模型预测实例表示，并将这些表示投影回主干特征空间以调节轻量级快速网络，SegFS在不牺牲准确性的情况下显著提高了效率。快速分支的延迟比面向移动的MOBIUS模型低14倍，同时保持具有竞争力的分割性能。

SegFS采用双流快慢架构，在关键帧上使用精确的慢路径，在后续帧上使用高效的快路径。
通过将实例传播从对象解码转移到特征空间调节，解耦了多模态语义理解与密集掩码预测。

基于伊辛模型的热力学计算设备在低功耗AI推理和边缘计算中展现出巨大潜力，但针对此类硬件的大规模模型训练方法仍然有限。本研究将高温吉布斯采样伊辛系统的时间平均行为与神经网络推理的理论对应关系转化为一种可扩展的、纯反向传播的算法，用于训练深度卷积网络在伊辛机硬件上进行热力学推理。在CIFAR-10和CIFAR-100数据集上，模型分别达到94.9%和76.0%的准确率。此外，还开发了推理成本与精度之间关系的数学理论，并给出了最优推理调度算法。最后讨论了硬件开发的影响和高温热力学AI模型的未来。

提出了基于反向传播的可扩展算法，用于训练伊辛机硬件上的深度卷积网络。
在CIFAR-10和CIFAR-100上分别达到94.9%和76.0%的准确率。

Hugging Face 与 Cerebras 携手将 Gemma 4 引入实时语音 AI

2026-07-01 08:00 UTC+8

Hugging Face 与 Cerebras 合作，利用 Gemma 4 模型打造实时语音 AI 系统，通过开放模块化架构显著降低延迟，实现更自然的对话体验。该系统集成 Nvidia 的语音识别、Cerebras 的推理加速和 Alibaba 的语音合成，已在 9000 多台 Reachy Mini 机器人中应用。

Hugging Face 和 Cerebras 推出基于 Gemma 4 的实时语音 AI 演示，延迟极低。
系统采用开放的级联架构：语音输入→语音识别→模型推理→语音合成→语音输出。

RunInfra：将任何开放模型优化至内核，5分钟部署

2026-07-01 07:48 UTC+8

RunInfra是一个AI推理优化平台，可自动为开放模型选择最佳的推理引擎、GPU和配置，并提供可部署的堆栈。它通过基准测试和调优，大幅降低延迟、提高吞吐量并降低成本。

RunInfra自动优化开放模型的推理性能，支持vLLM、SGLang、TensorRT-LLM等多种引擎。
平台提供从模型选择到部署的完整流程，包括量化、内核调优和缓存策略。

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

2026-07-01 05:37 UTC+8

Sonnet 5在SWE-bench Pro、OSWorld-Verified和HLE等基准测试中均优于Sonnet 4.6，接近Opus 4.8。
定价低于Opus 4.8：$2/$10每百万token（至2026年8月31日），之后为$3/$15。

不要构建路由器。训练小模型知道何时交给大模型

2026-06-30 23:17 UTC+8

本文介绍了一种两层级联方法，其中一个小型专用模型处理绝大多数简单查询，并在遇到困难问题时自动调用大型前沿模型。这种方法在保持与全部使用大模型相当的质量的同时，显著降低了成本和延迟。

使用两层级联：小型模型处理大多数简单查询，大型模型处理困难的少数查询，实现成本与质量的平衡。
小型模型经过训练，能够在遇到超出其能力范围的问题时发出‘交给大模型’的工具调用，无需额外路由器。

萤火虫航空首次在月球轨道运行NVIDIA Jetson

2026-06-29 23:00 UTC+8

萤火虫航空的蓝色幽灵2号任务将在月球轨道上使用NVIDIA Jetson边缘AI平台，实现直接在太空进行AI推理，大幅减少数据传输延迟。该任务搭载Ocula月球成像服务，用于绘制着陆点、探测矿物组成等，支持未来人类和机器人探索。

萤火虫航空将在蓝色幽灵2号任务中首次在月球轨道运行NVIDIA Jetson边缘AI平台。
Ocula服务利用Jetson在轨处理图像数据，仅回传关键信息，减少延迟和带宽需求。

Kog Laneformer 2B：Kog推理引擎背后的延迟优先模型

2026-06-29 16:40 UTC+8

Kog发布了Laneformer 2B，一个23亿参数的指令微调编码模型，专为高速单请求推理从头设计。通过将模型架构与推理引擎协同设计，Kog引入了延迟张量并行（DTP）和车道结构Transformer以隐藏通信开销。该模型在编码基准上取得竞争性结果（HumanEval+ 45.1%，MBPP+ 51.6%），现已在Hugging Face上开源。

Laneformer 2B是一个23亿参数的编码模型，优化了低延迟推理。
它使用新颖的车道结构架构和延迟张量并行，最小化通信成本。

自动化演讲辅导系统综述：系统、方法与开放挑战

2026-06-29 12:00 UTC+8

本文系统综述了自动化演讲辅导系统，涵盖发音、流利度、韵律、多模态及问答练习工具。提出了五维任务分类体系（分段发音、词汇重音、超音段韵律、节奏、内容忠实性），并映射了现有系统以揭示覆盖缺口。核心技术包括基于TTS的示例生成和诊断方法。开放挑战包括标注语料库稀缺、跨口音公平反馈和实时低延迟诊断。

首次系统综述自动化演讲辅导系统，提出五维任务分类体系。
覆盖发音、韵律、节奏和内容忠实性等关键维度。

Enki——为AI智能体设计的记忆引擎：存储量减半，回答质量不减

2026-06-28 07:35 UTC+8

Enki是一款面向AI智能体的记忆引擎，与mem0相比，在存储量减少约一半的情况下，实现了相近的问答准确率。在25个实例的评估中，Enki总分14/25对12/25，在多会话推理方面表现突出（4/5对2/5）。CPU检索延迟平均7.6毫秒。

Enki仅使用mem0存储量的约49%（138对283条事实），准确率相当。
多会话推理能力优异（4/5对2/5），为显著优势。

AI网关基准测试：GoModel vs LiteLLM vs Portkey vs Bifrost

2026-06-27 00:04 UTC+8

本文对比了四种AI网关在请求路径上的运行时开销，包括延迟、吞吐量、内存、CPU、冷启动时间和镜像大小。测试结果显示，GoModel在几乎所有指标上表现最优，而LiteLLM则因资源消耗巨大而成为短板。文章还讨论了网关的开源中立性和对本地模型部署的影响。

GoModel在所有测试中表现最佳：1.8毫秒延迟、4900请求/秒吞吐量、37MB内存占用、0.56秒冷启动。
LiteLLM的资源占用过高：2.3GB内存、25.5秒冷启动、372MB镜像，成为性能瓶颈。

通过可微搜索在视觉基础模型中实现层特定提示融合发现

2026-06-26 12:00 UTC+8

本文提出一种基于可微架构搜索的方法，用于自动发现视觉提示微调中图像标记与提示标记的最佳融合方案。该方法将学习提示及其融合方式联合优化，并引入仿射变换和交叉注意力两种新融合机制。在34个数据集上的实验表明，该方法在准确率、延迟和参数数量之间实现了良好的权衡，并揭示了混合融合方式能更有效地利用Transformer的层语义。

将提示融合方案选择建模为双层优化问题，并通过可微架构搜索求解。
提出了仿射变换和交叉注意力两种新融合机制，丰富了搜索空间。

设计能够跟上AI步伐的组织

2026-06-25 20:00 UTC+8

组织延迟正成为充分实现AI益处的最大障碍，探讨如何通过组织设计来化解这一问题。

组织延迟指的是组织适应AI的速度落后于技术发展。
传统层级结构往往阻碍AI的快速整合与迭代。

什么是无服务器 PostgreSQL？

2026-06-25 16:37 UTC+8

无服务器 PostgreSQL 是一种完全托管的云数据库模型，将计算和存储分离，实现独立自动伸缩。它适用于突发性或不可预测的工作负载，但不太适合始终在线、对延迟敏感的应用程序。文章还介绍了基于无服务器 Postgres 的 Lakebase 架构，该架构统一了事务和分析工作负载，减少数据重复，简化了对 AI 和实时应用程序的访问。

无服务器 PostgreSQL 将计算和存储解耦，按需自动伸缩，按实际使用计费。
与传统 Postgres 相比，它降低了运维开销，但存在冷启动延迟和连接管理问题。

面向低延迟视觉-语言模型的自我中心视觉理解中的双重正确预测

2026-06-25 12:00 UTC+8

本文研究了在自我中心视觉理解中，如何通过权重剪枝实现低延迟视觉-语言模型，同时保证预测的准确性和证据基础（双重正确）。现有剪枝方法常保持证据定位但损害准确性，作者提出理由告知剪枝策略，在自我中心视频数据集上达到了最高准确率和双重正确预测。

权重剪枝可用于降低VLM在自我中心视觉任务中的延迟
现有方法往往保留正确证据但降低预测准确性

Wan-Streamer v0.1：端到端实时交互基础模型

2026-06-25 12:00 UTC+8

Wan-Streamer 是一个原生流式、端到端的交互基础模型，专为低延迟、全双工信视听交互设计。它在一个Transformer中统一建模语言、音频和视频的输入输出，使用块因果注意力实现增量流式，无需依赖外部模块。模型侧响应延迟约200毫秒，总交互延迟约550毫秒，支持亚秒级双工信视听通信。

Wan-Streamer 采用单一Transformer处理语言、音频和视频的输入与输出，实现端到端交互。
通过块因果注意力和低延迟多模态令牌调度，支持160毫秒（25fps）的流式单元。

基于Pingora、Envoy和Spanner的无服务器服务器路由

2026-06-25 08:00 UTC+8

Modal团队深入介绍了其新型超低延迟Serverless Servers的设计原理和实现细节，该服务针对LLM推理等对延迟敏感的应用进行了优化。文章解释了为何选择构建自己的代理层fprs，以及如何通过Pingora库、Envoy边缘代理和Spanner全局数据库实现无网络调用热路径、动态域名关联和自动缩放。

Modal推出Serverless Servers，专为超低延迟HTTP/WebSocket/gRPC流量设计。
与Web Functions不同，Servers牺牲了排队和重试以换取更低延迟。

Gradium发布stt-translate和s2s-translate：实时语音翻译模型，准确率和延迟均超越GPT Realtime Translate

2026-06-25 04:00 UTC+8

Gradium推出了两款实时语音翻译模型：stt-translate（语音转文本）和s2s-translate（语音转语音），覆盖英语、法语、德语、西班牙语和葡萄牙语共20种语言对。通过将传统的三模型级联简化为两个阶段，模型在BLEU和MetricX指标上优于GPT Realtime Translate，平均延迟3.0秒，略逊于Gemini的2.9秒，但支持输出语音选择和克隆。

Gradium发布stt-translate和s2s-translate，将语音转文本和翻译合并为单次处理。
覆盖5种语言，20个语言对，平均延迟3.0秒。

VoltanaLLM：面向能效LLM服务的反馈驱动频率控制与状态空间路由

2026-06-24 13:24 UTC+8

VoltanaLLM提出了一种基于反馈的频率控制器和状态空间路由器，用于预填/解码分离的LLM服务架构，在保持延迟SLO的同时实现高达36.3%的能耗节省。该工作在多个LLM和NVIDIA A100 GPU上进行了评估。

VoltanaLLM协同设计频率缩放和请求路由，用于分离式LLM服务。
采用EcoFreq Governor实现阶段特定的频率控制，EcoRouter实现状态空间路由。

Sol视频推理引擎：面向高效视频生成的智能体原生全栈加速框架

2026-06-24 12:00 UTC+8

现代视频扩散模型通过扩展规模提升了生成质量，但也带来了高昂的推理成本。Sol视频推理引擎提出了一种无需训练的智能体加速框架，通过缓存、稀疏注意力、token剪枝、量化和内核融合五种技术，针对具体模型、硬件和配置进行实例特定优化。在三个不同规模的视频模型上，该框架实现了超过2倍的端到端加速，同时几乎不损失VBench质量指标。

视频扩散模型推理加速面临实例特异性挑战，不同模型、硬件和配置需要不同策略。
Sol引擎采用智能体架构，并行优化五种加速技术并由集成器组合成全局栈。

Upbound开源Modelplane以优化推理集群管理

2026-06-24 08:31 UTC+8

Upbound Inc. 今天发布了Modelplane，这是一个用于管理人工智能推理集群的新型开源工具。该工具基于其之前的Crossplane项目，旨在简化跨多个云平台的推理工作负载分布，自动分配资源，并通过分布式缓存减少延迟。

Upbound发布开源工具Modelplane，用于管理AI推理集群。
Modelplane基于Crossplane，可跨多个云平台协调推理工作负载。

NVIDIA与AWS合作，将AI大规模投入生产

2026-06-24 08:05 UTC+8

NVIDIA与AWS合作，通过新的EC2 G7实例（搭载Blackwell GPU）和OpenSearch Serverless中的GPU加速向量索引（由cuVS驱动），以及AWS获得NVIDIA GB300训练的Exemplar云状态，为企业提供可扩展、低延迟的AI基础设施。

EC2 G7实例搭载NVIDIA RTX PRO 4500 Blackwell GPU，AI推理性能提升高达4.6倍。
OpenSearch Serverless默认使用GPU加速向量索引，速度提升10倍，成本降低至四分之一。

通过推测解码实现最先进的推理延迟

2026-06-24 08:00 UTC+8

Modal与Decagon合作，利用推测解码将推理延迟降低100毫秒，超越了专有推理提供商。本文详细介绍了通过优化通信延迟、主机开销、预填充延迟和解码延迟来实现低延迟的完整策略，并重点展示了为特定应用定制推测模型（DFlash技术）如何带来显著性能提升。

Modal Auto Endpoints通过推测解码实现低延迟推理，关键优化是使用Blackwell GPU、SGLang引擎和Modal服务器。
推测解码通过并行处理多个推测令牌来减少解码阶段延迟，且效率主要取决于接受长度。

Modal Auto Endpoints 发布：优化推理，真正拥有

2026-06-23 08:00 UTC+8

Modal 推出 Auto Endpoints，一个自服务的生产级 LLM 推理入口，让用户通过单一命令行即可部署前沿开放模型，并完全掌控推理代码、指标和基础设施。该服务基于 Modal 的 AI 基础设施平台，提供高性能自动扩缩、自定义容器运行时和全球 GPU 资源，并通过 Modal Servers 实现超低延迟路由（5ms 开销）。预调优的推理方案源自与顶级团队的合作经验，并采用 DFlash 投机解码加速。未来将实现推理工程全自动化。

Auto Endpoints 支持一键部署开放模型（如 GLM 5.2），用户拥有完整推理栈。
提供引擎级可观测性指标，包括服务器和推理指标。

Sakana Fugu：一个模型指挥所有

2026-06-22 10:08 UTC+8

Sakana AI 推出 Fugu，一个通过单一API动态编排多种模型的多智能体系统，在编码、推理等复杂任务上达到前沿性能，且不依赖单一供应商。基于ICLR 2026论文，Fugu学习自动组合和协调专家模型，提供两种版本：Fugu（平衡性能与延迟）和Fugu Ultra（针对高强度问题优化）。在多个基准测试中，Fugu模型与顶尖模型并驾齐驱，甚至超越。目前EU/EEA区域暂不可用。

Fugu通过单一API动态编排多种模型，无需手动设计工作流。
提供Fugu和Fugu Ultra两种模型，分别平衡性能与延迟或最大化答案质量。

使用 SageMaker 详细指标和 CloudWatch Insights 仪表板监控和调试生成式 AI 推理

2026-06-19 07:31 UTC+8

Amazon SageMaker AI 现在提供超过 100 种详细的推理指标，涵盖 GPU 健康、令牌级延迟、KV 缓存压力、可用区流量分布等。这些指标通过内置的 SageMaker Insights 仪表板在 CloudWatch 中展示，支持 PromQL 查询。本文介绍如何启用详细可观测性、导航仪表板以及将指标连接到外部工具。

SageMaker 推理端点现在默认发出超过 100 种详细的 OpenTelemetry 指标到 CloudWatch。
新的 SageMaker Insights 仪表板提供性能、容量和可靠性三个视图，帮助快速定位延迟和资源问题。

谷歌六年来首款智能音箱将于下周发货

2026-06-17 21:00 UTC+8

谷歌Home Speaker将于6月29日发货，比原定的春季窗口略有延迟。这款99美元的扬声器专为Gemini for Home设计，支持Matter和Thread边界路由器，提供360度音效，并可选四种颜色。

谷歌Home Speaker六年来的首款智能音箱，6月29日发货。
专为Gemini for Home设计，运行本地模型以优化语音识别。

AI平台新功能：ML工程智能体、深度学习平台及实时ML新能力

2026-06-17 16:44 UTC+8

Databricks在2026年数据+AI峰会上宣布了AI平台的多项新功能，包括用于机器学习的Genie Code智能体、公开预览的AI Runtime（无服务器GPU训练环境），以及增强的实时ML支持（低延迟、高QPS的特征存储和模型服务）。这些功能旨在加速从实验到生产的AI应用开发。

Genie Code for ML：集成Databricks ML组件的编码智能体，加速特征工程、模型训练、部署和监控。
AI Runtime（公开预览）：无服务器GPU训练平台，支持研究级深度学习和大规模微调，无需管理基础设施。

MLLP-VRAIN UPV 系统在 IWSLT 2026 同声传译任务中的表现

2026-06-17 12:00 UTC+8

本文介绍了 MLLP-VRAIN 研究组参与 IWSLT 2026 同声传译共享任务的系统。该系统利用最新发布的 Parakeet 和 Qwen 3.5 模型，通过自适应“黑盒”策略构建鲁棒的级联解决方案，并探索策略松弛以优化质量-延迟权衡。系统参与所有语言方向，并针对 En→De、It、Zh 方向引入新的上下文轨道，结合 ASR 词汇增强和离线预翻译示例的 RAG 机制。在 MCIF En→De 测试集上，质量提升 +5.82 XCOMET-XL，上下文处理额外提升 +1.03。

使用 Parakeet 和 Qwen 3.5 模型构建级联同声翻译系统。
自适应黑盒策略及其松弛实现质量与延迟的更好平衡。

推理成本

相关主题

推理成本动态

通过知识蒸馏将LLM转化为高效交叉编码器用于RAG重排序

操作系统 -> 生产调查

生产中减少LLM延迟和推理成本的12种方法

工作负载驱动的设备端实时字幕翻译优化

闭环控制：规则对齐的小语言模型与多智能体自我修正

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

Director：通过在线主动专家放置加速分布式MoE服务

KV-PRM：通过KV缓存传递实现高效过程奖励建模，用于多智能体测试时扩展

亨利·沙因公司利用Amazon SageMaker AI实现牙科影像实时验证

在SageMaker HyperPod上实现LLM推理的分离式预填充和解码

Infinity-Parser2 技术报告发布：多模态文档解析新范式

快速令牌生成成为关键差异点，异构推理逐渐普及

OpenAI发布最新ChatGPT模型，此前因白宫网络安全担忧而延迟

指纹，而非蓝图：位置编码如何设置注意力的默认谱代数

LangChain与NVIDIA联合发布NemoClaw深度代理蓝图

NVIDIA Nemotron 借助 LangChain 深度代理框架实现基准领先性能

人工智能成为平价市场，少数高端模型仍居顶端

记忆在循环中：进程内检索作为语言代理的扩展工作记忆

Show HN：如果个人网站变成ChatGPT会怎样？

OpenAI发布GPT-Realtime-2.1和GPT-Realtime-2.1-mini，用于API中的低延迟语音代理

Compressor V2：三层压缩技术将LLM智能体成本降低50%

分割，快与慢：基于双路径处理的实时开放词汇视频实例分割

扩展热力学AI模型

Hugging Face 与 Cerebras 携手将 Gemma 4 引入实时语音 AI

RunInfra：将任何开放模型优化至内核，5分钟部署

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：智能编码基准测试、API定价及成本-性能权衡对比

不要构建路由器。训练小模型知道何时交给大模型

萤火虫航空首次在月球轨道运行NVIDIA Jetson

Kog Laneformer 2B：Kog推理引擎背后的延迟优先模型

自动化演讲辅导系统综述：系统、方法与开放挑战

Enki——为AI智能体设计的记忆引擎：存储量减半，回答质量不减

AI网关基准测试：GoModel vs LiteLLM vs Portkey vs Bifrost

通过可微搜索在视觉基础模型中实现层特定提示融合发现

设计能够跟上AI步伐的组织

什么是无服务器 PostgreSQL？

面向低延迟视觉-语言模型的自我中心视觉理解中的双重正确预测

Wan-Streamer v0.1：端到端实时交互基础模型

基于Pingora、Envoy和Spanner的无服务器服务器路由

Gradium发布stt-translate和s2s-translate：实时语音翻译模型，准确率和延迟均超越GPT Realtime Translate

VoltanaLLM：面向能效LLM服务的反馈驱动频率控制与状态空间路由

Sol视频推理引擎：面向高效视频生成的智能体原生全栈加速框架

Upbound开源Modelplane以优化推理集群管理

NVIDIA与AWS合作，将AI大规模投入生产

通过推测解码实现最先进的推理延迟

Modal Auto Endpoints 发布：优化推理，真正拥有

Sakana Fugu：一个模型指挥所有

使用 SageMaker 详细指标和 CloudWatch Insights 仪表板监控和调试生成式 AI 推理

谷歌六年来首款智能音箱将于下周发货

AI平台新功能：ML工程智能体、深度学习平台及实时ML新能力

MLLP-VRAIN UPV 系统在 IWSLT 2026 同声传译任务中的表现

更多增长标签

AI 编程

MCP

开源模型

Agent 框架

中国 AI

GPU 基础设施

模型定价

DeepSeek

Qwen