Together AI Blog AI 新闻来源

公开文章 21采集文章 21可信度 88刷新频率 5 分钟

健康状态健康来源类型官方原文权限 官方原文最近入库 2026-06-23ID together-ai-blog运行状态 已启用

Official source; confirm reuse terms before enabling full body display.

最新公开文章

ParallelKernelBench：前沿LLM尚无法编写快速的多GPU内核

2026-06-23 08:00 UTC+8

ParallelKernelBench是一个新的基准测试，评估LLM编写多GPU CUDA内核的能力。在87个真实问题中，最佳模型仅能正确解决不到三分之一，且只有不到四分之一的解决方案优于基线。文章分析了模型失败的原因，并展示了几个意外生成的高性能内核案例。

ParallelKernelBench（PKB）包含87个来自真实代码库的多GPU内核生成问题。
最佳前沿模型（GPT-5.5）在零次学习设置中仅解决28个问题，其中22个快于基线。

Kimi K2.7 Code vs Claude Fable 5：着陆页成本降低94%

2026-06-17 08:00 UTC+8

我们使用Kimi K2.7 Code和Claude Fable 5生成了12个着陆页。Kimi的成本降低了94%，且每个页面的评分仅相差几分。开源模型不仅更便宜，而且在质量上具有竞争力，差距正在迅速缩小。

Kimi K2.7 Code生成着陆页的成本比Claude Fable 5低约94%。
在质量评分上，Kimi与Fable的差距很小，尤其在使用设计灵感MCP后表现更佳。

在企业AI中建立信任：Together AI获得ISO 27001:2022认证

2026-06-10 08:00 UTC+8

Together AI已获得ISO 27001:2022认证，这验证了我们对企业级安全的承诺，帮助客户在安全、治理良好的基础设施上运行生产级AI工作负载。

Together AI通过A-LIGN认证获得ISO 27001:2022证书
认证范围涵盖全球平台及支持客户数据保护的系统流程

高效推理服务MiniMax-M3：解锁百万Token上下文与多模态能力，毫无遗憾

2026-06-02 08:00 UTC+8

Together AI 通过KV块主稀疏注意力、分页MSA解码、优化索引评分内核以及基于Rust的多模态预处理网关等创新，实现了对MiniMax M3模型的高效服务，在不同并发级别下吞吐量提升81%–125%。

MiniMax M3 是一款集成编码、智能体工作流和多模态推理的全能模型，支持1M上下文窗口。
Together AI 的推理和内核团队实现了多项工程突破，包括KV块主稀疏注意力内核和分页注意力集成。

Together AI如何构建全球最快的语音转文本技术栈

2026-05-29 08:00 UTC+8

Together AI通过将语音识别视为端到端系统问题，而非单纯的GPU推理问题，在Artificial Analysis榜单上实现了最快的语音转文本速度。本文详细介绍了其优化策略：包括针对真实音频形状的TensorRT多配置文件引擎、条件CUDA图消除CPU往返、共享内存减少数据拷贝、事件驱动I/O处理流式传输，以及通过gc.freeze()消除垃圾回收尾延迟。

Together AI通过全路径系统优化，而非仅关注GPU推理，实现了最快的语音转文本性能。
核心技术包括TensorRT多配置文件编码器、条件CUDA图解码器、零拷贝共享内存和事件驱动I/O。

大规模推理基准测试：编码智能体

2026-05-19 08:00 UTC+8

在编码代理生产负载下，Together Inference Engine 相比 TensorRT-LLM 每秒令牌数提升 31%，饱和时首令牌延迟提升 2 倍，成本比 Claude Opus 4.6 低 76%。

实际编码代理工作负载的推理基准测试，重点模拟高并发长上下文场景。
Together Inference Engine 在 4 块 B200 GPU 上实现 31% 更高的 TPS 和更低的 TTFT。

Together AI与Pearl Research Labs合作降低AI推理成本

2026-05-15 08:00 UTC+8

Together AI与Pearl Research Labs合作，推出由Pearl网络提供支持的Gemma-4-31B-it-pearl推理端点，享受超过25%的折扣。该创新利用有用工作量证明技术，在AI工作负载的同时挖矿产生加密货币，从而抵消计算成本。

Together AI与Pearl Research Labs合作，推出由Pearl网络提供支持的折扣推理端点。
该端点利用有用工作量证明技术，在AI推理的同时挖矿产生PRL币，降低成本。

Violin：打破语言障碍的开源视频翻译技能

2026-05-14 08:00 UTC+8

Violin是一个完全开源的AI视频翻译工具，结合语音识别、大型语言模型翻译和语音合成，使视频内容跨越语言障碍。它提供网络应用、命令行界面和代理技能，支持视频内容问答和个性化语音选择。使用Together API，利用Whisper、DeepSeek和Cartesia等模型，以MIT许可证发布。

Violin将语音识别、LLM翻译和语音合成整合为开源视频翻译工具。
支持网络应用、CLI和代理技能，适合不同用户群体。

语音查找器——一款可从600多种语音中快速为您的应用找到合适语音的新工具

2026-05-12 08:00 UTC+8

语音查找器让开发者能够通过自然语言提示或上传音频样本，搜索、匹配、筛选和试听Together AI TTS模型中的600多种语音。

支持对600+语音进行搜索、筛选和试听
可通过文本描述或上传音频样本查找相似语音

从HuggingFace部署并推理任何模型

2026-05-08 08:00 UTC+8

学习如何在一个会话中使用Goose和Together的专用容器推理部署任何HuggingFace模型。跳过复杂设置——一个提示就能让你的模型在发布当天在生产级GPU环境中运行。

使用Goose和Together的专用容器推理，开发者可以零延迟部署新发布的模型。
作者在Netflix发布void-model当天成功部署并运行。

部署DeepSeek-V4：为何百万Token上下文是推理系统的问题

2026-05-08 08:00 UTC+8

DeepSeek-V4通过混合注意力设计（CSA、HCA、SWA）压缩KV缓存，将百万Token上下文从模型挑战转变为推理系统挑战。Together AI在NVIDIA HGX B200上的早期部署经验展示了缓存策略、前缀缓存和端点配置对长上下文工作负载性能的关键影响。

DeepSeek-V4的压缩稀疏注意力（CSA）和高度压缩注意力（HCA）减小了KV缓存大小，但推理引擎需要管理多种缓存布局。
滑动窗口注意力（SWA）在长上下文时成为性能瓶颈，需谨慎选择存储策略。

驱动大规模高效推理的基础研究

2026-05-04 08:00 UTC+8

随着AI从研究走向生产，AI原生团队面临的挑战从构建模型转向高效、可靠、大规模地运行模型。推理成本占生产AI系统总生命周期成本的80-90%。Together AI通过FlashAttention-4、ATLAS自适应推测解码等研究，结合全栈硬件优化和智能调度，实现高效推理，帮助客户改善单位经济效益。

推理成本占生产AI系统总成本的80-90%，是影响AI公司经济模型的关键因素。
Together AI推出FlashAttention-4（比cuDNN快达1.3倍）和ATLAS（自适应推测解码，提升4倍推理速度）。

Together AI 与 Adaption 合作宣布

2026-04-30 08:00 UTC+8

Together AI 与 Adaption 合作，将 Together Fine-Tuning 原生集成到 Adaptive Data 平台，帮助团队优化数据集、运行微调、评估结果并部署更强大的开放模型。

Together AI 与 Adaption 合作，将微调功能集成到 Adaptive Data 中。
该合作简化了从数据优化到模型部署的工作流程。

从732字节到无处可逃：在生产环境中关闭Copy Fail漏洞

2026-04-30 08:00 UTC+8

Together AI 详细介绍了他们如何迅速应对 Linux 内核漏洞 Copy Fail（CVE-2026-31431），该漏洞允许本地无特权用户通过 AF_ALG 接口获得精确的4字节写入原语，从而实现权限提升。团队通过立即卸载易受攻击的内核模块、滚动应用内核补丁，并加强检测与监控，确保了 AI 基础设施的安全。

Copy Fail（CVE-2026-31431）是 Linux 内核加密子系统中的一个逻辑错误，允许本地无特权用户对任意可读文件的页缓存实现精确4字节写入。
Together AI 在数小时内卸载了 algif_aead 模块并移除了模块文件，阻止了漏洞利用，无需重启。

DeepSeek-V4 Pro 现已登陆 Together AI

2026-04-29 08:00 UTC+8

DeepSeek-V4 Pro 是一款 1.6 万亿参数的 MoE 推理模型，现已在 Together AI 上线，提供 512K 上下文窗口、可控推理模式（非思考、深度思考、最大思考）以及缓存输入定价，适用于代码代理、文档智能、长上下文代理和研究综合等场景。

1.6T 参数 MoE 架构，激活参数 49B，Together AI 上提供 512K 上下文（模型支持 1M）
三种推理模式：非思考、深度思考、最大思考，灵活匹配任务难度

Together AI 在 Day 0 向开发者推出 NVIDIA Nemotron 3 Nano Omni

2026-04-28 08:00 UTC+8

NVIDIA Nemotron 3 Nano Omni 现已登陆 Together AI 平台。这是一个单一开放模型，能够同时推理视频、图像、音频和文本，专为大规模智能体工作负载而设计。Together AI 通过其研究优化、托管基础设施和安全 API，提供了部署该模型的最快路径。

Nemotron 3 Nano Omni 是一个多模态模型，融合了 Mamba-Transformer MoE 架构，每 token 仅激活约 30 亿参数。
Together AI 利用 FlashAttention-4 等前沿研究，实现高效推理和低延迟。

利用分布感知推测解码将强化学习 rollout 速度提升高达 50%

2026-04-24 08:00 UTC+8

Rollout 是强化学习后训练中的隐形瓶颈。DAS 通过自适应推测解码解决了这一问题——速度提升高达 50%，且奖励质量零下降。

DAS 可在不影响奖励质量的情况下，将强化学习 rollout 时间减少高达 50%。
它使用自适应后缀树草稿模型，该模型从 rollout 历史中自我演化。

无冲突的容量：面向AI原生团队的多租户GPU集群设计指南

2026-04-21 08:00 UTC+8

多租户GPU集群让AI原生公司能够跨团队共享计算容量，同时不牺牲隔离性或控制力。本文涵盖核心设计原则、常见故障模式，以及Together AI如何在实际中实现多租户。

多租户GPU集群在共享硬件的同时为每个团队提供专用节点、存储和自服务调度。
设计需要满足三个核心要求：池化容量、租户隔离和自服务访问。

Parcae：利用稳定的循环模型，用更少的参数做更多的事

2026-04-15 08:00 UTC+8

Parcae是一种稳定的循环语言模型，能够达到规模两倍的Transformer的质量——一个770M参数的模型达到1.3B级别的性能。我们首次提出了循环的缩放定律，并证明增加循环次数（而不仅仅是数据）是计算高效提升模型质量的路径。

Parcae是一个稳定的循环架构，训练稳定且可预测。
770M参数的Parcae模型性能与1.3B参数的Transformer相当，参数减半。

EinsteinArena：利用野外智能体的集体智慧推动科学进步

2026-04-13 08:00 UTC+8

EinsteinArena是一个开放平台，AI智能体在其中协作和竞争解决数学难题。目前已取得11项最新最优结果，包括将11维亲吻数下界从593提升至604。平台通过实时排行榜、验证器和讨论线程促进智能体间的协作。

AI智能体在EinsteinArena上协作攻克开放数学问题。
11维亲吻数下界从593提升至604，取得重大突破。

什么是AI原生云？

2026-04-07 08:00 UTC+8

AI原生云是专为以模型为核心产品的AI原生公司设计的新型云基础设施。本文解释了为何传统云不够用，并概述了AI原生云的五大特征：全AI栈集成、研究到生产的快速路径、规模化可靠性、以AI构建者为中心的设计，以及以AI原生速度发展的合作伙伴关系。Together AI正在构建这样的云。

AI原生公司的产品就是模型，需要专为其设计的云基础设施。
传统云针对Web应用优化，无法满足AI工作负载的GPU密集型、快速迭代需求。

Together AI Blog