ParallelKernelBench:前沿LLM尚无法编写快速的多GPU内核 2026-06-23 08:00 UTC+8 ParallelKernelBench是一个新的基准测试,评估LLM编写多GPU CUDA内核的能力。在87个真实问题中,最佳模型仅能正确解决不到三分之一,且只有不到四分之一的解决方案优于基线。文章分析了模型失败的原因,并展示了几个意外生成的高性能内核案例。
ParallelKernelBench(PKB)包含87个来自真实代码库的多GPU内核生成问题。 最佳前沿模型(GPT-5.5)在零次学习设置中仅解决28个问题,其中22个快于基线。 Kimi K2.7 Code vs Claude Fable 5:着陆页成本降低94% 2026-06-17 08:00 UTC+8 我们使用Kimi K2.7 Code和Claude Fable 5生成了12个着陆页。Kimi的成本降低了94%,且每个页面的评分仅相差几分。开源模型不仅更便宜,而且在质量上具有竞争力,差距正在迅速缩小。
Kimi K2.7 Code生成着陆页的成本比Claude Fable 5低约94%。 在质量评分上,Kimi与Fable的差距很小,尤其在使用设计灵感MCP后表现更佳。 在企业AI中建立信任:Together AI获得ISO 27001:2022认证 2026-06-10 08:00 UTC+8 Together AI已获得ISO 27001:2022认证,这验证了我们对企业级安全的承诺,帮助客户在安全、治理良好的基础设施上运行生产级AI工作负载。
Together AI通过A-LIGN认证获得ISO 27001:2022证书 认证范围涵盖全球平台及支持客户数据保护的系统流程 高效推理服务MiniMax-M3:解锁百万Token上下文与多模态能力,毫无遗憾 2026-06-02 08:00 UTC+8 Together AI 通过KV块主稀疏注意力、分页MSA解码、优化索引评分内核以及基于Rust的多模态预处理网关等创新,实现了对MiniMax M3模型的高效服务,在不同并发级别下吞吐量提升81%–125%。
MiniMax M3 是一款集成编码、智能体工作流和多模态推理的全能模型,支持1M上下文窗口。 Together AI 的推理和内核团队实现了多项工程突破,包括KV块主稀疏注意力内核和分页注意力集成。 Together AI如何构建全球最快的语音转文本技术栈 2026-05-29 08:00 UTC+8 Together AI通过将语音识别视为端到端系统问题,而非单纯的GPU推理问题,在Artificial Analysis榜单上实现了最快的语音转文本速度。本文详细介绍了其优化策略:包括针对真实音频形状的TensorRT多配置文件引擎、条件CUDA图消除CPU往返、共享内存减少数据拷贝、事件驱动I/O处理流式传输,以及通过gc.freeze()消除垃圾回收尾延迟。
Together AI通过全路径系统优化,而非仅关注GPU推理,实现了最快的语音转文本性能。 核心技术包括TensorRT多配置文件编码器、条件CUDA图解码器、零拷贝共享内存和事件驱动I/O。 大规模推理基准测试:编码智能体 2026-05-19 08:00 UTC+8 在编码代理生产负载下,Together Inference Engine 相比 TensorRT-LLM 每秒令牌数提升 31%,饱和时首令牌延迟提升 2 倍,成本比 Claude Opus 4.6 低 76%。
实际编码代理工作负载的推理基准测试,重点模拟高并发长上下文场景。 Together Inference Engine 在 4 块 B200 GPU 上实现 31% 更高的 TPS 和更低的 TTFT。 Together AI与Pearl Research Labs合作降低AI推理成本 2026-05-15 08:00 UTC+8 Together AI与Pearl Research Labs合作,推出由Pearl网络提供支持的Gemma-4-31B-it-pearl推理端点,享受超过25%的折扣。该创新利用有用工作量证明技术,在AI工作负载的同时挖矿产生加密货币,从而抵消计算成本。
Together AI与Pearl Research Labs合作,推出由Pearl网络提供支持的折扣推理端点。 该端点利用有用工作量证明技术,在AI推理的同时挖矿产生PRL币,降低成本。 Violin:打破语言障碍的开源视频翻译技能 2026-05-14 08:00 UTC+8 Violin是一个完全开源的AI视频翻译工具,结合语音识别、大型语言模型翻译和语音合成,使视频内容跨越语言障碍。它提供网络应用、命令行界面和代理技能,支持视频内容问答和个性化语音选择。使用Together API,利用Whisper、DeepSeek和Cartesia等模型,以MIT许可证发布。
Violin将语音识别、LLM翻译和语音合成整合为开源视频翻译工具。 支持网络应用、CLI和代理技能,适合不同用户群体。 语音查找器——一款可从600多种语音中快速为您的应用找到合适语音的新工具 2026-05-12 08:00 UTC+8 语音查找器让开发者能够通过自然语言提示或上传音频样本,搜索、匹配、筛选和试听Together AI TTS模型中的600多种语音。
支持对600+语音进行搜索、筛选和试听 可通过文本描述或上传音频样本查找相似语音 从HuggingFace部署并推理任何模型 2026-05-08 08:00 UTC+8 学习如何在一个会话中使用Goose和Together的专用容器推理部署任何HuggingFace模型。跳过复杂设置——一个提示就能让你的模型在发布当天在生产级GPU环境中运行。
使用Goose和Together的专用容器推理,开发者可以零延迟部署新发布的模型。 作者在Netflix发布void-model当天成功部署并运行。 部署DeepSeek-V4:为何百万Token上下文是推理系统的问题 2026-05-08 08:00 UTC+8 DeepSeek-V4通过混合注意力设计(CSA、HCA、SWA)压缩KV缓存,将百万Token上下文从模型挑战转变为推理系统挑战。Together AI在NVIDIA HGX B200上的早期部署经验展示了缓存策略、前缀缓存和端点配置对长上下文工作负载性能的关键影响。
DeepSeek-V4的压缩稀疏注意力(CSA)和高度压缩注意力(HCA)减小了KV缓存大小,但推理引擎需要管理多种缓存布局。 滑动窗口注意力(SWA)在长上下文时成为性能瓶颈,需谨慎选择存储策略。 驱动大规模高效推理的基础研究 2026-05-04 08:00 UTC+8 随着AI从研究走向生产,AI原生团队面临的挑战从构建模型转向高效、可靠、大规模地运行模型。推理成本占生产AI系统总生命周期成本的80-90%。Together AI通过FlashAttention-4、ATLAS自适应推测解码等研究,结合全栈硬件优化和智能调度,实现高效推理,帮助客户改善单位经济效益。
推理成本占生产AI系统总成本的80-90%,是影响AI公司经济模型的关键因素。 Together AI推出FlashAttention-4(比cuDNN快达1.3倍)和ATLAS(自适应推测解码,提升4倍推理速度)。 Together AI 与 Adaption 合作宣布 2026-04-30 08:00 UTC+8 Together AI 与 Adaption 合作,将 Together Fine-Tuning 原生集成到 Adaptive Data 平台,帮助团队优化数据集、运行微调、评估结果并部署更强大的开放模型。
Together AI 与 Adaption 合作,将微调功能集成到 Adaptive Data 中。 该合作简化了从数据优化到模型部署的工作流程。 从732字节到无处可逃:在生产环境中关闭Copy Fail漏洞 2026-04-30 08:00 UTC+8 Together AI 详细介绍了他们如何迅速应对 Linux 内核漏洞 Copy Fail(CVE-2026-31431),该漏洞允许本地无特权用户通过 AF_ALG 接口获得精确的4字节写入原语,从而实现权限提升。团队通过立即卸载易受攻击的内核模块、滚动应用内核补丁,并加强检测与监控,确保了 AI 基础设施的安全。
Copy Fail(CVE-2026-31431)是 Linux 内核加密子系统中的一个逻辑错误,允许本地无特权用户对任意可读文件的页缓存实现精确4字节写入。 Together AI 在数小时内卸载了 algif_aead 模块并移除了模块文件,阻止了漏洞利用,无需重启。 DeepSeek-V4 Pro 现已登陆 Together AI 2026-04-29 08:00 UTC+8 DeepSeek-V4 Pro 是一款 1.6 万亿参数的 MoE 推理模型,现已在 Together AI 上线,提供 512K 上下文窗口、可控推理模式(非思考、深度思考、最大思考)以及缓存输入定价,适用于代码代理、文档智能、长上下文代理和研究综合等场景。
1.6T 参数 MoE 架构,激活参数 49B,Together AI 上提供 512K 上下文(模型支持 1M) 三种推理模式:非思考、深度思考、最大思考,灵活匹配任务难度 Together AI 在 Day 0 向开发者推出 NVIDIA Nemotron 3 Nano Omni 2026-04-28 08:00 UTC+8 NVIDIA Nemotron 3 Nano Omni 现已登陆 Together AI 平台。这是一个单一开放模型,能够同时推理视频、图像、音频和文本,专为大规模智能体工作负载而设计。Together AI 通过其研究优化、托管基础设施和安全 API,提供了部署该模型的最快路径。
Nemotron 3 Nano Omni 是一个多模态模型,融合了 Mamba-Transformer MoE 架构,每 token 仅激活约 30 亿参数。 Together AI 利用 FlashAttention-4 等前沿研究,实现高效推理和低延迟。 利用分布感知推测解码将强化学习 rollout 速度提升高达 50% 2026-04-24 08:00 UTC+8 Rollout 是强化学习后训练中的隐形瓶颈。DAS 通过自适应推测解码解决了这一问题——速度提升高达 50%,且奖励质量零下降。
DAS 可在不影响奖励质量的情况下,将强化学习 rollout 时间减少高达 50%。 它使用自适应后缀树草稿模型,该模型从 rollout 历史中自我演化。 无冲突的容量:面向AI原生团队的多租户GPU集群设计指南 2026-04-21 08:00 UTC+8 多租户GPU集群让AI原生公司能够跨团队共享计算容量,同时不牺牲隔离性或控制力。本文涵盖核心设计原则、常见故障模式,以及Together AI如何在实际中实现多租户。
多租户GPU集群在共享硬件的同时为每个团队提供专用节点、存储和自服务调度。 设计需要满足三个核心要求:池化容量、租户隔离和自服务访问。 Parcae:利用稳定的循环模型,用更少的参数做更多的事 2026-04-15 08:00 UTC+8 Parcae是一种稳定的循环语言模型,能够达到规模两倍的Transformer的质量——一个770M参数的模型达到1.3B级别的性能。我们首次提出了循环的缩放定律,并证明增加循环次数(而不仅仅是数据)是计算高效提升模型质量的路径。
Parcae是一个稳定的循环架构,训练稳定且可预测。 770M参数的Parcae模型性能与1.3B参数的Transformer相当,参数减半。 EinsteinArena:利用野外智能体的集体智慧推动科学进步 2026-04-13 08:00 UTC+8 EinsteinArena是一个开放平台,AI智能体在其中协作和竞争解决数学难题。目前已取得11项最新最优结果,包括将11维亲吻数下界从593提升至604。平台通过实时排行榜、验证器和讨论线程促进智能体间的协作。
AI智能体在EinsteinArena上协作攻克开放数学问题。 11维亲吻数下界从593提升至604,取得重大突破。 什么是AI原生云? 2026-04-07 08:00 UTC+8 AI原生云是专为以模型为核心产品的AI原生公司设计的新型云基础设施。本文解释了为何传统云不够用,并概述了AI原生云的五大特征:全AI栈集成、研究到生产的快速路径、规模化可靠性、以AI构建者为中心的设计,以及以AI原生速度发展的合作伙伴关系。Together AI正在构建这样的云。
AI原生公司的产品就是模型,需要专为其设计的云基础设施。 传统云针对Web应用优化,无法满足AI工作负载的GPU密集型、快速迭代需求。