Together AI Blog AI 新聞來源

公開文章 21採集文章 21可信度 88刷新頻率 5 分鐘

健康狀態健康來源類型官方原文權限 官方原文最近入庫 2026-06-23ID together-ai-blog運行狀態 已啟用

Official source; confirm reuse terms before enabling full body display.

最新公開文章

ParallelKernelBench：前沿LLM尚無法編寫快速的多GPU核心

2026-06-23 08:00 UTC+8

ParallelKernelBench是一個新的基準測試，評估LLM編寫多GPU CUDA核心的能力。在87個真實問題中，最佳模型僅能正確解決不到三分之一，且只有不到四分之一的解決方案優於基線。文章分析了模型失敗的原因，並展示了幾個意外生成的高效能核心案例。

ParallelKernelBench（PKB）包含87個來自真實程式碼庫的多GPU核心生成問題。
最佳前沿模型（GPT-5.5）在零次學習設定中僅解決28個問題，其中22個快於基線。

Kimi K2.7 Code vs Claude Fable 5：著陸頁成本降低94%

2026-06-17 08:00 UTC+8

我們使用Kimi K2.7 Code和Claude Fable 5生成了12個著陸頁。Kimi的成本降低了94%，且每個頁面的評分僅相差幾分。開源模型不僅更便宜，而且在質量上具有競爭力，差距正在迅速縮小。

Kimi K2.7 Code生成著陸頁的成本比Claude Fable 5低約94%。
在質量評分上，Kimi與Fable的差距很小，尤其在使用設計靈感MCP後表現更佳。

在企業AI中建立信任：Together AI獲得ISO 27001:2022認證

2026-06-10 08:00 UTC+8

Together AI已獲得ISO 27001:2022認證，這驗證了我們對企業級安全的承諾，幫助客戶在安全、治理良好的基礎設施上執行生產級AI工作負載。

Together AI透過A-LIGN認證獲得ISO 27001:2022證書
認證範圍涵蓋全球平臺及支援客戶資料保護的系統流程

高效推理服務MiniMax-M3：解鎖百萬Token上下文與多模態能力，毫無遺憾

2026-06-02 08:00 UTC+8

Together AI 透過KV塊主稀疏注意力、分頁MSA解碼、最佳化索引評分核心以及基於Rust的多模態預處理閘道器等創新，實現了對MiniMax M3模型的高效服務，在不同併發級別下吞吐量提升81%–125%。

MiniMax M3 是一款整合編碼、智慧體工作流和多模態推理的全能模型，支援1M上下文視窗。
Together AI 的推理和核心團隊實現了多項工程突破，包括KV塊主稀疏注意力核心和分頁注意力整合。

Together AI如何構建全球最快的語音轉文本技術棧

2026-05-29 08:00 UTC+8

Together AI透過將語音識別視為端到端系統問題，而非單純的GPU推理問題，在Artificial Analysis榜單上實現了最快的語音轉文本速度。本文詳細介紹了其最佳化策略：包括針對真實音訊形狀的TensorRT多配置檔案引擎、條件CUDA圖消除CPU往返、共享記憶體減少資料複製、事件驅動I/O處理流式傳輸，以及透過gc.freeze()消除垃圾回收尾延遲。

Together AI透過全路徑系統最佳化，而非僅關注GPU推理，實現了最快的語音轉文本效能。
核心技術包括TensorRT多配置檔案編碼器、條件CUDA圖解碼器、零複製共享記憶體和事件驅動I/O。

大規模推理基準測試：編碼智慧體

2026-05-19 08:00 UTC+8

在編碼代理生產負載下，Together Inference Engine 相比 TensorRT-LLM 每秒令牌數提升 31%，飽和時首令牌延遲提升 2 倍，成本比 Claude Opus 4.6 低 76%。

實際編碼代理工作負載的推理基準測試，重點模擬高併發長上下文場景。
Together Inference Engine 在 4 塊 B200 GPU 上實現 31% 更高的 TPS 和更低的 TTFT。

Together AI與Pearl Research Labs合作降低AI推理成本

2026-05-15 08:00 UTC+8

Together AI與Pearl Research Labs合作，推出由Pearl網路提供支援的Gemma-4-31B-it-pearl推理端點，享受超過25%的折扣。該創新利用有用工作量證明技術，在AI工作負載的同時挖礦產生加密貨幣，從而抵消計算成本。

Together AI與Pearl Research Labs合作，推出由Pearl網路提供支援的折扣推理端點。
該端點利用有用工作量證明技術，在AI推理的同時挖礦產生PRL幣，降低成本。

Violin：打破語言障礙的開源影片翻譯技能

2026-05-14 08:00 UTC+8

Violin是一個完全開源的AI影片翻譯工具，結合語音識別、大型語言模型翻譯和語音合成，使影片內容跨越語言障礙。它提供網路應用、命令列介面和代理技能，支援影片內容問答和個性化語音選擇。使用Together API，利用Whisper、DeepSeek和Cartesia等模型，以MIT許可證釋出。

Violin將語音識別、LLM翻譯和語音合成整合為開源影片翻譯工具。
支援網路應用、CLI和代理技能，適合不同使用者群體。

語音查詢器——一款可從600多種語音中快速為您的應用找到合適語音的新工具

2026-05-12 08:00 UTC+8

語音查詢器讓開發者能夠透過自然語言提示或上傳音訊樣本，搜尋、匹配、篩選和試聽Together AI TTS模型中的600多種語音。

支援對600+語音進行搜尋、篩選和試聽
可透過文本描述或上傳音訊樣本查詢相似語音

從HuggingFace部署並推理任何模型

2026-05-08 08:00 UTC+8

學習如何在一個會話中使用Goose和Together的專用容器推理部署任何HuggingFace模型。跳過複雜設定——一個提示就能讓你的模型在釋出當天在生產級GPU環境中執行。

使用Goose和Together的專用容器推理，開發者可以零延遲部署新發布的模型。
作者在Netflix釋出void-model當天成功部署並執行。

部署DeepSeek-V4：為何百萬Token上下文是推理系統的問題

2026-05-08 08:00 UTC+8

DeepSeek-V4透過混合注意力設計（CSA、HCA、SWA）壓縮KV快取，將百萬Token上下文從模型挑戰轉變為推理系統挑戰。Together AI在NVIDIA HGX B200上的早期部署經驗展示了快取策略、字首快取和端點配置對長上下文工作負載效能的關鍵影響。

DeepSeek-V4的壓縮稀疏注意力（CSA）和高度壓縮注意力（HCA）減小了KV快取大小，但推理引擎需要管理多種快取佈局。
滑動視窗注意力（SWA）在長上下文時成為效能瓶頸，需謹慎選擇儲存策略。

驅動大規模高效推理的基礎研究

2026-05-04 08:00 UTC+8

隨著AI從研究走向生產，AI原生團隊面臨的挑戰從構建模型轉向高效、可靠、大規模地執行模型。推理成本佔生產AI系統總生命週期成本的80-90%。Together AI透過FlashAttention-4、ATLAS自適應推測解碼等研究，結合全棧硬體最佳化和智慧排程，實現高效推理，幫助客戶改善單位經濟效益。

推理成本佔生產AI系統總成本的80-90%，是影響AI公司經濟模型的關鍵因素。
Together AI推出FlashAttention-4（比cuDNN快達1.3倍）和ATLAS（自適應推測解碼，提升4倍推理速度）。

Together AI 與 Adaption 合作宣佈

2026-04-30 08:00 UTC+8

Together AI 與 Adaption 合作，將 Together Fine-Tuning 原生整合到 Adaptive Data 平臺，幫助團隊最佳化資料集、執行微調、評估結果並部署更強大的開放模型。

Together AI 與 Adaption 合作，將微調功能整合到 Adaptive Data 中。
該合作簡化了從資料最佳化到模型部署的工作流程。

從732位元組到無處可逃：在生產環境中關閉Copy Fail漏洞

2026-04-30 08:00 UTC+8

Together AI 詳細介紹了他們如何迅速應對 Linux 核心漏洞 Copy Fail（CVE-2026-31431），該漏洞允許本地無特權使用者透過 AF_ALG 介面獲得精確的4位元組寫入原語，從而實現許可權提升。團隊透過立即解除安裝易受攻擊的核心模組、滾動應用核心補丁，並加強檢測與監控，確保了 AI 基礎設施的安全。

Copy Fail（CVE-2026-31431）是 Linux 核心加密子系統中的一個邏輯錯誤，允許本地無特權使用者對任意可讀檔案的頁快取實現精確4位元組寫入。
Together AI 在數小時內解除安裝了 algif_aead 模組並移除了模組檔案，阻止了漏洞利用，無需重啟。

DeepSeek-V4 Pro 現已登陸 Together AI

2026-04-29 08:00 UTC+8

DeepSeek-V4 Pro 是一款 1.6 萬億引數的 MoE 推理模型，現已在 Together AI 上線，提供 512K 上下文視窗、可控推理模式（非思考、深度思考、最大思考）以及快取輸入定價，適用於程式碼代理、文件智慧、長上下文代理和研究綜合等場景。

1.6T 引數 MoE 架構，啟用引數 49B，Together AI 上提供 512K 上下文（模型支援 1M）
三種推理模式：非思考、深度思考、最大思考，靈活匹配任務難度

Together AI 在 Day 0 向開發者推出 NVIDIA Nemotron 3 Nano Omni

2026-04-28 08:00 UTC+8

NVIDIA Nemotron 3 Nano Omni 現已登陸 Together AI 平臺。這是一個單一開放模型，能夠同時推理影片、影像、音訊和文本，專為大規模智慧體工作負載而設計。Together AI 透過其研究最佳化、託管基礎設施和安全 API，提供了部署該模型的最快路徑。

Nemotron 3 Nano Omni 是一個多模態模型，融合了 Mamba-Transformer MoE 架構，每 token 僅啟用約 30 億引數。
Together AI 利用 FlashAttention-4 等前沿研究，實現高效推理和低延遲。

利用分佈感知推測解碼將強化學習 rollout 速度提升高達 50%

2026-04-24 08:00 UTC+8

Rollout 是強化學習後訓練中的隱形瓶頸。DAS 透過自適應推測解碼解決了這一問題——速度提升高達 50%，且獎勵質量零下降。

DAS 可在不影響獎勵質量的情況下，將強化學習 rollout 時間減少高達 50%。
它使用自適應字尾樹草稿模型，該模型從 rollout 歷史中自我演化。

無衝突的容量：面向AI原生團隊的多租戶GPU叢集設計指南

2026-04-21 08:00 UTC+8

多租戶GPU叢集讓AI原生公司能夠跨團隊共享計算容量，同時不犧牲隔離性或控制力。本文涵蓋核心設計原則、常見故障模式，以及Together AI如何在實際中實現多租戶。

多租戶GPU叢集在共享硬體的同時為每個團隊提供專用節點、儲存和自服務排程。
設計需要滿足三個核心要求：池化容量、租戶隔離和自服務訪問。

Parcae：利用穩定的迴圈模型，用更少的引數做更多的事

2026-04-15 08:00 UTC+8

Parcae是一種穩定的迴圈語言模型，能夠達到規模兩倍的Transformer的質量——一個770M引數的模型達到1.3B級別的效能。我們首次提出了迴圈的縮放定律，並證明增加迴圈次數（而不僅僅是資料）是計算高效提升模型質量的路徑。

Parcae是一個穩定的迴圈架構，訓練穩定且可預測。
770M引數的Parcae模型效能與1.3B引數的Transformer相當，引數減半。

EinsteinArena：利用野外智慧體的集體智慧推動科學進步

2026-04-13 08:00 UTC+8

EinsteinArena是一個開放平臺，AI智慧體在其中協作和競爭解決數學難題。目前已取得11項最新最優結果，包括將11維親吻數下界從593提升至604。平臺透過即時排行榜、驗證器和討論執行緒促進智慧體間的協作。

AI智慧體在EinsteinArena上協作攻克開放數學問題。
11維親吻數下界從593提升至604，取得重大突破。

什麼是AI原生雲？

2026-04-07 08:00 UTC+8

AI原生雲是專為以模型為核心產品的AI原生公司設計的新型雲基礎設施。本文解釋了為何傳統雲不夠用，並概述了AI原生雲的五大特徵：全AI棧整合、研究到生產的快速路徑、規模化可靠性、以AI構建者為中心的設計，以及以AI原生速度發展的合作伙伴關係。Together AI正在構建這樣的雲。

AI原生公司的產品就是模型，需要專為其設計的雲基礎設施。
傳統雲針對Web應用最佳化，無法滿足AI工作負載的GPU密集型、快速迭代需求。

Together AI Blog