ParallelKernelBench:前沿LLM尚無法編寫快速的多GPU核心 2026-06-23 08:00 UTC+8 ParallelKernelBench是一個新的基準測試,評估LLM編寫多GPU CUDA核心的能力。在87個真實問題中,最佳模型僅能正確解決不到三分之一,且只有不到四分之一的解決方案優於基線。文章分析了模型失敗的原因,並展示了幾個意外生成的高效能核心案例。
ParallelKernelBench(PKB)包含87個來自真實程式碼庫的多GPU核心生成問題。 最佳前沿模型(GPT-5.5)在零次學習設定中僅解決28個問題,其中22個快於基線。 Kimi K2.7 Code vs Claude Fable 5:著陸頁成本降低94% 2026-06-17 08:00 UTC+8 我們使用Kimi K2.7 Code和Claude Fable 5生成了12個著陸頁。Kimi的成本降低了94%,且每個頁面的評分僅相差幾分。開源模型不僅更便宜,而且在質量上具有競爭力,差距正在迅速縮小。
Kimi K2.7 Code生成著陸頁的成本比Claude Fable 5低約94%。 在質量評分上,Kimi與Fable的差距很小,尤其在使用設計靈感MCP後表現更佳。 在企業AI中建立信任:Together AI獲得ISO 27001:2022認證 2026-06-10 08:00 UTC+8 Together AI已獲得ISO 27001:2022認證,這驗證了我們對企業級安全的承諾,幫助客戶在安全、治理良好的基礎設施上執行生產級AI工作負載。
Together AI透過A-LIGN認證獲得ISO 27001:2022證書 認證範圍涵蓋全球平臺及支援客戶資料保護的系統流程 高效推理服務MiniMax-M3:解鎖百萬Token上下文與多模態能力,毫無遺憾 2026-06-02 08:00 UTC+8 Together AI 透過KV塊主稀疏注意力、分頁MSA解碼、最佳化索引評分核心以及基於Rust的多模態預處理閘道器等創新,實現了對MiniMax M3模型的高效服務,在不同併發級別下吞吐量提升81%–125%。
MiniMax M3 是一款整合編碼、智慧體工作流和多模態推理的全能模型,支援1M上下文視窗。 Together AI 的推理和核心團隊實現了多項工程突破,包括KV塊主稀疏注意力核心和分頁注意力整合。 Together AI如何構建全球最快的語音轉文本技術棧 2026-05-29 08:00 UTC+8 Together AI透過將語音識別視為端到端系統問題,而非單純的GPU推理問題,在Artificial Analysis榜單上實現了最快的語音轉文本速度。本文詳細介紹了其最佳化策略:包括針對真實音訊形狀的TensorRT多配置檔案引擎、條件CUDA圖消除CPU往返、共享記憶體減少資料複製、事件驅動I/O處理流式傳輸,以及透過gc.freeze()消除垃圾回收尾延遲。
Together AI透過全路徑系統最佳化,而非僅關注GPU推理,實現了最快的語音轉文本效能。 核心技術包括TensorRT多配置檔案編碼器、條件CUDA圖解碼器、零複製共享記憶體和事件驅動I/O。 大規模推理基準測試:編碼智慧體 2026-05-19 08:00 UTC+8 在編碼代理生產負載下,Together Inference Engine 相比 TensorRT-LLM 每秒令牌數提升 31%,飽和時首令牌延遲提升 2 倍,成本比 Claude Opus 4.6 低 76%。
實際編碼代理工作負載的推理基準測試,重點模擬高併發長上下文場景。 Together Inference Engine 在 4 塊 B200 GPU 上實現 31% 更高的 TPS 和更低的 TTFT。 Together AI與Pearl Research Labs合作降低AI推理成本 2026-05-15 08:00 UTC+8 Together AI與Pearl Research Labs合作,推出由Pearl網路提供支援的Gemma-4-31B-it-pearl推理端點,享受超過25%的折扣。該創新利用有用工作量證明技術,在AI工作負載的同時挖礦產生加密貨幣,從而抵消計算成本。
Together AI與Pearl Research Labs合作,推出由Pearl網路提供支援的折扣推理端點。 該端點利用有用工作量證明技術,在AI推理的同時挖礦產生PRL幣,降低成本。 Violin:打破語言障礙的開源影片翻譯技能 2026-05-14 08:00 UTC+8 Violin是一個完全開源的AI影片翻譯工具,結合語音識別、大型語言模型翻譯和語音合成,使影片內容跨越語言障礙。它提供網路應用、命令列介面和代理技能,支援影片內容問答和個性化語音選擇。使用Together API,利用Whisper、DeepSeek和Cartesia等模型,以MIT許可證釋出。
Violin將語音識別、LLM翻譯和語音合成整合為開源影片翻譯工具。 支援網路應用、CLI和代理技能,適合不同使用者群體。 語音查詢器——一款可從600多種語音中快速為您的應用找到合適語音的新工具 2026-05-12 08:00 UTC+8 語音查詢器讓開發者能夠透過自然語言提示或上傳音訊樣本,搜尋、匹配、篩選和試聽Together AI TTS模型中的600多種語音。
支援對600+語音進行搜尋、篩選和試聽 可透過文本描述或上傳音訊樣本查詢相似語音 從HuggingFace部署並推理任何模型 2026-05-08 08:00 UTC+8 學習如何在一個會話中使用Goose和Together的專用容器推理部署任何HuggingFace模型。跳過複雜設定——一個提示就能讓你的模型在釋出當天在生產級GPU環境中執行。
使用Goose和Together的專用容器推理,開發者可以零延遲部署新發布的模型。 作者在Netflix釋出void-model當天成功部署並執行。 部署DeepSeek-V4:為何百萬Token上下文是推理系統的問題 2026-05-08 08:00 UTC+8 DeepSeek-V4透過混合注意力設計(CSA、HCA、SWA)壓縮KV快取,將百萬Token上下文從模型挑戰轉變為推理系統挑戰。Together AI在NVIDIA HGX B200上的早期部署經驗展示了快取策略、字首快取和端點配置對長上下文工作負載效能的關鍵影響。
DeepSeek-V4的壓縮稀疏注意力(CSA)和高度壓縮注意力(HCA)減小了KV快取大小,但推理引擎需要管理多種快取佈局。 滑動視窗注意力(SWA)在長上下文時成為效能瓶頸,需謹慎選擇儲存策略。 驅動大規模高效推理的基礎研究 2026-05-04 08:00 UTC+8 隨著AI從研究走向生產,AI原生團隊面臨的挑戰從構建模型轉向高效、可靠、大規模地執行模型。推理成本佔生產AI系統總生命週期成本的80-90%。Together AI透過FlashAttention-4、ATLAS自適應推測解碼等研究,結合全棧硬體最佳化和智慧排程,實現高效推理,幫助客戶改善單位經濟效益。
推理成本佔生產AI系統總成本的80-90%,是影響AI公司經濟模型的關鍵因素。 Together AI推出FlashAttention-4(比cuDNN快達1.3倍)和ATLAS(自適應推測解碼,提升4倍推理速度)。 Together AI 與 Adaption 合作宣佈 2026-04-30 08:00 UTC+8 Together AI 與 Adaption 合作,將 Together Fine-Tuning 原生整合到 Adaptive Data 平臺,幫助團隊最佳化資料集、執行微調、評估結果並部署更強大的開放模型。
Together AI 與 Adaption 合作,將微調功能整合到 Adaptive Data 中。 該合作簡化了從資料最佳化到模型部署的工作流程。 從732位元組到無處可逃:在生產環境中關閉Copy Fail漏洞 2026-04-30 08:00 UTC+8 Together AI 詳細介紹了他們如何迅速應對 Linux 核心漏洞 Copy Fail(CVE-2026-31431),該漏洞允許本地無特權使用者透過 AF_ALG 介面獲得精確的4位元組寫入原語,從而實現許可權提升。團隊透過立即解除安裝易受攻擊的核心模組、滾動應用核心補丁,並加強檢測與監控,確保了 AI 基礎設施的安全。
Copy Fail(CVE-2026-31431)是 Linux 核心加密子系統中的一個邏輯錯誤,允許本地無特權使用者對任意可讀檔案的頁快取實現精確4位元組寫入。 Together AI 在數小時內解除安裝了 algif_aead 模組並移除了模組檔案,阻止了漏洞利用,無需重啟。 DeepSeek-V4 Pro 現已登陸 Together AI 2026-04-29 08:00 UTC+8 DeepSeek-V4 Pro 是一款 1.6 萬億引數的 MoE 推理模型,現已在 Together AI 上線,提供 512K 上下文視窗、可控推理模式(非思考、深度思考、最大思考)以及快取輸入定價,適用於程式碼代理、文件智慧、長上下文代理和研究綜合等場景。
1.6T 引數 MoE 架構,啟用引數 49B,Together AI 上提供 512K 上下文(模型支援 1M) 三種推理模式:非思考、深度思考、最大思考,靈活匹配任務難度 Together AI 在 Day 0 向開發者推出 NVIDIA Nemotron 3 Nano Omni 2026-04-28 08:00 UTC+8 NVIDIA Nemotron 3 Nano Omni 現已登陸 Together AI 平臺。這是一個單一開放模型,能夠同時推理影片、影像、音訊和文本,專為大規模智慧體工作負載而設計。Together AI 透過其研究最佳化、託管基礎設施和安全 API,提供了部署該模型的最快路徑。
Nemotron 3 Nano Omni 是一個多模態模型,融合了 Mamba-Transformer MoE 架構,每 token 僅啟用約 30 億引數。 Together AI 利用 FlashAttention-4 等前沿研究,實現高效推理和低延遲。 利用分佈感知推測解碼將強化學習 rollout 速度提升高達 50% 2026-04-24 08:00 UTC+8 Rollout 是強化學習後訓練中的隱形瓶頸。DAS 透過自適應推測解碼解決了這一問題——速度提升高達 50%,且獎勵質量零下降。
DAS 可在不影響獎勵質量的情況下,將強化學習 rollout 時間減少高達 50%。 它使用自適應字尾樹草稿模型,該模型從 rollout 歷史中自我演化。 無衝突的容量:面向AI原生團隊的多租戶GPU叢集設計指南 2026-04-21 08:00 UTC+8 多租戶GPU叢集讓AI原生公司能夠跨團隊共享計算容量,同時不犧牲隔離性或控制力。本文涵蓋核心設計原則、常見故障模式,以及Together AI如何在實際中實現多租戶。
多租戶GPU叢集在共享硬體的同時為每個團隊提供專用節點、儲存和自服務排程。 設計需要滿足三個核心要求:池化容量、租戶隔離和自服務訪問。 Parcae:利用穩定的迴圈模型,用更少的引數做更多的事 2026-04-15 08:00 UTC+8 Parcae是一種穩定的迴圈語言模型,能夠達到規模兩倍的Transformer的質量——一個770M引數的模型達到1.3B級別的效能。我們首次提出了迴圈的縮放定律,並證明增加迴圈次數(而不僅僅是資料)是計算高效提升模型質量的路徑。
Parcae是一個穩定的迴圈架構,訓練穩定且可預測。 770M引數的Parcae模型效能與1.3B引數的Transformer相當,引數減半。 EinsteinArena:利用野外智慧體的集體智慧推動科學進步 2026-04-13 08:00 UTC+8 EinsteinArena是一個開放平臺,AI智慧體在其中協作和競爭解決數學難題。目前已取得11項最新最優結果,包括將11維親吻數下界從593提升至604。平臺透過即時排行榜、驗證器和討論執行緒促進智慧體間的協作。
AI智慧體在EinsteinArena上協作攻克開放數學問題。 11維親吻數下界從593提升至604,取得重大突破。 什麼是AI原生雲? 2026-04-07 08:00 UTC+8 AI原生雲是專為以模型為核心產品的AI原生公司設計的新型雲基礎設施。本文解釋了為何傳統雲不夠用,並概述了AI原生雲的五大特徵:全AI棧整合、研究到生產的快速路徑、規模化可靠性、以AI構建者為中心的設計,以及以AI原生速度發展的合作伙伴關係。Together AI正在構建這樣的雲。
AI原生公司的產品就是模型,需要專為其設計的雲基礎設施。 傳統雲針對Web應用最佳化,無法滿足AI工作負載的GPU密集型、快速迭代需求。