基於Pingora、Envoy和Spanner的無伺服器伺服器路由
Modal團隊深入介紹了其新型超低延遲Serverless Servers的設計原理和實現細節,該服務針對LLM推理等對延遲敏感的應用進行了最佳化。文章解釋了為何選擇構建自己的代理層fprs,以及如何透過Pingora庫、Envoy邊緣代理和Spanner全域性資料庫實現無網路呼叫熱路徑、動態域名關聯和自動縮放。
- Modal推出Serverless Servers,專為超低延遲HTTP/WebSocket/gRPC流量設計。
- 與Web Functions不同,Servers犧牲了排隊和重試以換取更低延遲。
透過推測解碼實現最先進的推理延遲
Modal與Decagon合作,利用推測解碼將推理延遲降低100毫秒,超越了專有推理提供商。本文詳細介紹了透過最佳化通訊延遲、主機開銷、預填充延遲和解碼延遲來實現低延遲的完整策略,並重點展示了為特定應用定製推測模型(DFlash技術)如何帶來顯著效能提升。
- Modal Auto Endpoints透過推測解碼實現低延遲推理,關鍵最佳化是使用Blackwell GPU、SGLang引擎和Modal伺服器。
- 推測解碼透過並行處理多個推測令牌來減少解碼階段延遲,且效率主要取決於接受長度。
Modal Auto Endpoints 釋出:最佳化推理,真正擁有
Modal 推出 Auto Endpoints,一個自服務的生產級 LLM 推理入口,讓使用者透過單一命令列即可部署前沿開放模型,並完全掌控推理程式碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平臺,提供高效能自動擴縮、自定義容器執行時和全球 GPU 資源,並透過 Modal Servers 實現超低延遲路由(5ms 開銷)。預調優的推理方案源自與頂級團隊的合作經驗,並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。
- Auto Endpoints 支援一鍵部署開放模型(如 GLM 5.2),使用者擁有完整推理棧。
- 提供引擎級可觀測性指標,包括伺服器和推理指標。
投機解碼:一切皆是推測
Modal團隊全面推崇投機解碼技術,認為它是當前最關鍵的高互動推理最佳化手段,能帶來2-3倍甚至更高的加速效果。他們與Z Lab合作訓練了針對Qwen系列模型的最先進DFlash投機解碼器,額外提升5-20%的速度,並強調了投機解碼在長上下文任務中的優勢。本文詳細解釋了投機解碼的原理、與傳統最佳化的對比,以及透過模擬和數學模型展示的加速效果。
- 投機解碼是目前唯一重要的推理引擎最佳化,能實現數倍加速而非微小百分比提升。
- Modal與Z Lab合作釋出了多款Qwen模型的DFlash投機解碼器,額外提速5-20%。
強化學習是一個基礎設施問題
本文探討了強化學習在大型語言模型後訓練中的實際應用,指出當前的瓶頸並非演算法而是基礎設施。Modal分享了大規模執行RL後訓練的經驗,介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。
- 強化學習後訓練LLM的瓶頸是基礎設施,包括訓練引擎、推理沙箱和環境隔離。
- 多節點訓練中,權重同步耗時巨大,RDMA和增量壓縮顯著降低延遲。
面向人類和智慧體的基於角色的訪問控制
Modal 為 Teams 和 Enterprise 使用者推出了基於角色的訪問控制(RBAC),圍繞環境(Environments)構建,支援精細許可權管理,確保智慧體和人類的安全協作。
- RBAC 現已面向所有 Team 和 Enterprise 計劃使用者開放,基於環境(Environments)實現安全邊界。
- 受限環境(Restricted Environments)可精確控制誰能在其中部署和管理資源。
Modal C輪融資:以46.5億美元估值籌集3.55億美元
Modal 公司宣佈完成3.55億美元C輪融資,估值達46.5億美元,由 General Catalyst 和 Redpoint 領投。自去年9月以來,公司收入增長五倍,年化收入突破3億美元。Modal 是為AI工作負載量身打造的雲平臺,提供低延遲彈性推理、動態智慧體執行時、強化學習和大規模批處理等原生能力。本輪融資將用於進一步投資低延遲推理、訓練-推理閉環以及智慧體計算層。
- Modal 以46.5億美元估值籌集3.55億美元C輪融資,General Catalyst 和 Redpoint 領投,現有投資者全部跟投。
- 自2025年9月以來,公司收入增長五倍,年化收入超過3億美元。
在Applied Compute擴充套件強化學習
Applied Compute 使用強化學習為企業(如 DoorDash、Cognition、Mercor)訓練定製 AI 代理,並在 Modal 上執行。其核心理念是“特定智慧”:透過專有資料訓練,每次使用都能改進。本文介紹了他們的 RL 訓練迴圈、基礎設施選擇以及 Modal 如何提供靈活性、效能和可靠性。
- Applied Compute 專注於後訓練階段,認為這是企業 AI 競爭的關鍵。
- 他們使用強化學習訓練具有“特定智慧”的代理,例如為 DoorDash 最佳化商家入駐模型。
推出結合Modal Sandboxes的Claude託管代理
Anthropic與Modal宣佈推出Claude託管代理與Modal Sandboxes的整合,允許開發者在自己託管的可定製沙盒中執行工具呼叫,具有快速啟動、成本效益和可擴充套件性。早期採用者包括Mason AI、DoorDash和Blend。
- Claude託管代理現在與Modal Sandboxes整合,支援自定義、可擴充套件的代理執行。
- Modal提供快速啟動、自定義映象、持久化選項和成本高效的爆發定價。
如何實現真正的無伺服器GPU
Modal 透過四項關鍵技術最佳化,將 GPU 推理伺服器例項的啟動時間從數十分鐘縮短到幾十秒,實現了真正的無伺服器 GPU。
- 維護空閒 GPU 緩衝池,消除例項分配延遲
- 自定義內容定址檔案系統,實現容器映象按需載入
用一個簡單的Python字典將多模態推理效能提升超10%
Modal團隊透過分析SGLang排程器的效能瓶頸,發現頻繁的CUDA IPC池控制代碼重新開啟操作導致主機開銷過高。他們透過一個簡單的Python字典快取替換了重複操作,在Qwen2.5-VL-3B模型上實現了吞吐量提升16.2%、延遲降低超10%的效果。該最佳化已合併至SGLang v0.5.10版本。
- SGLang排程器在處理多模態輸入時,因重複開啟CUDA IPC池控制代碼造成主機開銷瓶頸。
- 透過一個Python字典快取池控制代碼,避免了冗餘的_shared_cuda呼叫,減少排程器CPU時間。
在Modal上構建強化學習定理證明工作流
AE Studio利用Modal平臺,透過進化策略(ES)和GRPO兩種強化學習方法訓練語言模型進行數學定理證明。他們使用Lean驗證器,並藉助Modal的並行GPU、沙盒隔離和卷儲存功能高效執行實驗。結果顯示ES在某些場景下媲美甚至超越GRPO,且成本顯著降低。
- AE Studio在Modal上實現了進化策略(ES)用於定理證明,並與GRPO進行了對比。
- 利用Modal的.map()並行GPU推斷、沙盒隔離驗證和卷儲存,大幅簡化了基礎設施搭建。
使用Modal和OpenAI Agents SDK構建
Modal成為OpenAI Agents SDK的官方沙箱提供商。本文展示瞭如何從零開始構建自定義的編碼代理框架,整合Modal沙箱以實現安全、並行和可擴充套件的自動化任務,以Parameter Golf挑戰為例。
- Modal是OpenAI Agents SDK的官方沙箱提供商,提供隔離、可擴充套件的執行環境。
- 文章逐步演示了構建代理框架,包括基礎代理、沙箱化、記憶、子代理、非同步並行和快照功能。
自動縮放自動研究:在Modal上為您的智慧體提供彈性GPU
Modal與Autoresearch整合,提供彈性GPU擴充套件,使AI智慧體能夠動態調配計算資源。在Parameter Golf挑戰中,一個智慧體在238個GPU小時內執行了113個實驗,與單個工作站相比實現了5倍加速,同時僅使用了專用叢集資源的一小部分。
- Modal使智慧體能夠無縫地從單個GPU擴充套件到數十個H100,適應工作負載需求。
- Parameter Golf智慧體在完成核心訓練執行時比單個工作站快5倍,資源利用率高效。
Butter 加入 Modal
Modal 宣佈收購 AI 沙箱技術公司 Butter,其創始人 Erik Dunteman 和研究員 Raymond Tana 將加入 Modal 沙箱團隊。Butter 在代理工程領域經驗豐富,最近用 Zig 語言開發了輕量級臨時沙箱 bVisor。此次收購旨在加強 Modal 沙箱產品的能力。
- Butter 團隊加入 Modal,專注代理工程和沙箱產品升級。
- Butter 創始人 Erik Dunteman 曾共同創辦 Banana,與 Modal 有長期合作關係。
Physical Intelligence 的機器人即時推理
Physical Intelligence 使用 Modal 平臺,透過基於 QUIC 的專業傳輸協議,實現了低延遲的機器人遠端即時推理,僅增加 10-15 毫秒網路開銷,並能靈活擴充套件至更大模型。
- Physical Intelligence 開發了視覺-語言-動作(VLA)模型,用於通用機器人智慧。
- Modal 的隧道服務透過 TCP 提供低延遲,但機器人控制迴路要求更穩定的通訊。
產品更新:RTX Pro 6000 Blackwell、Command K、Sandbox FS API 等
Modal 釋出多項產品更新,包括 NVIDIA RTX Pro 6000 Blackwell GPU 支援、Dashboard 命令面板 Command K、Sandbox 檔案系統 API Beta、SDK 改進以及多個客戶案例與社群內容。
- RTX Pro 6000 Blackwell 上線,96GB VRAM,適合推理和微調。
- Command K 快捷鍵提供導航和物件跳轉功能。
Runway 選擇 Modal 為 Runway Characters 提供即時推理支援
Runway 與 Modal 合作,利用 Modal 的無伺服器計算平臺為 Runway Characters 提供即時影片推理。Runway Characters 是一個即時影片代理 API,可從單張影像生成可定製的數字角色,無需微調。該技術已應用於多個領域,包括客戶支援、內部培訓等。Modal 的基礎設施使 Runway 能夠在 30 天內從概念驗證到生產,並支援全球低延遲部署。
- Runway 與 Modal 合作,用於 Runway Characters 的即時推理。
- Runway Characters 是基於 GWM-1 模型的即時影片代理 API。
Doppel如何利用Modal消除機器學習基礎設施負擔
Doppel是一家AI網路安全平臺,透過遷移至Modal,顯著提升了模型訓練和推理的效率。訓練方面,實現了並行實驗,縮短了反饋迴圈;推理方面,簡化了部署流程,實現了自動伸縮,降低了運維成本。
- Doppel利用Modal實現了訓練實驗的並行化,加速了模型迭代。
- Modal的映象層快取和持久卷將模型部署構建時間縮短了10倍。
產品更新:目錄快照、GLM-5、計費更新等等
二月份產品更新摘要:推出目錄快照功能,提供免費GLM-5端點,改進了計費可見性(新UI和API),SDK更新(變更日誌命令、儀表板URL等),以及關於Sandbox的網路研討會和AI研究案例。
- 目錄快照允許對特定目錄進行快照,獨立於基礎映象,分離系統依賴與應用程式碼。
- 與Z.ai合作提供免費GLM-5端點,截止4月底,適用於編碼代理。