AI News HubLIVE
公開文章 20採集文章 23可信度 82刷新頻率 120 分鐘
健康狀態 健康來源類型 官方原文權限 官方原文最近入庫 2026-06-25ID modal-blog運行狀態 已啟用

Official AI infrastructure blog; confirm reuse terms before full body display.

最新公開文章

基於Pingora、Envoy和Spanner的無服務器服務器路由

Modal團隊深入介紹了其新型超低延遲Serverless Servers的設計原理和實現細節,該服務針對LLM推理等對延遲敏感的應用進行了優化。文章解釋了為何選擇構建自己的代理層fprs,以及如何通過Pingora庫、Envoy邊緣代理和Spanner全局數據庫實現無網絡調用熱路徑、動態域名關聯和自動縮放。

  • Modal推出Serverless Servers,專為超低延遲HTTP/WebSocket/gRPC流量設計。
  • 與Web Functions不同,Servers犧牲了排隊和重試以換取更低延遲。
站內正文

通過推測解碼實現最先進的推理延遲

Modal與Decagon合作,利用推測解碼將推理延遲降低100毫秒,超越了專有推理提供商。本文詳細介紹了通過優化通信延遲、主機開銷、預填充延遲和解碼延遲來實現低延遲的完整策略,並重點展示了為特定應用定製推測模型(DFlash技術)如何帶來顯著性能提升。

  • Modal Auto Endpoints通過推測解碼實現低延遲推理,關鍵優化是使用Blackwell GPU、SGLang引擎和Modal服務器。
  • 推測解碼通過並行處理多個推測令牌來減少解碼階段延遲,且效率主要取決於接受長度。
站內正文

Modal Auto Endpoints 發佈:優化推理,真正擁有

Modal 推出 Auto Endpoints,一個自服務的生產級 LLM 推理入口,讓用户通過單一命令行即可部署前沿開放模型,並完全掌控推理代碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平台,提供高性能自動擴縮、自定義容器運行時和全球 GPU 資源,並通過 Modal Servers 實現超低延遲路由(5ms 開銷)。預調優的推理方案源自與頂級團隊的合作經驗,並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。

  • Auto Endpoints 支持一鍵部署開放模型(如 GLM 5.2),用户擁有完整推理棧。
  • 提供引擎級可觀測性指標,包括服務器和推理指標。
站內正文

投機解碼:一切皆是推測

Modal團隊全面推崇投機解碼技術,認為它是當前最關鍵的高交互推理優化手段,能帶來2-3倍甚至更高的加速效果。他們與Z Lab合作訓練了針對Qwen系列模型的最先進DFlash投機解碼器,額外提升5-20%的速度,並強調了投機解碼在長上下文任務中的優勢。本文詳細解釋了投機解碼的原理、與傳統優化的對比,以及通過模擬和數學模型展示的加速效果。

  • 投機解碼是目前唯一重要的推理引擎優化,能實現數倍加速而非微小百分比提升。
  • Modal與Z Lab合作發佈了多款Qwen模型的DFlash投機解碼器,額外提速5-20%。
站內正文

強化學習是一個基礎設施問題

本文探討了強化學習在大型語言模型後訓練中的實際應用,指出當前的瓶頸並非算法而是基礎設施。Modal分享了大規模運行RL後訓練的經驗,介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。

  • 強化學習後訓練LLM的瓶頸是基礎設施,包括訓練引擎、推理沙箱和環境隔離。
  • 多節點訓練中,權重同步耗時巨大,RDMA和增量壓縮顯著降低延遲。
站內正文

面向人類和智能體的基於角色的訪問控制

Modal 為 Teams 和 Enterprise 用户推出了基於角色的訪問控制(RBAC),圍繞環境(Environments)構建,支持精細權限管理,確保智能體和人類的安全協作。

  • RBAC 現已面向所有 Team 和 Enterprise 計劃用户開放,基於環境(Environments)實現安全邊界。
  • 受限環境(Restricted Environments)可精確控制誰能在其中部署和管理資源。
站內正文

Modal C輪融資:以46.5億美元估值籌集3.55億美元

Modal 公司宣佈完成3.55億美元C輪融資,估值達46.5億美元,由 General Catalyst 和 Redpoint 領投。自去年9月以來,公司收入增長五倍,年化收入突破3億美元。Modal 是為AI工作負載量身打造的雲平台,提供低延遲彈性推理、動態智能體運行時、強化學習和大規模批處理等原生能力。本輪融資將用於進一步投資低延遲推理、訓練-推理閉環以及智能體計算層。

  • Modal 以46.5億美元估值籌集3.55億美元C輪融資,General Catalyst 和 Redpoint 領投,現有投資者全部跟投。
  • 自2025年9月以來,公司收入增長五倍,年化收入超過3億美元。
站內正文

在Applied Compute擴展強化學習

Applied Compute 使用強化學習為企業(如 DoorDash、Cognition、Mercor)訓練定製 AI 代理,並在 Modal 上運行。其核心理念是“特定智能”:通過專有數據訓練,每次使用都能改進。本文介紹了他們的 RL 訓練循環、基礎設施選擇以及 Modal 如何提供靈活性、性能和可靠性。

  • Applied Compute 專注於後訓練階段,認為這是企業 AI 競爭的關鍵。
  • 他們使用強化學習訓練具有“特定智能”的代理,例如為 DoorDash 優化商家入駐模型。
站內正文

推出結合Modal Sandboxes的Claude託管代理

Anthropic與Modal宣佈推出Claude託管代理與Modal Sandboxes的集成,允許開發者在自己託管的可定製沙盒中運行工具調用,具有快速啓動、成本效益和可擴展性。早期採用者包括Mason AI、DoorDash和Blend。

  • Claude託管代理現在與Modal Sandboxes集成,支持自定義、可擴展的代理執行。
  • Modal提供快速啓動、自定義鏡像、持久化選項和成本高效的爆發定價。
站內正文

如何實現真正的無服務器GPU

Modal 通過四項關鍵技術優化,將 GPU 推理服務器實例的啓動時間從數十分鐘縮短到幾十秒,實現了真正的無服務器 GPU。

  • 維護空閒 GPU 緩衝池,消除實例分配延遲
  • 自定義內容尋址文件系統,實現容器鏡像按需加載
站內正文

用一個簡單的Python字典將多模態推理性能提升超10%

Modal團隊通過分析SGLang調度器的性能瓶頸,發現頻繁的CUDA IPC池句柄重新打開操作導致主機開銷過高。他們通過一個簡單的Python字典緩存替換了重複操作,在Qwen2.5-VL-3B模型上實現了吞吐量提升16.2%、延遲降低超10%的效果。該優化已合併至SGLang v0.5.10版本。

  • SGLang調度器在處理多模態輸入時,因重複打開CUDA IPC池句柄造成主機開銷瓶頸。
  • 通過一個Python字典緩存池句柄,避免了冗餘的_shared_cuda調用,減少調度器CPU時間。
站內正文

在Modal上構建強化學習定理證明工作流

AE Studio利用Modal平台,通過進化策略(ES)和GRPO兩種強化學習方法訓練語言模型進行數學定理證明。他們使用Lean驗證器,並藉助Modal的並行GPU、沙盒隔離和卷存儲功能高效運行實驗。結果顯示ES在某些場景下媲美甚至超越GRPO,且成本顯著降低。

  • AE Studio在Modal上實現了進化策略(ES)用於定理證明,並與GRPO進行了對比。
  • 利用Modal的.map()並行GPU推斷、沙盒隔離驗證和卷存儲,大幅簡化了基礎設施搭建。
站內正文

使用Modal和OpenAI Agents SDK構建

Modal成為OpenAI Agents SDK的官方沙箱提供商。本文展示瞭如何從零開始構建自定義的編碼代理框架,集成Modal沙箱以實現安全、並行和可擴展的自動化任務,以Parameter Golf挑戰為例。

  • Modal是OpenAI Agents SDK的官方沙箱提供商,提供隔離、可擴展的運行環境。
  • 文章逐步演示了構建代理框架,包括基礎代理、沙箱化、記憶、子代理、異步並行和快照功能。
站內正文

自動縮放自動研究:在Modal上為您的智能體提供彈性GPU

Modal與Autoresearch集成,提供彈性GPU擴展,使AI智能體能夠動態調配計算資源。在Parameter Golf挑戰中,一個智能體在238個GPU小時內運行了113個實驗,與單個工作站相比實現了5倍加速,同時僅使用了專用集羣資源的一小部分。

  • Modal使智能體能夠無縫地從單個GPU擴展到數十個H100,適應工作負載需求。
  • Parameter Golf智能體在完成核心訓練運行時比單個工作站快5倍,資源利用率高效。
站內正文

Butter 加入 Modal

Modal 宣佈收購 AI 沙箱技術公司 Butter,其創始人 Erik Dunteman 和研究員 Raymond Tana 將加入 Modal 沙箱團隊。Butter 在代理工程領域經驗豐富,最近用 Zig 語言開發了輕量級臨時沙箱 bVisor。此次收購旨在加強 Modal 沙箱產品的能力。

  • Butter 團隊加入 Modal,專注代理工程和沙箱產品升級。
  • Butter 創始人 Erik Dunteman 曾共同創辦 Banana,與 Modal 有長期合作關係。
站內正文

Physical Intelligence 的機器人實時推理

Physical Intelligence 使用 Modal 平台,通過基於 QUIC 的專業傳輸協議,實現了低延遲的機器人遠程實時推理,僅增加 10-15 毫秒網絡開銷,並能靈活擴展至更大模型。

  • Physical Intelligence 開發了視覺-語言-動作(VLA)模型,用於通用機器人智能。
  • Modal 的隧道服務通過 TCP 提供低延遲,但機器人控制迴路要求更穩定的通信。
站內正文

產品更新:RTX Pro 6000 Blackwell、Command K、Sandbox FS API 等

Modal 發佈多項產品更新,包括 NVIDIA RTX Pro 6000 Blackwell GPU 支持、Dashboard 命令面板 Command K、Sandbox 文件系統 API Beta、SDK 改進以及多個客户案例與社區內容。

  • RTX Pro 6000 Blackwell 上線,96GB VRAM,適合推理和微調。
  • Command K 快捷鍵提供導航和對象跳轉功能。
站內正文

Runway 選擇 Modal 為 Runway Characters 提供實時推理支持

Runway 與 Modal 合作,利用 Modal 的無服務器計算平台為 Runway Characters 提供實時視頻推理。Runway Characters 是一個實時視頻代理 API,可從單張圖像生成可定製的數字角色,無需微調。該技術已應用於多個領域,包括客户支持、內部培訓等。Modal 的基礎設施使 Runway 能夠在 30 天內從概念驗證到生產,並支持全球低延遲部署。

  • Runway 與 Modal 合作,用於 Runway Characters 的實時推理。
  • Runway Characters 是基於 GWM-1 模型的實時視頻代理 API。
站內正文

Doppel如何利用Modal消除機器學習基礎設施負擔

Doppel是一家AI網絡安全平台,通過遷移至Modal,顯著提升了模型訓練和推理的效率。訓練方面,實現了並行實驗,縮短了反饋循環;推理方面,簡化了部署流程,實現了自動伸縮,降低了運維成本。

  • Doppel利用Modal實現了訓練實驗的並行化,加速了模型迭代。
  • Modal的鏡像層緩存和持久卷將模型部署構建時間縮短了10倍。
站內正文

產品更新:目錄快照、GLM-5、計費更新等等

二月份產品更新摘要:推出目錄快照功能,提供免費GLM-5端點,改進了計費可見性(新UI和API),SDK更新(變更日誌命令、儀表板URL等),以及關於Sandbox的網絡研討會和AI研究案例。

  • 目錄快照允許對特定目錄進行快照,獨立於基礎鏡像,分離系統依賴與應用代碼。
  • 與Z.ai合作提供免費GLM-5端點,截止4月底,適用於編碼代理。
站內正文

全部來源