Modal Blog AI 新聞來源

公開文章 20採集文章 23可信度 82刷新頻率 120 分鐘

健康狀態健康來源類型官方原文權限 官方原文最近入庫 2026-06-25ID modal-blog運行狀態 已啟用

Official AI infrastructure blog; confirm reuse terms before full body display.

最新公開文章

基於Pingora、Envoy和Spanner的無服務器服務器路由

2026-06-25 08:00 UTC+8

Modal團隊深入介紹了其新型超低延遲Serverless Servers的設計原理和實現細節，該服務針對LLM推理等對延遲敏感的應用進行了優化。文章解釋了為何選擇構建自己的代理層fprs，以及如何通過Pingora庫、Envoy邊緣代理和Spanner全局數據庫實現無網絡調用熱路徑、動態域名關聯和自動縮放。

Modal推出Serverless Servers，專為超低延遲HTTP/WebSocket/gRPC流量設計。
與Web Functions不同，Servers犧牲了排隊和重試以換取更低延遲。

通過推測解碼實現最先進的推理延遲

2026-06-24 08:00 UTC+8

Modal與Decagon合作，利用推測解碼將推理延遲降低100毫秒，超越了專有推理提供商。本文詳細介紹了通過優化通信延遲、主機開銷、預填充延遲和解碼延遲來實現低延遲的完整策略，並重點展示了為特定應用定製推測模型（DFlash技術）如何帶來顯著性能提升。

Modal Auto Endpoints通過推測解碼實現低延遲推理，關鍵優化是使用Blackwell GPU、SGLang引擎和Modal服務器。
推測解碼通過並行處理多個推測令牌來減少解碼階段延遲，且效率主要取決於接受長度。

Modal Auto Endpoints 發佈：優化推理，真正擁有

2026-06-23 08:00 UTC+8

Modal 推出 Auto Endpoints，一個自服務的生產級 LLM 推理入口，讓用户通過單一命令行即可部署前沿開放模型，並完全掌控推理代碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平台，提供高性能自動擴縮、自定義容器運行時和全球 GPU 資源，並通過 Modal Servers 實現超低延遲路由（5ms 開銷）。預調優的推理方案源自與頂級團隊的合作經驗，並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。

Auto Endpoints 支持一鍵部署開放模型（如 GLM 5.2），用户擁有完整推理棧。
提供引擎級可觀測性指標，包括服務器和推理指標。

投機解碼：一切皆是推測

2026-06-19 08:00 UTC+8

Modal團隊全面推崇投機解碼技術，認為它是當前最關鍵的高交互推理優化手段，能帶來2-3倍甚至更高的加速效果。他們與Z Lab合作訓練了針對Qwen系列模型的最先進DFlash投機解碼器，額外提升5-20%的速度，並強調了投機解碼在長上下文任務中的優勢。本文詳細解釋了投機解碼的原理、與傳統優化的對比，以及通過模擬和數學模型展示的加速效果。

投機解碼是目前唯一重要的推理引擎優化，能實現數倍加速而非微小百分比提升。
Modal與Z Lab合作發佈了多款Qwen模型的DFlash投機解碼器，額外提速5-20%。

強化學習是一個基礎設施問題

2026-05-29 08:00 UTC+8

本文探討了強化學習在大型語言模型後訓練中的實際應用，指出當前的瓶頸並非算法而是基礎設施。Modal分享了大規模運行RL後訓練的經驗，介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。

強化學習後訓練LLM的瓶頸是基礎設施，包括訓練引擎、推理沙箱和環境隔離。
多節點訓練中，權重同步耗時巨大，RDMA和增量壓縮顯著降低延遲。

面向人類和智能體的基於角色的訪問控制

2026-05-27 08:00 UTC+8

Modal 為 Teams 和 Enterprise 用户推出了基於角色的訪問控制（RBAC），圍繞環境（Environments）構建，支持精細權限管理，確保智能體和人類的安全協作。

RBAC 現已面向所有 Team 和 Enterprise 計劃用户開放，基於環境（Environments）實現安全邊界。
受限環境（Restricted Environments）可精確控制誰能在其中部署和管理資源。

Modal C輪融資：以46.5億美元估值籌集3.55億美元

2026-05-21 08:00 UTC+8

Modal 公司宣佈完成3.55億美元C輪融資，估值達46.5億美元，由 General Catalyst 和 Redpoint 領投。自去年9月以來，公司收入增長五倍，年化收入突破3億美元。Modal 是為AI工作負載量身打造的雲平台，提供低延遲彈性推理、動態智能體運行時、強化學習和大規模批處理等原生能力。本輪融資將用於進一步投資低延遲推理、訓練-推理閉環以及智能體計算層。

Modal 以46.5億美元估值籌集3.55億美元C輪融資，General Catalyst 和 Redpoint 領投，現有投資者全部跟投。
自2025年9月以來，公司收入增長五倍，年化收入超過3億美元。

在Applied Compute擴展強化學習

2026-05-20 08:00 UTC+8

Applied Compute 使用強化學習為企業（如 DoorDash、Cognition、Mercor）訓練定製 AI 代理，並在 Modal 上運行。其核心理念是“特定智能”：通過專有數據訓練，每次使用都能改進。本文介紹了他們的 RL 訓練循環、基礎設施選擇以及 Modal 如何提供靈活性、性能和可靠性。

Applied Compute 專注於後訓練階段，認為這是企業 AI 競爭的關鍵。
他們使用強化學習訓練具有“特定智能”的代理，例如為 DoorDash 優化商家入駐模型。

推出結合Modal Sandboxes的Claude託管代理

2026-05-19 08:00 UTC+8

Anthropic與Modal宣佈推出Claude託管代理與Modal Sandboxes的集成，允許開發者在自己託管的可定製沙盒中運行工具調用，具有快速啓動、成本效益和可擴展性。早期採用者包括Mason AI、DoorDash和Blend。

Claude託管代理現在與Modal Sandboxes集成，支持自定義、可擴展的代理執行。
Modal提供快速啓動、自定義鏡像、持久化選項和成本高效的爆發定價。

如何實現真正的無服務器GPU

2026-05-12 20:00 UTC+8

Modal 通過四項關鍵技術優化，將 GPU 推理服務器實例的啓動時間從數十分鐘縮短到幾十秒，實現了真正的無服務器 GPU。

維護空閒 GPU 緩衝池，消除實例分配延遲
自定義內容尋址文件系統，實現容器鏡像按需加載

用一個簡單的Python字典將多模態推理性能提升超10%

2026-05-04 08:00 UTC+8

Modal團隊通過分析SGLang調度器的性能瓶頸，發現頻繁的CUDA IPC池句柄重新打開操作導致主機開銷過高。他們通過一個簡單的Python字典緩存替換了重複操作，在Qwen2.5-VL-3B模型上實現了吞吐量提升16.2%、延遲降低超10%的效果。該優化已合併至SGLang v0.5.10版本。

SGLang調度器在處理多模態輸入時，因重複打開CUDA IPC池句柄造成主機開銷瓶頸。
通過一個Python字典緩存池句柄，避免了冗餘的_shared_cuda調用，減少調度器CPU時間。

在Modal上構建強化學習定理證明工作流

2026-04-29 08:00 UTC+8

AE Studio利用Modal平台，通過進化策略（ES）和GRPO兩種強化學習方法訓練語言模型進行數學定理證明。他們使用Lean驗證器，並藉助Modal的並行GPU、沙盒隔離和卷存儲功能高效運行實驗。結果顯示ES在某些場景下媲美甚至超越GRPO，且成本顯著降低。

AE Studio在Modal上實現了進化策略（ES）用於定理證明，並與GRPO進行了對比。
利用Modal的.map()並行GPU推斷、沙盒隔離驗證和卷存儲，大幅簡化了基礎設施搭建。

使用Modal和OpenAI Agents SDK構建

2026-04-15 08:00 UTC+8

Modal成為OpenAI Agents SDK的官方沙箱提供商。本文展示瞭如何從零開始構建自定義的編碼代理框架，集成Modal沙箱以實現安全、並行和可擴展的自動化任務，以Parameter Golf挑戰為例。

Modal是OpenAI Agents SDK的官方沙箱提供商，提供隔離、可擴展的運行環境。
文章逐步演示了構建代理框架，包括基礎代理、沙箱化、記憶、子代理、異步並行和快照功能。

自動縮放自動研究：在Modal上為您的智能體提供彈性GPU

2026-04-14 08:00 UTC+8

Modal與Autoresearch集成，提供彈性GPU擴展，使AI智能體能夠動態調配計算資源。在Parameter Golf挑戰中，一個智能體在238個GPU小時內運行了113個實驗，與單個工作站相比實現了5倍加速，同時僅使用了專用集羣資源的一小部分。

Modal使智能體能夠無縫地從單個GPU擴展到數十個H100，適應工作負載需求。
Parameter Golf智能體在完成核心訓練運行時比單個工作站快5倍，資源利用率高效。

Butter 加入 Modal

2026-04-10 08:00 UTC+8

Modal 宣佈收購 AI 沙箱技術公司 Butter，其創始人 Erik Dunteman 和研究員 Raymond Tana 將加入 Modal 沙箱團隊。Butter 在代理工程領域經驗豐富，最近用 Zig 語言開發了輕量級臨時沙箱 bVisor。此次收購旨在加強 Modal 沙箱產品的能力。

Butter 團隊加入 Modal，專注代理工程和沙箱產品升級。
Butter 創始人 Erik Dunteman 曾共同創辦 Banana，與 Modal 有長期合作關係。

Physical Intelligence 的機器人實時推理

2026-04-08 08:00 UTC+8

Physical Intelligence 使用 Modal 平台，通過基於 QUIC 的專業傳輸協議，實現了低延遲的機器人遠程實時推理，僅增加 10-15 毫秒網絡開銷，並能靈活擴展至更大模型。

Physical Intelligence 開發了視覺-語言-動作（VLA）模型，用於通用機器人智能。
Modal 的隧道服務通過 TCP 提供低延遲，但機器人控制迴路要求更穩定的通信。

產品更新：RTX Pro 6000 Blackwell、Command K、Sandbox FS API 等

2026-04-07 08:00 UTC+8

Modal 發佈多項產品更新，包括 NVIDIA RTX Pro 6000 Blackwell GPU 支持、Dashboard 命令面板 Command K、Sandbox 文件系統 API Beta、SDK 改進以及多個客户案例與社區內容。

RTX Pro 6000 Blackwell 上線，96GB VRAM，適合推理和微調。
Command K 快捷鍵提供導航和對象跳轉功能。

Runway 選擇 Modal 為 Runway Characters 提供實時推理支持

2026-03-26 08:00 UTC+8

Runway 與 Modal 合作，利用 Modal 的無服務器計算平台為 Runway Characters 提供實時視頻推理。Runway Characters 是一個實時視頻代理 API，可從單張圖像生成可定製的數字角色，無需微調。該技術已應用於多個領域，包括客户支持、內部培訓等。Modal 的基礎設施使 Runway 能夠在 30 天內從概念驗證到生產，並支持全球低延遲部署。

Runway 與 Modal 合作，用於 Runway Characters 的實時推理。
Runway Characters 是基於 GWM-1 模型的實時視頻代理 API。

Doppel如何利用Modal消除機器學習基礎設施負擔

2026-03-25 08:00 UTC+8

Doppel是一家AI網絡安全平台，通過遷移至Modal，顯著提升了模型訓練和推理的效率。訓練方面，實現了並行實驗，縮短了反饋循環；推理方面，簡化了部署流程，實現了自動伸縮，降低了運維成本。

Doppel利用Modal實現了訓練實驗的並行化，加速了模型迭代。
Modal的鏡像層緩存和持久卷將模型部署構建時間縮短了10倍。

產品更新：目錄快照、GLM-5、計費更新等等

2026-03-04 08:00 UTC+8

二月份產品更新摘要：推出目錄快照功能，提供免費GLM-5端點，改進了計費可見性（新UI和API），SDK更新（變更日誌命令、儀表板URL等），以及關於Sandbox的網絡研討會和AI研究案例。

目錄快照允許對特定目錄進行快照，獨立於基礎鏡像，分離系統依賴與應用代碼。
與Z.ai合作提供免費GLM-5端點，截止4月底，適用於編碼代理。

Modal Blog