Modal Blog AI 新聞來源

公開文章 20採集文章 23可信度 82刷新頻率 120 分鐘

健康狀態健康來源類型官方原文權限 官方原文最近入庫 2026-06-25ID modal-blog運行狀態 已啟用

Official AI infrastructure blog; confirm reuse terms before full body display.

最新公開文章

基於Pingora、Envoy和Spanner的無伺服器伺服器路由

2026-06-25 08:00 UTC+8

Modal團隊深入介紹了其新型超低延遲Serverless Servers的設計原理和實現細節，該服務針對LLM推理等對延遲敏感的應用進行了最佳化。文章解釋了為何選擇構建自己的代理層fprs，以及如何透過Pingora庫、Envoy邊緣代理和Spanner全域性資料庫實現無網路呼叫熱路徑、動態域名關聯和自動縮放。

Modal推出Serverless Servers，專為超低延遲HTTP/WebSocket/gRPC流量設計。
與Web Functions不同，Servers犧牲了排隊和重試以換取更低延遲。

透過推測解碼實現最先進的推理延遲

2026-06-24 08:00 UTC+8

Modal與Decagon合作，利用推測解碼將推理延遲降低100毫秒，超越了專有推理提供商。本文詳細介紹了透過最佳化通訊延遲、主機開銷、預填充延遲和解碼延遲來實現低延遲的完整策略，並重點展示了為特定應用定製推測模型（DFlash技術）如何帶來顯著效能提升。

Modal Auto Endpoints透過推測解碼實現低延遲推理，關鍵最佳化是使用Blackwell GPU、SGLang引擎和Modal伺服器。
推測解碼透過並行處理多個推測令牌來減少解碼階段延遲，且效率主要取決於接受長度。

Modal Auto Endpoints 釋出：最佳化推理，真正擁有

2026-06-23 08:00 UTC+8

Modal 推出 Auto Endpoints，一個自服務的生產級 LLM 推理入口，讓使用者透過單一命令列即可部署前沿開放模型，並完全掌控推理程式碼、指標和基礎設施。該服務基於 Modal 的 AI 基礎設施平臺，提供高效能自動擴縮、自定義容器執行時和全球 GPU 資源，並透過 Modal Servers 實現超低延遲路由（5ms 開銷）。預調優的推理方案源自與頂級團隊的合作經驗，並採用 DFlash 投機解碼加速。未來將實現推理工程全自動化。

Auto Endpoints 支援一鍵部署開放模型（如 GLM 5.2），使用者擁有完整推理棧。
提供引擎級可觀測性指標，包括伺服器和推理指標。

投機解碼：一切皆是推測

2026-06-19 08:00 UTC+8

Modal團隊全面推崇投機解碼技術，認為它是當前最關鍵的高互動推理最佳化手段，能帶來2-3倍甚至更高的加速效果。他們與Z Lab合作訓練了針對Qwen系列模型的最先進DFlash投機解碼器，額外提升5-20%的速度，並強調了投機解碼在長上下文任務中的優勢。本文詳細解釋了投機解碼的原理、與傳統最佳化的對比，以及透過模擬和數學模型展示的加速效果。

投機解碼是目前唯一重要的推理引擎最佳化，能實現數倍加速而非微小百分比提升。
Modal與Z Lab合作釋出了多款Qwen模型的DFlash投機解碼器，額外提速5-20%。

強化學習是一個基礎設施問題

2026-05-29 08:00 UTC+8

本文探討了強化學習在大型語言模型後訓練中的實際應用，指出當前的瓶頸並非演算法而是基礎設施。Modal分享了大規模執行RL後訓練的經驗，介紹了其開源庫如何幫助團隊解決多節點訓練、環境管理和GPU利用率等關鍵問題。

強化學習後訓練LLM的瓶頸是基礎設施，包括訓練引擎、推理沙箱和環境隔離。
多節點訓練中，權重同步耗時巨大，RDMA和增量壓縮顯著降低延遲。

面向人類和智慧體的基於角色的訪問控制

2026-05-27 08:00 UTC+8

Modal 為 Teams 和 Enterprise 使用者推出了基於角色的訪問控制（RBAC），圍繞環境（Environments）構建，支援精細許可權管理，確保智慧體和人類的安全協作。

RBAC 現已面向所有 Team 和 Enterprise 計劃使用者開放，基於環境（Environments）實現安全邊界。
受限環境（Restricted Environments）可精確控制誰能在其中部署和管理資源。

Modal C輪融資：以46.5億美元估值籌集3.55億美元

2026-05-21 08:00 UTC+8

Modal 公司宣佈完成3.55億美元C輪融資，估值達46.5億美元，由 General Catalyst 和 Redpoint 領投。自去年9月以來，公司收入增長五倍，年化收入突破3億美元。Modal 是為AI工作負載量身打造的雲平臺，提供低延遲彈性推理、動態智慧體執行時、強化學習和大規模批處理等原生能力。本輪融資將用於進一步投資低延遲推理、訓練-推理閉環以及智慧體計算層。

Modal 以46.5億美元估值籌集3.55億美元C輪融資，General Catalyst 和 Redpoint 領投，現有投資者全部跟投。
自2025年9月以來，公司收入增長五倍，年化收入超過3億美元。

在Applied Compute擴充套件強化學習

2026-05-20 08:00 UTC+8

Applied Compute 使用強化學習為企業（如 DoorDash、Cognition、Mercor）訓練定製 AI 代理，並在 Modal 上執行。其核心理念是“特定智慧”：透過專有資料訓練，每次使用都能改進。本文介紹了他們的 RL 訓練迴圈、基礎設施選擇以及 Modal 如何提供靈活性、效能和可靠性。

Applied Compute 專注於後訓練階段，認為這是企業 AI 競爭的關鍵。
他們使用強化學習訓練具有“特定智慧”的代理，例如為 DoorDash 最佳化商家入駐模型。

推出結合Modal Sandboxes的Claude託管代理

2026-05-19 08:00 UTC+8

Anthropic與Modal宣佈推出Claude託管代理與Modal Sandboxes的整合，允許開發者在自己託管的可定製沙盒中執行工具呼叫，具有快速啟動、成本效益和可擴充套件性。早期採用者包括Mason AI、DoorDash和Blend。

Claude託管代理現在與Modal Sandboxes整合，支援自定義、可擴充套件的代理執行。
Modal提供快速啟動、自定義映象、持久化選項和成本高效的爆發定價。

如何實現真正的無伺服器GPU

2026-05-12 20:00 UTC+8

Modal 透過四項關鍵技術最佳化，將 GPU 推理伺服器例項的啟動時間從數十分鐘縮短到幾十秒，實現了真正的無伺服器 GPU。

維護空閒 GPU 緩衝池，消除例項分配延遲
自定義內容定址檔案系統，實現容器映象按需載入

用一個簡單的Python字典將多模態推理效能提升超10%

2026-05-04 08:00 UTC+8

Modal團隊透過分析SGLang排程器的效能瓶頸，發現頻繁的CUDA IPC池控制代碼重新開啟操作導致主機開銷過高。他們透過一個簡單的Python字典快取替換了重複操作，在Qwen2.5-VL-3B模型上實現了吞吐量提升16.2%、延遲降低超10%的效果。該最佳化已合併至SGLang v0.5.10版本。

SGLang排程器在處理多模態輸入時，因重複開啟CUDA IPC池控制代碼造成主機開銷瓶頸。
透過一個Python字典快取池控制代碼，避免了冗餘的_shared_cuda呼叫，減少排程器CPU時間。

在Modal上構建強化學習定理證明工作流

2026-04-29 08:00 UTC+8

AE Studio利用Modal平臺，透過進化策略（ES）和GRPO兩種強化學習方法訓練語言模型進行數學定理證明。他們使用Lean驗證器，並藉助Modal的並行GPU、沙盒隔離和卷儲存功能高效執行實驗。結果顯示ES在某些場景下媲美甚至超越GRPO，且成本顯著降低。

AE Studio在Modal上實現了進化策略（ES）用於定理證明，並與GRPO進行了對比。
利用Modal的.map()並行GPU推斷、沙盒隔離驗證和卷儲存，大幅簡化了基礎設施搭建。

使用Modal和OpenAI Agents SDK構建

2026-04-15 08:00 UTC+8

Modal成為OpenAI Agents SDK的官方沙箱提供商。本文展示瞭如何從零開始構建自定義的編碼代理框架，整合Modal沙箱以實現安全、並行和可擴充套件的自動化任務，以Parameter Golf挑戰為例。

Modal是OpenAI Agents SDK的官方沙箱提供商，提供隔離、可擴充套件的執行環境。
文章逐步演示了構建代理框架，包括基礎代理、沙箱化、記憶、子代理、非同步並行和快照功能。

自動縮放自動研究：在Modal上為您的智慧體提供彈性GPU

2026-04-14 08:00 UTC+8

Modal與Autoresearch整合，提供彈性GPU擴充套件，使AI智慧體能夠動態調配計算資源。在Parameter Golf挑戰中，一個智慧體在238個GPU小時內執行了113個實驗，與單個工作站相比實現了5倍加速，同時僅使用了專用叢集資源的一小部分。

Modal使智慧體能夠無縫地從單個GPU擴充套件到數十個H100，適應工作負載需求。
Parameter Golf智慧體在完成核心訓練執行時比單個工作站快5倍，資源利用率高效。

Butter 加入 Modal

2026-04-10 08:00 UTC+8

Modal 宣佈收購 AI 沙箱技術公司 Butter，其創始人 Erik Dunteman 和研究員 Raymond Tana 將加入 Modal 沙箱團隊。Butter 在代理工程領域經驗豐富，最近用 Zig 語言開發了輕量級臨時沙箱 bVisor。此次收購旨在加強 Modal 沙箱產品的能力。

Butter 團隊加入 Modal，專注代理工程和沙箱產品升級。
Butter 創始人 Erik Dunteman 曾共同創辦 Banana，與 Modal 有長期合作關係。

Physical Intelligence 的機器人即時推理

2026-04-08 08:00 UTC+8

Physical Intelligence 使用 Modal 平臺，透過基於 QUIC 的專業傳輸協議，實現了低延遲的機器人遠端即時推理，僅增加 10-15 毫秒網路開銷，並能靈活擴充套件至更大模型。

Physical Intelligence 開發了視覺-語言-動作（VLA）模型，用於通用機器人智慧。
Modal 的隧道服務透過 TCP 提供低延遲，但機器人控制迴路要求更穩定的通訊。

產品更新：RTX Pro 6000 Blackwell、Command K、Sandbox FS API 等

2026-04-07 08:00 UTC+8

Modal 釋出多項產品更新，包括 NVIDIA RTX Pro 6000 Blackwell GPU 支援、Dashboard 命令面板 Command K、Sandbox 檔案系統 API Beta、SDK 改進以及多個客戶案例與社群內容。

RTX Pro 6000 Blackwell 上線，96GB VRAM，適合推理和微調。
Command K 快捷鍵提供導航和物件跳轉功能。

Runway 選擇 Modal 為 Runway Characters 提供即時推理支援

2026-03-26 08:00 UTC+8

Runway 與 Modal 合作，利用 Modal 的無伺服器計算平臺為 Runway Characters 提供即時影片推理。Runway Characters 是一個即時影片代理 API，可從單張影像生成可定製的數字角色，無需微調。該技術已應用於多個領域，包括客戶支援、內部培訓等。Modal 的基礎設施使 Runway 能夠在 30 天內從概念驗證到生產，並支援全球低延遲部署。

Runway 與 Modal 合作，用於 Runway Characters 的即時推理。
Runway Characters 是基於 GWM-1 模型的即時影片代理 API。

Doppel如何利用Modal消除機器學習基礎設施負擔

2026-03-25 08:00 UTC+8

Doppel是一家AI網路安全平臺，透過遷移至Modal，顯著提升了模型訓練和推理的效率。訓練方面，實現了並行實驗，縮短了反饋迴圈；推理方面，簡化了部署流程，實現了自動伸縮，降低了運維成本。

Doppel利用Modal實現了訓練實驗的並行化，加速了模型迭代。
Modal的映象層快取和持久卷將模型部署構建時間縮短了10倍。

產品更新：目錄快照、GLM-5、計費更新等等

2026-03-04 08:00 UTC+8

二月份產品更新摘要：推出目錄快照功能，提供免費GLM-5端點，改進了計費可見性（新UI和API），SDK更新（變更日誌命令、儀表板URL等），以及關於Sandbox的網路研討會和AI研究案例。

目錄快照允許對特定目錄進行快照，獨立於基礎映象，分離系統依賴與應用程式碼。
與Z.ai合作提供免費GLM-5端點，截止4月底，適用於編碼代理。

Modal Blog