AI News HubLIVE
站內改寫2 分鐘閱讀

Show HN:Sipp——在瀏覽器中3倍速執行小型本地LLM

Sipp 是一款開源的 WebGPU 執行時,可在瀏覽器中零安裝執行小型 LLM,速度比同類產品快 3 倍,甚至在某些基準測試中達到 5 倍。它提供統一的 API,支援本地瀏覽器和雲端閘道器的對稱推理,並覆蓋 Node.js、Rust、Python 等環境。

來源Hacker News AI作者: jjhartmann

Sipp 是一個新興的開源 WebGPU 執行時,專為在瀏覽器中高效執行小型本地語言模型(LLM)而設計。它的核心理念是讓 AI 推理像喝一杯檸檬水一樣簡單——無需安裝、無需伺服器,只需一個瀏覽器即可執行模型,且效能遠超現有方案。

根據官方釋出的資料,Sipp 在瀏覽器中的執行速度可達同類產品的 3 倍,而在某些基準測試中甚至能實現 5 倍的提升。具體來說,在 NVIDIA 3080 顯示卡和 Chrome 瀏覽器上,使用 Qwen 2.5 0.5B 模型(Q4_K_M 量化)進行測試,Sipp 的首詞生成時間(TTFT)比 Transformers.js 快 8.4 倍,比 WebLLM 快 5.4 倍;解碼速度分別快 3.8 倍和 3.5 倍;端到端延遲也分別改善了 3.5 倍和 3.3 倍。這些資料有力地證明了 Sipp 在瀏覽器推理效能上的突破。

Sipp 的另一大特色是其統一的 API 設計。開發者可以使用同一套介面管理本地瀏覽器端和雲端閘道器的推理端點,實現流量無縫切換。無論是本地執行還是透過雲閘道器,程式碼路徑完全對稱,大大簡化了從原型到生產的開發流程。以下是一個簡單的程式碼示例:

import { SippClient } from '@sipphq/sipp'; const blender = new SippClient(); const juice = await blender.add('edge', { kind: 'local', source: '/models/llama3.gguf' }); const ice = await blender.add('cloud', { kind: 'gateway', baseUrl: 'https://gateway.example.com/v1/' }); const [smoothie, snowcone] = await Promise.all([ blender.chat([{ role: 'user', content: 'Explain Sipp.' }], { endpoint: juice }), blender.chat([{ role: 'user', content: 'Create a Sipp app.' }], { endpoint: ice }) ]);

除了基礎的聊天功能,Sipp 還展示了多種創新的應用場景,包括魔法對戰遊戲(PromptCast)、多智慧體系統(Banana Brawl)、即時影像批評(Sketch Critic)以及 VRM 虛擬角色聊天(Aria)。所有這些演示均完全在瀏覽器內執行,無需任何伺服器支援。

Sipp 不僅侷限於瀏覽器,它還支援 Node.js、Rust、Python 等執行環境,並提供了自託管閘道器解決方案,便於生產環境部署。其開源特性使得開發者可以自由定製和擴充套件。Sipp 的核心引擎基於 Rust、C++ 和 GGML,利用最新的 WebGPU 標準實現零依賴的本地推理。目前,團隊正在開發移動端支援,桌面端已經可以體驗完整功能。