AI News HubLIVE
站内改写2 分钟阅读

Show HN:Sipp——在浏览器中3倍速运行小型本地LLM

Sipp 是一款开源的 WebGPU 运行时,可在浏览器中零安装运行小型 LLM,速度比同类产品快 3 倍,甚至在某些基准测试中达到 5 倍。它提供统一的 API,支持本地浏览器和云端网关的对称推理,并覆盖 Node.js、Rust、Python 等环境。

来源Hacker News AI作者: jjhartmann

Sipp 是一个新兴的开源 WebGPU 运行时,专为在浏览器中高效运行小型本地语言模型(LLM)而设计。它的核心理念是让 AI 推理像喝一杯柠檬水一样简单——无需安装、无需服务器,只需一个浏览器即可运行模型,且性能远超现有方案。

根据官方发布的数据,Sipp 在浏览器中的运行速度可达同类产品的 3 倍,而在某些基准测试中甚至能实现 5 倍的提升。具体来说,在 NVIDIA 3080 显卡和 Chrome 浏览器上,使用 Qwen 2.5 0.5B 模型(Q4_K_M 量化)进行测试,Sipp 的首词生成时间(TTFT)比 Transformers.js 快 8.4 倍,比 WebLLM 快 5.4 倍;解码速度分别快 3.8 倍和 3.5 倍;端到端延迟也分别改善了 3.5 倍和 3.3 倍。这些数据有力地证明了 Sipp 在浏览器推理性能上的突破。

Sipp 的另一大特色是其统一的 API 设计。开发者可以使用同一套接口管理本地浏览器端和云端网关的推理端点,实现流量无缝切换。无论是本地执行还是通过云网关,代码路径完全对称,大大简化了从原型到生产的开发流程。以下是一个简单的代码示例:

import { SippClient } from '@sipphq/sipp'; const blender = new SippClient(); const juice = await blender.add('edge', { kind: 'local', source: '/models/llama3.gguf' }); const ice = await blender.add('cloud', { kind: 'gateway', baseUrl: 'https://gateway.example.com/v1/' }); const [smoothie, snowcone] = await Promise.all([ blender.chat([{ role: 'user', content: 'Explain Sipp.' }], { endpoint: juice }), blender.chat([{ role: 'user', content: 'Create a Sipp app.' }], { endpoint: ice }) ]);

除了基础的聊天功能,Sipp 还展示了多种创新的应用场景,包括魔法对战游戏(PromptCast)、多智能体系统(Banana Brawl)、实时图像批评(Sketch Critic)以及 VRM 虚拟角色聊天(Aria)。所有这些演示均完全在浏览器内运行,无需任何服务器支持。

Sipp 不仅局限于浏览器,它还支持 Node.js、Rust、Python 等运行环境,并提供了自托管网关解决方案,便于生产环境部署。其开源特性使得开发者可以自由定制和扩展。Sipp 的核心引擎基于 Rust、C++ 和 GGML,利用最新的 WebGPU 标准实现零依赖的本地推理。目前,团队正在开发移动端支持,桌面端已经可以体验完整功能。