Show HN:Sipp – ブラウザで小型ローカルLLMを3倍高速に実行
Sipp は、ブラウザ内で小型LLMをゼロインストールで実行できる新しいオープンソースのWebGPUランタイムです。競合比最大3倍の速度を実現し、ローカルとクラウド推論のための統一APIを提供します。
Sipp は、ブラウザ内で小型のローカル言語モデル(LLM)を効率的に実行するための新しいオープンソースのWebGPUランタイムです。その理念は、AI推論をレモネードを飲むように簡単にすることです。インストール不要、サーバー不要、ブラウザだけでモデルを実行でき、既存のソリューションよりもはるかに優れたパフォーマンスを発揮します。
公式発表によると、Sipp のブラウザ内実行速度は競合製品の最大3倍で、特定のベンチマークでは5倍の向上を達成しています。具体的には、NVIDIA 3080 GPU と Chrome ブラウザ上で Qwen 2.5 0.5B モデル(Q4_K_M 量子化)を使用したテストでは、Sipp の最初のトークン生成時間(TTFT)が Transformers.js 比 8.4 倍、WebLLM 比 5.4 倍高速でした。デコード速度はそれぞれ 3.8 倍、3.5 倍、エンドツーエンドレイテンシは 3.5 倍、3.3 倍改善されました。これらの数値は、ブラウザ推論における Sipp の画期的なパフォーマンスを明確に示しています。
Sipp のもう一つの大きな特徴は、統一されたAPI設計です。開発者は同じインターフェースを使用して、ローカルブラウザ側とクラウドゲートウェイの推論エンドポイントを管理し、トラフィックをシームレスに切り替えることができます。ローカル実行とクラウド実行でコードパスは完全に対称的であり、プロトタイプから本番環境への移行を大幅に簡素化します。以下はコード例です:
import { SippClient } from '@sipphq/sipp'; const blender = new SippClient(); const juice = await blender.add('edge', { kind: 'local', source: '/models/llama3.gguf' }); const ice = await blender.add('cloud', { kind: 'gateway', baseUrl: 'https://gateway.example.com/v1/' }); const [smoothie, snowcone] = await Promise.all([ blender.chat([{ role: 'user', content: 'Explain Sipp.' }], { endpoint: juice }), blender.chat([{ role: 'user', content: 'Create a Sipp app.' }], { endpoint: ice }) ]);
基本的なチャット機能に加えて、Sipp は魔法対戦ゲーム(PromptCast)、マルチエージェントシステム(Banana Brawl)、リアルタイム画像批評(Sketch Critic)、VRM 仮想キャラクターチャット(Aria)など、さまざまな革新的なアプリケーションをデモンストレーションしています。これらのデモはすべてブラウザ内で完全に動作し、サーバーサポートは一切必要ありません。
Sipp はブラウザだけでなく、Node.js、Rust、Python などの実行環境もサポートし、セルフホスト型ゲートウェイソリューションも提供しているため、本番環境での展開に適しています。オープンソースであるため、開発者は自由にカスタマイズや拡張が可能です。Sipp の中核エンジンは Rust、C++、GGML に基づいており、最新の WebGPU 標準を活用して依存関係のないローカル推論を実現しています。現在、モバイル対応が進められており、デスクトップではすでに全機能を体験できます。