AI News HubLIVE
サイト内リライト4 分で読了

Ollamaの新MLXエンジン:MacでのローカルLLM性能が2倍に向上

Ollamaの新MLXエンジンにより、MacでのローカルLLMのパフォーマンスと出力品質が大幅に向上。特にコーディングアシスタントなどのエージェントワークフローに顕著な改善が見られる。

ソースHacker News AI著者: taintech

私はOllamaを使ってMacでローカルLLMを実行してきましたが、Macの全体的なパフォーマンスに影響が出ていました。ローカルLLMはリソースを大量に消費するからです。MacBook Air M5(16GB RAM)を使用していますが、70億パラメータ未満のモデルを実行するには十分でした。

しかし、Ollamaの新しいMLXエンジンにアップグレードしてから状況は一変しました。パフォーマンスが大幅に向上し、すべての操作がよりレスポンシブになり、推論速度がほぼ2倍になりました。すでにMacでOllamaを通じてローカルLLMを実行している方にとって、これはApple Siliconが本格的な推論プラットフォームになって以来、最大のアップグレードの1つです。最新のMLXエンジンは、モデルの表現方法、メモリの使用方法、エージェントワークフローのキャッシュ方法を変更し、Claude Code、OpenClaw、Aiderなどのマルチエージェント設定にも大きな影響を与えています。

MLXエンジンはついにApple Siliconを有効活用します。ローカルLLMユーザーの多くは、Apple Siliconが比較的控えめなハードウェアでも驚くほどのパフォーマンスを発揮することを知っています。私のMacBook Air M5(16GB RAM)も小さなモデルであれば問題なく動作しましたが、常にトレードオフがありました。ローカルモデルを実行すると、システム全体が遅くなることがよくありました。

Ollamaの新しいMLXエンジンは、AppleのMLXフレームワークと統合メモリアーキテクチャに大きく依存することでこの問題を解決します。Apple SiliconではCPUとGPUが同じメモリプールを共有できるため、更新されたエンジンはその設計を最大限に活用し、推論中の不要なメモリ移動を削減します。

改善点はメモリ管理だけではありません。OllamaはMLXのジャストインタイムコンパイラを介して複数のGPU操作をより大きなMetalカーネルに結合し、推論オーバーヘッドを低減します。また、GPUバックのサンプリングを改善し、トークン生成を大幅に高速化します。Ollamaは、更新されたエンジンが以前のQ4_K_M実装よりも約20%高い出力速度を実現すると主張しており、これは私の日常使用でも確認できました。私のワークフローは主にプログラミングの質問、スクリプト生成、自動化アイデアのテストであり、こうした短いリクエストが1つ1つより速く感じられるようになりました。

小さなモデルでもより良い応答が得られるようになりました。パフォーマンスの改善は注目されがちですが、品質の向上も同様に重要です。Ollamaの更新されたMLXエンジンは、NVIDIAのモデル最適化NVFP4量子化フォーマットをサポートしています。量子化はモデルの実行に必要なメモリを削減しますが、元の重みから一部の情報を除去します。NVFP4はこのトレードオフを大幅に軽減します。OllamaがGemma 4 12Bで測定したところ、新しいフォーマットはメモリ要件を同等に保ちながら、広く使われているQ4_K_Mフォーマットと比較して品質低下を約半分に削減します。ベンチマークではQ4_K_Mよりも低いパープレキシティを示し、モデルが元のBF16バージョンに近い動作をすることが示されています。

私のMacでは超大規模モデルを快適に実行できないため、主に小さなモデルを使用しています。より良い量子化により、追加のハードウェアを必要とせずに、小さなモデルでも強力な結果を生成できます。これはMacBook Airやメモリが限られたApple Siliconシステムを使用するすべての人にとって有意義なアップグレードです。生成されるコードが指示に一貫して従うようになり、フォローアッププロンプトの修正が減りました。長い会話でも応答の一貫性が保たれ、プロンプトの書き直しにかかる時間が短縮されました。

コーディングエージェントはさらに恩恵を受けます。最も驚いた機能は、生の推論速度ではなく、Ollamaがエージェントワークフローでキャッシュされたモデル状態を処理する方法を再設計したことです。コーディングアシスタントは常に大量のコンテキストをモデルに再送信するため、これは重要です。各ツール呼び出しには、システムプロンプト、ツール定義、以前の会話履歴、最近読み込まれたファイルが含まれます。従来のプレフィックスキャッシングは、すべてのリクエストが前のリクエストから直接続く場合にのみ機能します。しかし現代のコーディングエージェントは、サブエージェントへの分岐、失敗したリクエストの再試行、可視会話からの推論トークンの削除などを行うため、そのようには動作しません。これらの変更により、モデルは同じコンテキストを繰り返し処理することを余儀なくされます。

Ollamaは新しいスナップショットシステムでこの問題に対処します。エンジンはプレフィックスキャッシングに完全に依存するのではなく、会話の重要なポイントで再利用可能なモデル状態を保存します。個別のエージェントセッションは、最初から再構築する代わりに、保存された状態から再開できます。思考モデルも、推論トークンが会話履歴から消える前に、スナップショットが有用な状態を保持するため恩恵を受けます。

Ollamaは今、はるかに良くなっています。今回のアップデートは、チャットであれコーディングアシスタントであれ、ローカルLLMのあらゆる使い方を改善します。私のローカルワークフローは、繰り返しのツール呼び出しがコンテキストの再構築に費やす時間を大幅に削減し、はるかに高速になりました。応答時間の短縮と出力品質の向上により、新しいMLXエンジンは私のローカルAIセットアップの中で最も価値のあるアップグレードの1つです。Ollamaは、ローカルコンピュータでさまざまなオープンソース大規模言語モデル(LLM)をダウンロードして実行するためのプラットフォームです。