Ollama在Apple Silicon上通过MLX实现最高性能
Ollama的MLX引擎更新后,在Apple Silicon上实现了最高性能。通过更充分利用苹果统一内存和Metal支持的MLX框架,模型输出质量更高,响应更快,内存占用更低。新支持NVFP4格式,输出速度提升高达20%,并引入快照系统优化代理工作流。
- Ollama MLX引擎更新,支持NVFP4格式,量化质量损失减半。
- 输出速度提升高达20%,得益于融合的Metal内核和优化采样。
Official local AI model runtime blog; confirm reuse terms before full body display.
Ollama的MLX引擎更新后,在Apple Silicon上实现了最高性能。通过更充分利用苹果统一内存和Metal支持的MLX框架,模型输出质量更高,响应更快,内存占用更低。新支持NVFP4格式,输出速度提升高达20%,并引入快照系统优化代理工作流。
Ollama 0.30 现已发布,通过 llama.cpp 带来更优性能和 GGUF 模型兼容性,增强了 Apple Silicon 上的 MLX 引擎,支持更多硬件和模型。
NVIDIA Nemotron 3 Ultra 是一款5500亿总参数(550亿活跃参数)的开放模型,专为长时间运行的代理驱动工作流设计,支持百万token上下文,并采用NVFP4优化,在代理任务上具有领先的准确性和成本效益。
OpenJarvis 是一个开源框架,用于构建运行在本地硬件上的个人 AI 代理。由斯坦福大学 Hazy Research 和 Scaling Intelligence 实验室开发,v1.0 版本现已集成 Ollama,实现本地优先、云端可选,并跟踪能耗、成本和延迟。
Ollama 宣布推出基于 Apple MLX 框架的预览版,针对 Apple Silicon 性能大幅优化,支持 NVFP4 精度和智能缓存,显著提升预填和解码速度。
通过Ollama 0.17,只需一条命令即可在本地硬件上部署OpenClaw个人AI助手,支持管理邮件、日历和通过消息应用执行任务。本文详细介绍了安装步骤、模型选择和安全注意事项。
Ollama 现已支持在 Claude Code 中使用子代理和网络搜索功能,无需额外配置。子代理可并行执行文件搜索、代码探索和研究等任务,而网络搜索则内置于 Anthropic 兼容层,为模型提供实时信息。
OpenClaw是一款个人AI助手,能将你的消息应用连接到本地AI编程代理,所有操作都在你自己的设备上运行,确保隐私安全。它支持WhatsApp、Telegram、Slack、Discord、iMessage等服务,并通过Ollama集成本地或云端模型,推荐使用至少64k上下文长度的模型。
Ollama 推出新命令 `ollama launch`,可自动配置并运行 Claude Code、OpenCode、Codex 等编码工具,支持本地或云端模型,无需手动设置环境变量或配置文件。
Ollama v0.14.0 及以上版本现兼容 Anthropic Messages API,使 Claude Code 等工具能与开源模型配合使用。用户可在本地或通过 ollama.com 连接云端模型运行。
Ollama宣布支持OpenAI的Codex CLI,允许用户通过本地或云端开源模型运行Codex,实现代码读取、修改和执行。
Ollama 与 OpenAI 和 ROOST 合作,推出基于 Apache 2.0 许可的 gpt-oss-safeguard 推理模型,用于安全分类任务。模型提供 20B 和 120B 两种参数规模,支持自定义安全策略、可解释推理过程以及可配置的推理努力,能够灵活应用于内容过滤、标注等场景。
MiniMax M2 现已通过 Ollama 云平台提供。该模型拥有 100 亿激活参数(总计 2300 亿),在通用智能、编程和智能体任务上表现出色,在开源模型中综合评分排名第一。文章还介绍了在 VS Code、Zed 和 Droid 等工具中的使用方法。