使用MLX在Apple Silicon上微调语言模型
本文详细介绍了如何在配备Apple Silicon芯片的Mac上,利用MLX框架本地微调开源语言模型,无需云GPU和额外成本。涵盖环境搭建、数据集准备、LoRA适配器训练、量化减少内存使用、测试及模型融合部署等完整流程。
- MLX是苹果专为Apple Silicon统一内存架构设计的开源数组库,支持在Mac上高效进行模型微调。
- 通过MLX LM工具包,用户只需几条命令即可完成从安装、数据准备到训练、测试和部署的全流程。
Data science and AI analysis source; summary-only unless authorization is obtained.
本文详细介绍了如何在配备Apple Silicon芯片的Mac上,利用MLX框架本地微调开源语言模型,无需云GPU和额外成本。涵盖环境搭建、数据集准备、LoRA适配器训练、量化减少内存使用、测试及模型融合部署等完整流程。
本文介绍了五种智能体工作流,分别对应数据科学管道的不同阶段,从自动探索性数据分析到特征工程,帮助数据科学家将精力从重复性任务中解放出来。
本教程介绍了三种利用 Gemini 创建 Google 表格的方法:在电子表格内直接使用内置集成、通过 Gemini 网页应用生成并导出、以及使用 Gemini 编写 Google Apps Script 实现高级自动化。同时提供优化提示以获得更好结果的建议。
本文介绍五个开源全能AI模型,它们统一处理多模态输入。从NVIDIA Nemotron的企业级应用到MiniCPM-o的实时流媒体,这些模型代表了向单一架构多模态理解的转变。
涵盖五个能力领域的逐步指南:技术基础、系统架构设计、技术选型、规模与成本、治理与业务对齐。包含练习和资源,帮助从工程师过渡到架构师。
本地编码模型已成熟,可在消费级GPU上运行,提供隐私和效率。本文介绍7款最佳模型,涵盖通用编码、多模态、推理等场景。
本文详细解析了数据科学所需的四大数学基石:线性代数、微积分、概率与统计、离散数学,并提供了高效学习路径。强调数学直觉而非仅会调用代码,是在2026年AI自动化时代的真正竞争力。
WebMCP是一项开放的Web标准,允许网站向浏览器代理暴露结构化的可调用工具,替代了传统的像素点击和DOM抓取方式,大幅提升代理的可靠性和效率。本文介绍了WebMCP的核心概念、两种API(声明式和命令式)、认证突破以及实际用例。
ChatLLM 是 Abacus AI 开发的一个 AI 工作空间,它集成了多个领先的大语言模型、AI 代理、文档分析、图像生成、自动化及团队协作功能。本文详细评测了其支持的模型、功能、定价、使用限制,并对比了 ChatGPT。
代理型AI并非因为技术差而失败,而是团队在首次部署时携带了五个特定的误解,每一个都可以纠正。
本文用简单的比喻和实例解释了机器学习中损失函数的概念,包括均方误差、平均绝对误差和交叉熵损失,以及它们如何帮助模型改进。
本文讲述了作者为何选择自建AI助手而非使用现有工具,详细介绍了系统架构、技术栈选择及实现过程,包括LLM、LangChain、内存管理和工具集成。
本文介绍了五个使用OpenAI Codex构建的有趣项目,从简单的应用到复杂的全栈克隆,展示了Codex在软件开发中的多样性和实用性。
本文详细介绍了从机器学习从业者转型为LLM工程师的五个技能阶段:基础、提示与工具调用、检索增强生成、微调与对齐、服务与运营,并提供了具体项目和资源推荐。
本文介绍如何使用sktime库在Python中构建时间序列机器学习模型,包括数据预处理、预测管道构建、模型评估和交叉验证。通过一个工业HVAC传感器温度预测的完整案例,展示了sktime与scikit-learn风格一致的API,以及如何处理季节性和趋势等时间序列特有结构。
本文介绍了如何将Claude Code与本地推理后端(Ollama、LM Studio、llama.cpp)配对,以降低API成本并避免速率限制。详细说明了环境变量配置、模型选择建议以及常见问题的解决方法。
本文从零开始用Python、DuckDB、Parquet、Redis和FastAPI构建最小特征存储,涵盖注册表、离线存储、在线存储、物化管道和检索API五个组件,并探讨AI时代特征存储的设计变化。
本文从 Hugging Face 上超过 90,000 个文本到图像模型中精选出七个值得在 2026 年使用的模型,涵盖 FLUX.1 Schnell、FLUX.1 Dev、FLUX.1 Kontext Dev、Stable Diffusion 3.5 Large、FLUX.2 Dev、Playground v2.5 和 Kolors,并提供了每个模型的许可证、最佳用途和实际权衡。
本文介绍了10个流行的Python Web开发框架和工具,包括FastAPI、Django、Flask等,涵盖了API构建、全栈开发、数据仪表盘、机器学习演示等场景,并提供了作者的个人使用经验。
最新研究揭示,将文档编辑等任务委托给大型语言模型(LLM)时,模型可能会在交互过程中默默损坏文档内容。研究构建了DELEGATE-52基准测试,发现即使最先进的模型在20次交互后也会导致25%的内容损坏,原因包括错误累积、弱模型删除与强模型幻觉、上下文过载以及领域熟悉度不足。代理式AI工具对此问题帮助有限。
本指南全面介绍Claude Skills的概念、规划、文件结构、编写方法、测试分发及故障排除,帮助用户快速构建可复用的专业技能。
本文介绍了AI工程师必须掌握的五项Python核心概念:张量与自动求导、__call__方法、序列化(Pickle vs ONNX)、抽象基类以及环境配置,每个概念都附有笨拙实现与生产级实现的对比,帮助读者构建可扩展、安全且稳健的AI系统。
本文详细探讨了三种后处理校准方法——温度缩放、Platt缩放和等渗回归,用于缩小大型语言模型置信度与准确率之间的差距。分析了LLM校准的挑战、RLHF带来的问题,并给出实际应用建议。
本文探讨了AI智能体如何重塑数据科学工作流程,自动化日常任务,并需要系统设计、工具集成和智能体可观测性等新技能。介绍了LangGraph、AutoGen和smolagents等框架,以及从程序性到评估性工作的转变和新兴角色。
本文详细介绍了使用Python进行时间序列分析和预测的7个关键步骤,从理解时间序列数据的独特性到部署监控系统,涵盖了经典统计模型、机器学习模型和深度学习模型的实践方法。
本文介绍了五篇核心论文,分别涵盖Transformer架构、GPT-3的上下文学习、缩放定律、RLHF指令微调以及检索增强生成(RAG),帮助读者系统理解现代大语言模型的工作原理。
本文探讨了大语言模型(LLM)的可解释性,概述了这一重要研究领域的进展、趋势和持续发展。文章介绍了从静态评估向动态评估的转变,模型无关的局部解释方法(如SMILE框架),以及通过代理模型和观测平台实现低成本可解释性的工程实践。
本文精选了10个备受开发者喜爱的开源GitHub仓库,涵盖实时分析、嵌入式SQL、缓存、监控、复制、AI代理内存等现代数据库工具,包括ClickHouse、DuckDB、Supabase、Redis、Prometheus、Vitess、LiteFS、OpenViking、pgAdmin和Adminer,适合开发者、数据科学家和AI工程师。
本文详细介绍了如何利用Mimesis、pandas和NumPy生成一整年的每日温度读数,模拟季节性变化并加入设备元数据、随机噪声和网络延迟,生成逼真的物联网传感器数据集。
本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。