AI News HubLIVE
公开文章 26采集文章 28可信度 76刷新频率 120 分钟
健康状态 健康来源类型 社区原文权限 站内改写最近入库 2026-06-24ID machine-learning-mastery运行状态 已启用

Machine learning education and applied AI source; summary-only unless authorization is obtained.

最新公开文章

上下文窗口并非记忆:AI智能体开发者需要理解的关键点

本文解释了为什么大上下文窗口不等于智能体记忆,并介绍了检索、压缩和摘要技术如何在智能体的认知栈中协同工作,从而实现真正的记忆持久化。

  • 上下文窗口是临时工作区,不是持久记忆,模型是无状态的。
  • 检索增强生成(RAG)可能引入矛盾,需要时间戳优先级解决。
站内正文

使用LLM嵌入和HDBSCAN对非结构化文本进行聚类

本文介绍了如何结合大语言模型嵌入和HDBSCAN密度聚类算法,构建文本聚类管道,自动发现未标注文本数据中的主题。包括使用预训练模型生成嵌入、UMAP降维、HDBSCAN聚类及可视化。

  • 使用sentence-transformers生成文本嵌入
  • 通过UMAP将嵌入降维至5维
站内正文

用Python构建能使用浏览器的AI代理

本文介绍了如何使用Playwright、browser-use和LangGraph在Python中构建能浏览和操作真实网站的AI代理。文章涵盖了Playwright相较于Selenium的优势(持久WebSocket连接、内置浏览器二进制、自动等待等)、环境搭建步骤、动态页面抓取、多步骤表单填写、反爬虫处理、会话持久化以及Docker部署。通过实际代码示例,读者将学会构建一个能导航网站、填写表单、提取结构化数据并通过LLM决策的浏览器代理。

  • Playwright通过持久WebSocket连接实现比Selenium快30-50%的浏览器操作,并内置自动等待和真实鼠标/键盘事件。
  • 环境搭建仅需Python 3.10+、OpenAI API密钥和几个pip安装命令,包括Playwright浏览器二进制文件。
站内正文

使用Scikit-LLM构建端到端情感分析管道

学习如何使用Scikit-LLM和Groq API提供的开源大语言模型构建情感分析管道,包括设置、数据集准备、管道构建和评估,在IMDB数据集上达到95%的准确率。

  • Scikit-LLM弥合了经典scikit-learn管道与现代LLM API调用之间的差距
  • 通过Groq API使用Llama 3.1 8B等开源模型进行零样本分类
站内正文

每位AI工程师必须掌握的Python概念

从编写本地实验脚本到构建可扩展的生产级AI系统,需要转变Python编写方式。本文介绍五种关键Python概念:生成器与惰性求值、上下文管理器、异步编程、数据类与Pydantic、魔术方法,帮助工程师管理内存、硬件资源、并发API调用和类型安全。

  • 生成器通过惰性求值实现常数量内存开销的数据流处理,如处理5万条JSONL记录时内存从25MB降至14MB。
  • 上下文管理器通过with语句自动管理资源,避免泄漏,例如自定义InferenceProfiler安全切换模型模式并记录延迟。
站内正文

使用Scikit-LLM进行多标签文本分类

本文介绍如何利用Scikit-LLM和大型语言模型,无需标注数据即可实现多标签文本分类。通过整合Groq提供的免费开源LLM,采用零样本推理方式,并基于真实数据集go_emotions演示情感多标签分类。步骤包括库安装、API配置、分类器初始化、数据集加载及预测执行,展示一条文本可同时获得多个情感标签。

  • Scikit-LLM封装LLM,支持零样本多标签分类,无需训练数据。
  • 使用Groq免费API和llama-3.3-70b-versatile模型进行推理。
站内正文

使用Transformers.js在浏览器中实现图像与语音的多模态AI

本文介绍了如何使用Transformers.js在浏览器中构建多模态AI应用,包括图像分类、图像描述和语音转录。所有模型完全在客户端运行,无需服务器或API密钥,保护用户隐私。文章提供了详细的代码示例和项目结构,指导开发者一步步实现。

  • 浏览器内实现多模态AI:图像分类、图像描述和语音转录。
  • 使用Transformers.js,模型在客户端运行,数据不离开设备。
站内正文

AgentOps实践指南

AgentOps是自主AI代理在生产环境中的运维框架,涵盖可观测性、评估、成本治理、安全防护和持续改进五大支柱。本文介绍了AgentOps与传统LLM监控的区别、工具生态系统、一个完整的工作代码示例,以及如何通过会话回放调试代理故障。

  • AgentOps为自主AI代理提供运维支撑,确保行为可解释、可测量并与业务目标一致。
  • AgentOps的五大支柱:可观测性、评估、成本治理、安全防护和持续改进。
站内正文

使用Scikit-LLM与开源大语言模型

本文介绍如何通过Ollama和Scikit-LLM Python库,免费使用本地托管的开源大语言模型(如Llama 3、Mistral和Gemma)进行文本分类任务。

  • 安装Ollama并下载开源模型到本地运行。
  • 配置Scikit-LLM将请求路由到本地Ollama端点。
站内正文

Scikit-LLM 与传统文本分类器:何时应使用 LLM?

本文比较了三种文本分类方法:TF-IDF 结合逻辑回归、零样本 BART 以及使用 Groq LLM 的 Scikit-LLM。在一个合成客户支持数据集上,Scikit-LLM 准确率最高(87%),延迟低于 BART,特别适用于数据量小且需要深度语言理解的任务。

  • TF-IDF + 逻辑回归最快但准确率最低(约 53%)
  • 零样本 BART 较慢,准确率中等(约 67%)
站内正文

掌握LLMOps的路线图:2026年指南

本文提供了一个结构化的六步LLMOps路线图,涵盖可观测性、评估、成本控制和代理编排,帮助您构建生产级LLM系统。预计LLMOps市场将从2024年的19.7亿美元增长到2028年的49亿美元,复合年增长率为42%。

  • LLMOps与传统MLOps不同,重点在于提示版本控制、非确定性输出评估和成本优化。
  • 在开始LLMOps工具之前,需要掌握Python、LLM基础、云基础设施和版本控制。
站内正文

为长期运行代理构建上下文修剪管道

本文介绍了如何为长期运行的AI代理实现上下文修剪管道,通过语义相似度动态管理对话记忆,降低成本并提高效率。涵盖了使用句子变换器嵌入模型计算相似度、构建修剪后的上下文窗口等步骤。

  • 长期运行的AI代理面临对话历史无限增长的问题,导致令牌成本高和推理性能下降。
  • 上下文修剪管道通过保留当前提示、最近对话轮次和语义相似的历史轮次来优化上下文。
站内正文

令牌选择的统计:Logits、温度与Top-P详解

本文深入探讨了大语言模型中logits、温度和top-p采样如何协同工作以控制下一个令牌的预测。文章详细解释了logits的来源、温度和top-p对概率分布的影响,以及它们如何构成一个顺序管道来生成LLM输出。最后,提供了如何根据实际应用场景选择温度和top-p值的建议。

  • Logits是神经网络最后一层输出的原始未归一化分数,经过softmax转换为概率分布。
  • 温度参数通过缩放logits来调整概率分布的平坦度,高温度增加创意性,低温度增加确定性。
站内正文

构建具备错误恢复能力的多工具Gemma 4智能体

本文展示了如何将一个基础的工具调用脚本转变为一个能够优雅处理工具失败、模型输出错误和服务不可用等问题的弹性智能体。涵盖了迭代式智能体循环、四种不同的错误恢复模式以及如何设计信息丰富的错误消息以帮助模型自我纠正。

  • 学习构建带迭代次数安全上限的智能体循环。
  • 掌握智能体调用工具时遇到的四种失败类别及处理方法。
站内正文

在RAG中实现混合语义-词汇搜索

本文介绍了如何在检索增强生成(RAG)系统中构建混合搜索策略,结合BM25词汇搜索与语义搜索,并通过互惠排名融合(RRF)合并排名。详细说明了Python实现步骤,包括数据集加载、BM25和语义搜索函数的编写,以及混合搜索的整合。实验表明,混合搜索在小型数据集上也能取得合理结果,优于单独使用任一方法。

  • 混合搜索结合BM25词汇搜索和语义搜索,弥补各自的盲点。
  • 使用互惠排名融合(RRF)将两种搜索的排名结果合并。
站内正文

使用LLM嵌入与元数据在Python中构建上下文感知搜索

本文介绍如何构建一个结合嵌入相似性与结构化元数据过滤的上下文感知语义搜索引擎,涵盖从生成嵌入到持久化索引的全过程。

  • 利用sentence-transformers生成384维嵌入向量
  • 在评分之前先进行元数据过滤以提高效率
站内正文

为非确定性代理实施统计护栏

非确定性代理是指相同输入可能产生不同输出的代理。本文探讨了如何通过统计护栏来管理和评估这些代理的行为,确保其可靠性和安全性。

  • 非确定性代理的输入相同但输出可能不同。
  • 统计护栏用于监控代理行为,防止异常输出。
站内正文

代理型RAG:按三个难度级别解释

本文以初学者、中级和高级三个层次解释代理型RAG(检索增强生成)的概念。它介绍了基础原理、架构设计以及在实际应用中的优势与挑战,帮助读者根据自身水平理解这一新兴技术。

  • 代理型RAG结合了检索系统和生成模型,能够自主选择何时检索外部知识。
  • 文章从三个难度级别逐步深入:简单类比、技术实现和前沿研究。
站内正文

有效KV压缩:TurboQuant

谷歌推出TurboQuant,一种用于大语言模型和向量搜索引擎的新型算法套件和库,旨在实现先进的量化与压缩,是RAG系统的关键组件。

  • TurboQuant是谷歌推出的新算法和库,用于LLM和向量搜索引擎的量化与压缩。
  • 它针对RAG系统中的向量搜索进行了优化,提升效率。
站内正文

使用Pydantic AI在Python中构建AI代理

学习如何使用Pydantic AI框架在Python中构建生产级的AI代理,涵盖结构化输出、自定义工具和依赖注入,以及Web搜索和扩展推理等内置功能。

  • 定义Pydantic模型以实现类型安全的代理输出,框架自动验证并重试。
  • 使用@agent.tool_plain或@agent.tool注册Python函数作为可调用工具。
站内正文

AI代理有效上下文工程:开发者指南

本文深入探讨了AI代理的上下文工程,强调将上下文窗口视为有限资源,并系统性地处理静态与动态上下文、历史管理、检索预算及生产环境下的质量评估,以提高代理的可靠性、成本效益和准确性。

  • 上下文窗口应视为受约束的资源,需平衡财务与认知成本。
  • 分离静态和动态上下文,利用前缀缓存优化性能。
站内正文

使用Scikit-LLM进行文本摘要

本文介绍如何使用Scikit-LLM库中的文本摘要功能,通过构建自定义转换器集成Hugging Face的预训练摘要模型,并将其嵌入scikit-learn流水线中,实现从长文本到分类的端到端流程。

  • Scikit-LLM桥接传统机器学习与大语言模型,提供零样本和少样本分类及文本摘要功能。
  • 自定义HuggingFaceSummarizer类继承自BaseEstimator和TransformerMixin,可加载预训练摘要模型并生成摘要。
站内正文

使用本地小语言模型构建AI代理

本文介绍了如何在自己的计算机上使用小型语言模型(SLM)构建完全本地运行的AI代理,无需互联网连接或API费用。涵盖AI代理和SLM的概念、本地运行的优势、Ollama和LangChain的设置、逐步构建代理以及添加记忆和工具的方法,并讨论了SLM的局限性。

  • AI代理是使用语言模型进行推理和决策的程序,比普通聊天机器人更强大。
  • 小型语言模型(如Phi-3、Mistral 7B)可在标准硬件上运行,提供隐私和零成本。
站内正文

使用 FastAPI 训练、部署和使用 Scikit-learn 模型

本文详细介绍了如何使用 FastAPI 构建一个 Scikit-learn 机器学习模型的推理 API。从项目设置、模型训练、本地测试到云端部署,完整地演示了将乳腺癌分类器转化为可调用 API 的过程。

  • 使用 FastAPI 快速构建轻量级机器学习模型 API
  • 完整流程包括项目结构、模型训练、本地测试与云部署
站内正文

AI代理记忆的三级难度解析

本文从三个难度级别解释AI代理记忆:无状态LLM代理的根本记忆问题,主要记忆类型(上下文内记忆和外部记忆),以及可扩展架构(包括写入策略、检索方法、衰减处理和多方代理一致性)。为构建能随时间改进的代理提供实用见解。

  • 无状态LLM代理没有持久记忆,使多步任务和个性化变得困难。
  • 上下文内记忆利用上下文窗口处理当前状态;外部记忆通过检索(向量搜索、结构化查询)实现持久存储。
站内正文

零样本文本分类入门

零样本文本分类允许在没有任务特定训练数据的情况下对文本进行标记,通过将标签转化为自然语言陈述并使用预训练模型判断文本是否支持该陈述。本文介绍了其工作原理、使用facebook/bart-large-mnli模型进行单标签和多标签分类的方法,以及如何通过自定义假设模板提高性能。

  • 零样本分类将标签转化为自然语言陈述,通过推理判断文本是否支持该陈述。
  • 使用Hugging Face pipeline和预训练模型可以轻松实现零样本文本分类。
站内正文

全部来源