上下文窗口并非记忆:AI智能体开发者需要理解的关键点
本文解释了为什么大上下文窗口不等于智能体记忆,并介绍了检索、压缩和摘要技术如何在智能体的认知栈中协同工作,从而实现真正的记忆持久化。
- 上下文窗口是临时工作区,不是持久记忆,模型是无状态的。
- 检索增强生成(RAG)可能引入矛盾,需要时间戳优先级解决。
来源详情
AI News Hub 持续跟踪 Machine Learning Mastery 的 AI 更新,并公开来源状态、授权边界、抓取方式和已发布文章。
Machine learning education and applied AI source; summary-only unless authorization is obtained.
本文解释了为什么大上下文窗口不等于智能体记忆,并介绍了检索、压缩和摘要技术如何在智能体的认知栈中协同工作,从而实现真正的记忆持久化。
本文介绍了如何结合大语言模型嵌入和HDBSCAN密度聚类算法,构建文本聚类管道,自动发现未标注文本数据中的主题。包括使用预训练模型生成嵌入、UMAP降维、HDBSCAN聚类及可视化。
本文介绍了如何使用Playwright、browser-use和LangGraph在Python中构建能浏览和操作真实网站的AI代理。文章涵盖了Playwright相较于Selenium的优势(持久WebSocket连接、内置浏览器二进制、自动等待等)、环境搭建步骤、动态页面抓取、多步骤表单填写、反爬虫处理、会话持久化以及Docker部署。通过实际代码示例,读者将学会构建一个能导航网站、填写表单、提取结构化数据并通过LLM决策的浏览器代理。
学习如何使用Scikit-LLM和Groq API提供的开源大语言模型构建情感分析管道,包括设置、数据集准备、管道构建和评估,在IMDB数据集上达到95%的准确率。
从编写本地实验脚本到构建可扩展的生产级AI系统,需要转变Python编写方式。本文介绍五种关键Python概念:生成器与惰性求值、上下文管理器、异步编程、数据类与Pydantic、魔术方法,帮助工程师管理内存、硬件资源、并发API调用和类型安全。
本文介绍如何利用Scikit-LLM和大型语言模型,无需标注数据即可实现多标签文本分类。通过整合Groq提供的免费开源LLM,采用零样本推理方式,并基于真实数据集go_emotions演示情感多标签分类。步骤包括库安装、API配置、分类器初始化、数据集加载及预测执行,展示一条文本可同时获得多个情感标签。
本文介绍了如何使用Transformers.js在浏览器中构建多模态AI应用,包括图像分类、图像描述和语音转录。所有模型完全在客户端运行,无需服务器或API密钥,保护用户隐私。文章提供了详细的代码示例和项目结构,指导开发者一步步实现。
AgentOps是自主AI代理在生产环境中的运维框架,涵盖可观测性、评估、成本治理、安全防护和持续改进五大支柱。本文介绍了AgentOps与传统LLM监控的区别、工具生态系统、一个完整的工作代码示例,以及如何通过会话回放调试代理故障。
本文介绍如何通过Ollama和Scikit-LLM Python库,免费使用本地托管的开源大语言模型(如Llama 3、Mistral和Gemma)进行文本分类任务。
本文比较了三种文本分类方法:TF-IDF 结合逻辑回归、零样本 BART 以及使用 Groq LLM 的 Scikit-LLM。在一个合成客户支持数据集上,Scikit-LLM 准确率最高(87%),延迟低于 BART,特别适用于数据量小且需要深度语言理解的任务。
本文提供了一个结构化的六步LLMOps路线图,涵盖可观测性、评估、成本控制和代理编排,帮助您构建生产级LLM系统。预计LLMOps市场将从2024年的19.7亿美元增长到2028年的49亿美元,复合年增长率为42%。
本文介绍了如何为长期运行的AI代理实现上下文修剪管道,通过语义相似度动态管理对话记忆,降低成本并提高效率。涵盖了使用句子变换器嵌入模型计算相似度、构建修剪后的上下文窗口等步骤。
本文深入探讨了大语言模型中logits、温度和top-p采样如何协同工作以控制下一个令牌的预测。文章详细解释了logits的来源、温度和top-p对概率分布的影响,以及它们如何构成一个顺序管道来生成LLM输出。最后,提供了如何根据实际应用场景选择温度和top-p值的建议。
本文展示了如何将一个基础的工具调用脚本转变为一个能够优雅处理工具失败、模型输出错误和服务不可用等问题的弹性智能体。涵盖了迭代式智能体循环、四种不同的错误恢复模式以及如何设计信息丰富的错误消息以帮助模型自我纠正。
本文介绍了如何在检索增强生成(RAG)系统中构建混合搜索策略,结合BM25词汇搜索与语义搜索,并通过互惠排名融合(RRF)合并排名。详细说明了Python实现步骤,包括数据集加载、BM25和语义搜索函数的编写,以及混合搜索的整合。实验表明,混合搜索在小型数据集上也能取得合理结果,优于单独使用任一方法。
本文介绍如何构建一个结合嵌入相似性与结构化元数据过滤的上下文感知语义搜索引擎,涵盖从生成嵌入到持久化索引的全过程。
非确定性代理是指相同输入可能产生不同输出的代理。本文探讨了如何通过统计护栏来管理和评估这些代理的行为,确保其可靠性和安全性。
本文以初学者、中级和高级三个层次解释代理型RAG(检索增强生成)的概念。它介绍了基础原理、架构设计以及在实际应用中的优势与挑战,帮助读者根据自身水平理解这一新兴技术。
谷歌推出TurboQuant,一种用于大语言模型和向量搜索引擎的新型算法套件和库,旨在实现先进的量化与压缩,是RAG系统的关键组件。
学习如何使用Pydantic AI框架在Python中构建生产级的AI代理,涵盖结构化输出、自定义工具和依赖注入,以及Web搜索和扩展推理等内置功能。
本文深入探讨了AI代理的上下文工程,强调将上下文窗口视为有限资源,并系统性地处理静态与动态上下文、历史管理、检索预算及生产环境下的质量评估,以提高代理的可靠性、成本效益和准确性。
本文介绍如何使用Scikit-LLM库中的文本摘要功能,通过构建自定义转换器集成Hugging Face的预训练摘要模型,并将其嵌入scikit-learn流水线中,实现从长文本到分类的端到端流程。
本文介绍了如何在自己的计算机上使用小型语言模型(SLM)构建完全本地运行的AI代理,无需互联网连接或API费用。涵盖AI代理和SLM的概念、本地运行的优势、Ollama和LangChain的设置、逐步构建代理以及添加记忆和工具的方法,并讨论了SLM的局限性。
本文详细介绍了如何使用 FastAPI 构建一个 Scikit-learn 机器学习模型的推理 API。从项目设置、模型训练、本地测试到云端部署,完整地演示了将乳腺癌分类器转化为可调用 API 的过程。
本文从三个难度级别解释AI代理记忆:无状态LLM代理的根本记忆问题,主要记忆类型(上下文内记忆和外部记忆),以及可扩展架构(包括写入策略、检索方法、衰减处理和多方代理一致性)。为构建能随时间改进的代理提供实用见解。
零样本文本分类允许在没有任务特定训练数据的情况下对文本进行标记,通过将标签转化为自然语言陈述并使用预训练模型判断文本是否支持该陈述。本文介绍了其工作原理、使用facebook/bart-large-mnli模型进行单标签和多标签分类的方法,以及如何通过自定义假设模板提高性能。