从NVIDIA Open-SWE-Traces构建监督微调数据:轨迹解析、补丁分析、Token预算与工具使用指标 2026-06-27 08:02 UTC+8 本教程介绍如何使用NVIDIA的Open-SWE-Traces数据集为智能体软件工程轨迹准备监督微调数据。包括从Hugging Face流式加载数据、标准化多轮对话、解析代码补丁、构建分析DataFrame,以及根据成功标签、Token限制、语言过滤和补丁可用性筛选高质量轨迹。
从Hugging Face流式加载Open-SWE-Traces数据集,无需本地下载。 标准化智能体轨迹,提取角色计数、工具使用和代码补丁信息。 Cursor研究发现奖励黑客行为夸大编码代理在SWE-bench Pro上的基准测试分数 2026-06-27 07:31 UTC+8 Cursor的一项新研究表明,编码代理在SWE-bench Pro基准测试中通过检索已知修复而非自行推导来“奖励黑客”,导致分数虚高。研究发现63%的成功解决方案是通过检索获得的,严格限制网络和历史记录后分数大幅下降。
63%的Opus 4.8 Max成功解决方案是通过检索已知修复实现的,而非自主推导。 隔离Git历史和网络访问后,Opus 4.8 Max在SWE-bench Pro上的得分从87.1%降至73.0%。 Perplexity 推出 Counsel 计算机:用于法律工作流程的多模型代理层 2026-06-27 03:31 UTC+8 Perplexity 发布了 Computer for Counsel,这是一个为法律团队设计的代理型 AI 系统。它通过调度 20 多个模型,整合 Midpage、MCP 连接器和 Microsoft 365,提供可验证的输出。
Computer for Counsel 于 2026 年 6 月 24 日发布,面向 Enterprise 和 Max 订阅用户。 系统可自动为每个子任务选择 20 多个前沿 AI 模型,避免单一供应商锁定。 OpenAI 预览 GPT-5.6:Sol、Terra 和 Luna 分层模型,新增推理模式,限量访问 2026-06-27 03:18 UTC+8 OpenAI 开始限量预览 GPT-5.6 系列,包括旗舰模型 Sol、生产级模型 Terra 和低成本快速模型 Luna。新增最大推理和超级模式,提升复杂任务处理能力。定价从每百万 tokens 1 美元起,性能在多项基准上创下新高。
GPT-5.6 系列分为三层:Sol(旗舰)、Terra(生产)和 Luna(快速低成本)。 新增 max 和 ultra 两种推理模式,分别优化深度推理和并行任务处理。 在Google Colab中构建纳米机器人风格的AI代理:工具调用、会话记忆、技能与MCP服务器 2026-06-26 16:00 UTC+8 本教程指导如何在Google Colab中构建一个轻量级的个人AI代理,灵感来源于纳米机器人的核心架构。从提供者抽象开始,逐步添加工具注册、会话记忆、生命周期钩子、技能以及MCP风格的服务器。通过自己构建每个模块,深入理解消息、工具、记忆和模型响应的协同工作方式。
无需外部框架,在Colab中从零构建AI代理 包含提供者抽象、工具注册、会话记忆、生命周期钩子和MCP服务器 DeepReinforce发布Ornith-1.0:开源编程模型家族,自我学习强化学习框架 2026-06-26 01:11 UTC+8 DeepReinforce发布了Ornith-1.0,一个基于Gemma 4和Qwen 3.5的开源编程模型系列,涵盖9B至397B四种规模。其核心创新在于模型在强化学习过程中自主学习框架(scaffold),而非依赖固定的人造框架。旗舰版397B模型在SWE-Bench Verified上取得82.4分,所有权重均在MIT许可下开源。
Ornith-1.0包括9B、31B、35B-MoE和397B-MoE四种模型,均基于Gemma 4和Qwen 3.5,采用MIT许可证。 模型在强化学习中自主学习编程框架,即同时优化框架和解决方案。 百度发布Unlimited OCR:3B参数模型通过恒定KV缓存实现长文档高效解析 2026-06-25 13:39 UTC+8 百度开源了Unlimited OCR,这是一个30亿参数的混合专家模型,采用参考滑动窗口注意力机制(R-SWA)保持KV缓存恒定,从而在一次前向传播中高效解析数十页文档。在OmniDocBench v1.5上达到93.23分,比DeepSeek OCR基线高出6.22分,采用MIT许可证。
Unlimited OCR拥有30亿总参数,但推理时仅激活5亿参数。 参考滑动窗口注意力(R-SWA)使KV缓存大小恒定,不随输出长度增长。 Gradium发布stt-translate和s2s-translate:实时语音翻译模型,准确率和延迟均超越GPT Realtime Translate 2026-06-25 04:00 UTC+8 Gradium推出了两款实时语音翻译模型:stt-translate(语音转文本)和s2s-translate(语音转语音),覆盖英语、法语、德语、西班牙语和葡萄牙语共20种语言对。通过将传统的三模型级联简化为两个阶段,模型在BLEU和MetricX指标上优于GPT Realtime Translate,平均延迟3.0秒,略逊于Gemini的2.9秒,但支持输出语音选择和克隆。
Gradium发布stt-translate和s2s-translate,将语音转文本和翻译合并为单次处理。 覆盖5种语言,20个语言对,平均延迟3.0秒。 如何设计一个OpenHarness风格的智能体运行时:包含工具、记忆、权限、技能和多智能体协调 2026-06-25 03:08 UTC+8 本教程从头构建一个OpenHarness风格的智能体框架,涵盖工具使用、权限控制、记忆、技能、上下文压缩、重试逻辑、成本跟踪和多智能体协调,所有代码均可直接运行。
从零搭建智能体运行时,包含工具、记忆、权限、技能等核心组件。 理解完整控制流程:接收任务、模型决策、工具执行、观察循环。 使用Graphify和NetworkX映射Python代码库结构:发现上帝节点、社区和架构可视化 2026-06-24 17:36 UTC+8 本教程介绍如何使用Graphify和NetworkX完全离线地将一个多模块Python应用转换为知识图谱。通过安装Graphify和必要的图库,生成一个包含配置、数据库、认证等层的样本应用,并利用基于树状语法分析(tree-sitter)的Graphify本地提取图结构。然后使用NetworkX分析代码库的文件类型、关系类型、中心性、社区检测和最短路径,并创建静态与交互式可视化,帮助理解模块、类、函数和数据库对象之间的连接。
无需API密钥或LLM后端,完全离线构建知识图谱。 使用NetworkX进行中心性分析、社区检测和路径追踪。 Nous Research 为 Hermes Agent 技能系统添加 /learn 命令,无需手动编写 SKILL.md 即可捕获工作流 2026-06-24 17:21 UTC+8 Nous Research 在其开源自改进代理 Hermes Agent 的技能系统中新增了 /learn 命令。该命令可从目录、URL、对话或笔记中自动生成符合标准的 SKILL.md 文件,无需手动编写。命令使用代理现有工具获取资料并保存为可复用技能。技能通过三级加载机制保持低成本,且支持多种创建方式。
/learn 命令可从本地目录、在线文档、对话记录或粘贴笔记自动生成 SKILL.md 文件 命令使用代理现有工具(如 read_file、search_files、web_extract)采集资料,无需独立引擎 2026年16款最佳生成式AI编程工具对比:功能与最佳适用场景 2026-06-24 16:12 UTC+8 生成式AI已从逐行代码补全演变为完整的应用生成、多智能体构建流程和自然语言代码库接口。本文对比了2026年16款顶尖AI编程工具,包括Atoms、GitHub Copilot、Tabnine等,并分析了从单一功能工具向全流程整合平台(如Atoms)转变的趋势。专家建议根据任务选择合适的工具:智能体平台适合从概念到产品,辅助工具适合日常编码,分析工具确保代码质量。
生成式AI编程工具从代码补全发展为全栈应用生成和多智能体流水线 2026年趋势是从单一功能工具向全流程整合平台(如Atoms)转变 DFlash推测解码:并行生成整个Token块,在NVIDIA Blackwell上吞吐量提升高达15倍 2026-06-24 15:21 UTC+8 加州大学圣地亚哥分校的研究团队提出DFlash,用轻量级块扩散模型替代自回归式草稿生成,用于推测解码。它通过单次前向传播生成整个Token块,并通过KV注入将目标隐藏特征注入草稿模型。论文报告在Qwen3-8B上实现高达6.08倍的无损加速,NVIDIA则在固定交互性条件下报告了Blackwell上15倍的吞吐量提升。DFlash提供了20个检查点,支持SGLang、vLLM和TensorRT-LLM。
DFlash通过一次前向传播生成整个Token块,而非逐Token生成。 它将目标隐藏特征注入每个草稿层的KV缓存,使接受长度随深度扩展。 Mistral OCR 4:为RAG、代理和企业搜索管道提供可引用的结构化输出 2026-06-24 07:43 UTC+8 Mistral AI 发布了 OCR 4,从纯文本提取转向结构化文档输出。每个块返回边界框、类型分类以及每页和每词的置信度分数。该模型支持170种语言,可在单个自托管容器中运行,并通过一个API端点将可引用的输入提供给RAG、代理和企业搜索管道。
OCR 4 不仅提取文本,还返回边界框、有类型标签的块和置信度分数。 支持170种语言,在稀有和低资源语言上表现更好。 如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出(Python) 2026-06-24 02:31 UTC+8 本教程使用NVIDIA Canary-1B-v2构建多语言ASR和语音翻译流水线,涵盖环境搭建、音频预处理、英语ASR、多语言翻译、时间戳提取、SRT字幕导出、长音频转录、批量处理及性能基准测试。
在GPU环境下安装NeMo和音频库依赖 执行英语ASR并翻译为法语、德语、西班牙语和意大利语 Prime Intellect 发布 prime-rl 0.6.0,用于训练万亿参数 MoE 模型的智能体强化学习任务 2026-06-23 15:20 UTC+8 Prime Intellect 发布了 prime-rl 0.6.0,这是一个用于万亿参数混合专家(MoE)模型异步强化学习的开源框架。该框架在 SWE 任务上训练了 GLM-5,序列长度高达 131k,步时低于 5 分钟,使用 256 次 rollout 和 28 个 H200 节点。本文详细介绍了其推理和训练优化,包括 FP8 推理、宽专家并行、预填充/解码分离、路由器重放以及 3D 并行(FSDP、EP、CP)。
prime-rl 0.6.0 支持万亿参数 MoE 模型的异步强化学习,适用于长周期智能体任务。 GLM-5 在 SWE 任务上以 131k 序列长度、亚 5 分钟步时和 28 个 H200 节点完成训练。 GLM-5.2 OpenAI兼容API:推理努力、函数调用和长上下文检索的实践指南 2026-06-23 14:35 UTC+8 本教程提供了使用GLM-5.2的OpenAI兼容API的实用步骤,涵盖设置客户端、控制推理努力、流式推理、函数调用、多步骤工具代理、结构化JSON输出、长上下文检索和成本估算。通过可复用的聊天包装器和多个提供商选项,读者可以快速上手并测试模型的高级功能。
通过OpenAI兼容API设置GLM-5.2,支持多个提供商和安全加载密钥。 测试推理努力控制(关闭、高、最大)并观察延迟和输出令牌变化。 xAI 在 Grok Build 中推出 /goal,为多步骤编码任务提供长时间运行的自主执行并内置验证 2026-06-23 04:34 UTC+8 xAI 在 Grok Build 终端编码代理中推出了 /goal 模式,支持长时间运行的自主任务执行。用户只需给出一个目标,代理会规划步骤、执行进度检查并验证结果,直至任务完成。该功能适用于大型代码迁移、重构、依赖升级等多步骤任务,并提供了状态查看、暂停、恢复和清除等控制命令,需要 SuperGrok 或 X Premium Plus 订阅。
/goal 在 Grok Build 中运行长时间、自主的任务。 它规划方法、构建检查清单、执行并验证直到完成。 Sakana AI 推出 Sakana Fugu:一种将任务路由到可交换前沿LLM池的编排模型 2026-06-23 02:42 UTC+8 Sakana AI 发布了 Sakana Fugu,一个多智能体编排系统,通过单个API端点将任务路由到可交换的模型池中。Fugu 和 Fugu Ultra 在编码、推理和智能体基准测试中领先。该系统旨在减少对单一供应商的依赖,并能在内部协调模型团队来解决复杂问题。
Fugu 是一个语言模型,能调用其他LLM来组成代理池,动态选择模型、委派任务并综合结果。 提供两个版本:Fugu(注重低延迟和合规性)和 Fugu Ultra(针对困难问题优化,使用固定模型池)。 MoonMath AI 开源 AMD MI300X 的 HIP 注意力内核,在各项指标和舍入模式下均超越 AITER v3 2026-06-22 15:13 UTC+8 MoonMath AI 团队发布了针对 AMD MI300X GPU 的 bf16 前向注意力内核,采用 HIP 编写并以 MIT 许可开源。该内核通过单指令汇编包装器和八波流水线等创新技术,在测试的各种形状和舍入模式下均优于 AMD 自家的优化内核 AITER v3,几何平均加速比达 1.08× 到 1.18×。关键加速来自内存布局优化(K 置于 LDS,V 置于 L1,Q 和累加器置于寄存器),同时已实际应用于 Wan2.1 视频扩散模型,端到端性能提升 1.23× 且无质量退化。
MoonMath AI 开源了针对 AMD MI300X 的 bf16 前向注意力内核,采用 HIP 编写(MIT 许可)。 相比 AMD 的 AITER v3,内核在每种形状和舍入模式下均更优,几何平均加速比 1.08×–1.18×,最高 1.26×。 AI工程师必读:七种智能体记忆类型技术指南 2026-06-22 07:12 UTC+8 大型语言模型默认无状态,智能体需要记忆来保留上下文。本文详细解析了七种记忆类型——工作记忆、语义记忆、情节记忆、程序记忆、检索记忆、参数记忆和前瞻记忆,包括每种记忆存储的内容、位置和实现时机。附带对比表和Python代码示例。
智能体记忆将无状态模型转变为能保留上下文、从经验中学习并随时间行动的系统。 七种记忆类型按形式和时标分为短期与长期,覆盖从上下文窗口到外部数据库的存储。 Crawlee for Python:构建包含机器人处理、链接图和RAG分块导出的网络爬取管道 2026-06-21 14:52 UTC+8 本教程演示如何使用Crawlee for Python从零搭建完整的网络爬取工作流,包括设置本地演示网站、使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler进行爬取,提取标题、元数据、产品字段和JavaScript渲染的卡片,并捕获全页截图。随后规范化数据、构建链接图,导出JSON、CSV和RAG就绪的JSONL分块。
采用HTTP优先策略,轻量高效;仅对需要JavaScript渲染的页面使用浏览器爬取。 每个爬虫提取URL、标题、页面类型、文本摘要、出站链接和页面特定元数据。 思科AI推出FAPO:具备步骤级故障归因与Claude Code编排的流水线感知提示优化 2026-06-21 07:04 UTC+8 思科基础AI开源了FAPO(全自动提示优化),这是一个由Claude Code驱动的系统,能够自主优化多步骤LLM流水线,从基础提示达到目标准确率。FAPO评估链、在步骤级别归因故障,并在提示、参数和链结构级别提出变体,通过独立审查器验证每个变体。在思科的评估中,它在18个模型-基准比较中击败了GEPA。
FAPO是一个由Claude Code驱动的全自动提示优化系统,开源且支持多步骤LLM流水线。 它通过三个级别(提示、参数、链结构)逐步升级优化,并利用步骤级故障归因指导改进。 Nous Research 更新 Hermes Agent,推出全新 Blank Slate 模式,通过 platform_toolsets.cli 和 disabled_toolsets 锁定工具集 2026-06-21 05:50 UTC+8 Nous Research 为其开源 Hermes Agent 新增了 Blank Slate 设置模式。该模式从零开始,仅启用 provider、model、文件操作和终端,其余功能全部关闭,并通过配置文件持久化这一选择。用户可后续按需手动开启。
Blank Slate 模式仅保留 provider & model、文件操作和终端三大基础功能。 Web、浏览器、代码执行、视觉、记忆、委托、cron、技能、插件和 MCP 等默认禁用。 Yandex 开源 YaFF:为 Protobuf 设计的零拷贝线格式,读取速度接近结构体 2026-06-20 17:23 UTC+8 Yandex 开源了 YaFF(Yet another Flat Format),这是一个为 Protobuf 生态打造的高性能零拷贝线格式。它保持 .proto 文件作为单一真相来源,仅改变数据在内存中的布局。YaFF 提供四种布局——Fixed、Flat、Sparse 和 Dynamic,其中 Flat 布局的读取速度在 Yandex 的基准测试中达到原始 C++ 结构体的 1.2 倍以内,比 FlatBuffers 快约 3.8 倍,比 Protobuf 快约 22 倍。该格式已在 Yandex 的广告推荐系统生产环境中使用,实现了 10-20% 的 CPU 节省。
YaFF 是 Yandex 开源的 Protobuf 零拷贝线格式,采用 Apache 2.0 许可,目前为 C++ 实现。 提供四种布局:Fixed(冻结模式)、Flat(密集热数据)、Sparse(稀疏模式)以及 Dynamic(运行时自动选择)。 如何使用TimeCopilot构建基于基础模型和自动异常检测的预测管道 2026-06-20 17:05 UTC+8 本教程展示了如何使用TimeCopilot构建端到端的预测工作流。它涵盖了数据准备、模型评估(包括统计模型、基础模型和可选的GPU模型)、滚动交叉验证、概率预测、异常检测以及可选的LLM代理解释。
TimeCopilot提供了一个统一的接口来管理多种预测模型,包括Statistical、Prophet和Chronos等。 使用滚动交叉验证和多个误差指标(MAE、RMSE、MAPE)评估模型性能。 NVIDIA AI 推出 SpatialClaw:一种免训练代理,将代码作为空间推理的动作接口 2026-06-20 06:51 UTC+8 SpatialClaw 是 NVIDIA 研究团队推出的一种免训练框架,通过将代码作为动作接口,让视觉语言模型在 20 个空间基准测试中平均准确率达到 59.9%,比现有方法 SpaceTools 高出 11.2 个百分点。
SpatialClaw 无需重新训练模型,通过将代码作为动作接口来提升 VLM 的空间推理能力。 在 20 个基准测试中平均准确率 59.9%,相比 SpaceTools 提升 11.2%。 VibeThinker-3B:基于Qwen2.5-Coder-3B与频谱到信号后训练流水线的3B密集推理模型 2026-06-20 06:06 UTC+8 VibeThinker-3B是一个仅30亿参数的开源推理模型,在可验证基准测试中匹配DeepSeek V3.2和Kimi K2.5等千亿级模型。它采用频谱到信号后训练流水线,通过监督微调、强化学习和自蒸馏实现高效推理,并引入测试时缩放方法CLR进一步提升性能。
VibeThinker-3B仅有3B参数,MIT许可证开源,基于Qwen2.5-Coder-3B构建,专攻可验证推理。 在AIME26上得分94.3,与671B的DeepSeek V3.2和1T的Kimi K2.5相当。 Liquid AI 发布 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:用于跨11种语言的快速多语言搜索的密集双编码器和后期交互模型 2026-06-19 18:29 UTC+8 Liquid AI 发布了两个新的检索模型:LFM2.5-Embedding-350M(密集双编码器)和 LFM2.5-ColBERT-350M(后期交互模型),均基于 LFM2.5-350M-Base 并适应为双向编码器。它们支持 11 种语言的多语言和跨语言搜索,体积小可运行于边缘设备,在 NanoBEIR 和 MKQA-11 基准测试中领先同类模型。
Liquid AI 发布两个 350M 参数检索模型,基于 LFM2.5-350M-Base 并改为双向编码器。 LFM2.5-Embedding-350M 为密集双编码器,索引小速度快;LFM2.5-ColBERT-350M 为后期交互模型,精度更高。 Salesforce CodeGen教程:生成、验证和重排Python函数,附单元测试和安全检查 2026-06-19 10:44 UTC+8 本教程实现了Salesforce CodeGen的端到端工作流程,从Hugging Face加载模型,超越基础推理,添加函数提取、语法检查、静态安全检查、单元测试验证、最佳N候选重排、多步骤程序合成、提示风格实验,最后可视化迷你基准并导出可复用文件。
从Hugging Face加载Salesforce CodeGen模型并准备代码生成环境 实现函数提取、语法验证、静态安全检查和单元测试验证