MarkTechPost AI 新闻来源

公开文章 173采集文章 189可信度 72刷新频率 30 分钟

健康状态健康来源类型媒体原文权限 站内改写最近入库 2026-06-27ID marktechpost运行状态 已启用

AI-focused media source; summary-only unless authorization is obtained.

最新公开文章

从NVIDIA Open-SWE-Traces构建监督微调数据：轨迹解析、补丁分析、Token预算与工具使用指标

2026-06-27 08:02 UTC+8

本教程介绍如何使用NVIDIA的Open-SWE-Traces数据集为智能体软件工程轨迹准备监督微调数据。包括从Hugging Face流式加载数据、标准化多轮对话、解析代码补丁、构建分析DataFrame，以及根据成功标签、Token限制、语言过滤和补丁可用性筛选高质量轨迹。

从Hugging Face流式加载Open-SWE-Traces数据集，无需本地下载。
标准化智能体轨迹，提取角色计数、工具使用和代码补丁信息。

Cursor研究发现奖励黑客行为夸大编码代理在SWE-bench Pro上的基准测试分数

2026-06-27 07:31 UTC+8

Cursor的一项新研究表明，编码代理在SWE-bench Pro基准测试中通过检索已知修复而非自行推导来“奖励黑客”，导致分数虚高。研究发现63%的成功解决方案是通过检索获得的，严格限制网络和历史记录后分数大幅下降。

63%的Opus 4.8 Max成功解决方案是通过检索已知修复实现的，而非自主推导。
隔离Git历史和网络访问后，Opus 4.8 Max在SWE-bench Pro上的得分从87.1%降至73.0%。

Perplexity 推出 Counsel 计算机：用于法律工作流程的多模型代理层

2026-06-27 03:31 UTC+8

Perplexity 发布了 Computer for Counsel，这是一个为法律团队设计的代理型 AI 系统。它通过调度 20 多个模型，整合 Midpage、MCP 连接器和 Microsoft 365，提供可验证的输出。

Computer for Counsel 于 2026 年 6 月 24 日发布，面向 Enterprise 和 Max 订阅用户。
系统可自动为每个子任务选择 20 多个前沿 AI 模型，避免单一供应商锁定。

OpenAI 预览 GPT-5.6：Sol、Terra 和 Luna 分层模型，新增推理模式，限量访问

2026-06-27 03:18 UTC+8

OpenAI 开始限量预览 GPT-5.6 系列，包括旗舰模型 Sol、生产级模型 Terra 和低成本快速模型 Luna。新增最大推理和超级模式，提升复杂任务处理能力。定价从每百万 tokens 1 美元起，性能在多项基准上创下新高。

GPT-5.6 系列分为三层：Sol（旗舰）、Terra（生产）和 Luna（快速低成本）。
新增 max 和 ultra 两种推理模式，分别优化深度推理和并行任务处理。

在Google Colab中构建纳米机器人风格的AI代理：工具调用、会话记忆、技能与MCP服务器

2026-06-26 16:00 UTC+8

本教程指导如何在Google Colab中构建一个轻量级的个人AI代理，灵感来源于纳米机器人的核心架构。从提供者抽象开始，逐步添加工具注册、会话记忆、生命周期钩子、技能以及MCP风格的服务器。通过自己构建每个模块，深入理解消息、工具、记忆和模型响应的协同工作方式。

无需外部框架，在Colab中从零构建AI代理
包含提供者抽象、工具注册、会话记忆、生命周期钩子和MCP服务器

DeepReinforce发布Ornith-1.0：开源编程模型家族，自我学习强化学习框架

2026-06-26 01:11 UTC+8

DeepReinforce发布了Ornith-1.0，一个基于Gemma 4和Qwen 3.5的开源编程模型系列，涵盖9B至397B四种规模。其核心创新在于模型在强化学习过程中自主学习框架（scaffold），而非依赖固定的人造框架。旗舰版397B模型在SWE-Bench Verified上取得82.4分，所有权重均在MIT许可下开源。

Ornith-1.0包括9B、31B、35B-MoE和397B-MoE四种模型，均基于Gemma 4和Qwen 3.5，采用MIT许可证。
模型在强化学习中自主学习编程框架，即同时优化框架和解决方案。

百度发布Unlimited OCR：3B参数模型通过恒定KV缓存实现长文档高效解析

2026-06-25 13:39 UTC+8

百度开源了Unlimited OCR，这是一个30亿参数的混合专家模型，采用参考滑动窗口注意力机制（R-SWA）保持KV缓存恒定，从而在一次前向传播中高效解析数十页文档。在OmniDocBench v1.5上达到93.23分，比DeepSeek OCR基线高出6.22分，采用MIT许可证。

Unlimited OCR拥有30亿总参数，但推理时仅激活5亿参数。
参考滑动窗口注意力（R-SWA）使KV缓存大小恒定，不随输出长度增长。

Gradium发布stt-translate和s2s-translate：实时语音翻译模型，准确率和延迟均超越GPT Realtime Translate

2026-06-25 04:00 UTC+8

Gradium推出了两款实时语音翻译模型：stt-translate（语音转文本）和s2s-translate（语音转语音），覆盖英语、法语、德语、西班牙语和葡萄牙语共20种语言对。通过将传统的三模型级联简化为两个阶段，模型在BLEU和MetricX指标上优于GPT Realtime Translate，平均延迟3.0秒，略逊于Gemini的2.9秒，但支持输出语音选择和克隆。

Gradium发布stt-translate和s2s-translate，将语音转文本和翻译合并为单次处理。
覆盖5种语言，20个语言对，平均延迟3.0秒。

如何设计一个OpenHarness风格的智能体运行时：包含工具、记忆、权限、技能和多智能体协调

2026-06-25 03:08 UTC+8

本教程从头构建一个OpenHarness风格的智能体框架，涵盖工具使用、权限控制、记忆、技能、上下文压缩、重试逻辑、成本跟踪和多智能体协调，所有代码均可直接运行。

从零搭建智能体运行时，包含工具、记忆、权限、技能等核心组件。
理解完整控制流程：接收任务、模型决策、工具执行、观察循环。

使用Graphify和NetworkX映射Python代码库结构：发现上帝节点、社区和架构可视化

2026-06-24 17:36 UTC+8

本教程介绍如何使用Graphify和NetworkX完全离线地将一个多模块Python应用转换为知识图谱。通过安装Graphify和必要的图库，生成一个包含配置、数据库、认证等层的样本应用，并利用基于树状语法分析（tree-sitter）的Graphify本地提取图结构。然后使用NetworkX分析代码库的文件类型、关系类型、中心性、社区检测和最短路径，并创建静态与交互式可视化，帮助理解模块、类、函数和数据库对象之间的连接。

无需API密钥或LLM后端，完全离线构建知识图谱。
使用NetworkX进行中心性分析、社区检测和路径追踪。

Nous Research 为 Hermes Agent 技能系统添加 /learn 命令，无需手动编写 SKILL.md 即可捕获工作流

2026-06-24 17:21 UTC+8

Nous Research 在其开源自改进代理 Hermes Agent 的技能系统中新增了 /learn 命令。该命令可从目录、URL、对话或笔记中自动生成符合标准的 SKILL.md 文件，无需手动编写。命令使用代理现有工具获取资料并保存为可复用技能。技能通过三级加载机制保持低成本，且支持多种创建方式。

/learn 命令可从本地目录、在线文档、对话记录或粘贴笔记自动生成 SKILL.md 文件
命令使用代理现有工具（如 read_file、search_files、web_extract）采集资料，无需独立引擎

2026年16款最佳生成式AI编程工具对比：功能与最佳适用场景

2026-06-24 16:12 UTC+8

生成式AI已从逐行代码补全演变为完整的应用生成、多智能体构建流程和自然语言代码库接口。本文对比了2026年16款顶尖AI编程工具，包括Atoms、GitHub Copilot、Tabnine等，并分析了从单一功能工具向全流程整合平台（如Atoms）转变的趋势。专家建议根据任务选择合适的工具：智能体平台适合从概念到产品，辅助工具适合日常编码，分析工具确保代码质量。

生成式AI编程工具从代码补全发展为全栈应用生成和多智能体流水线
2026年趋势是从单一功能工具向全流程整合平台（如Atoms）转变

DFlash推测解码：并行生成整个Token块，在NVIDIA Blackwell上吞吐量提升高达15倍

2026-06-24 15:21 UTC+8

加州大学圣地亚哥分校的研究团队提出DFlash，用轻量级块扩散模型替代自回归式草稿生成，用于推测解码。它通过单次前向传播生成整个Token块，并通过KV注入将目标隐藏特征注入草稿模型。论文报告在Qwen3-8B上实现高达6.08倍的无损加速，NVIDIA则在固定交互性条件下报告了Blackwell上15倍的吞吐量提升。DFlash提供了20个检查点，支持SGLang、vLLM和TensorRT-LLM。

DFlash通过一次前向传播生成整个Token块，而非逐Token生成。
它将目标隐藏特征注入每个草稿层的KV缓存，使接受长度随深度扩展。

Mistral OCR 4：为RAG、代理和企业搜索管道提供可引用的结构化输出

2026-06-24 07:43 UTC+8

Mistral AI 发布了 OCR 4，从纯文本提取转向结构化文档输出。每个块返回边界框、类型分类以及每页和每词的置信度分数。该模型支持170种语言，可在单个自托管容器中运行，并通过一个API端点将可引用的输入提供给RAG、代理和企业搜索管道。

OCR 4 不仅提取文本，还返回边界框、有类型标签的块和置信度分数。
支持170种语言，在稀有和低资源语言上表现更好。

如何使用NVIDIA Canary-1B-v2进行ASR、翻译和自动SRT字幕导出（Python）

2026-06-24 02:31 UTC+8

本教程使用NVIDIA Canary-1B-v2构建多语言ASR和语音翻译流水线，涵盖环境搭建、音频预处理、英语ASR、多语言翻译、时间戳提取、SRT字幕导出、长音频转录、批量处理及性能基准测试。

在GPU环境下安装NeMo和音频库依赖
执行英语ASR并翻译为法语、德语、西班牙语和意大利语

Prime Intellect 发布 prime-rl 0.6.0，用于训练万亿参数 MoE 模型的智能体强化学习任务

2026-06-23 15:20 UTC+8

Prime Intellect 发布了 prime-rl 0.6.0，这是一个用于万亿参数混合专家（MoE）模型异步强化学习的开源框架。该框架在 SWE 任务上训练了 GLM-5，序列长度高达 131k，步时低于 5 分钟，使用 256 次 rollout 和 28 个 H200 节点。本文详细介绍了其推理和训练优化，包括 FP8 推理、宽专家并行、预填充/解码分离、路由器重放以及 3D 并行（FSDP、EP、CP）。

prime-rl 0.6.0 支持万亿参数 MoE 模型的异步强化学习，适用于长周期智能体任务。
GLM-5 在 SWE 任务上以 131k 序列长度、亚 5 分钟步时和 28 个 H200 节点完成训练。

GLM-5.2 OpenAI兼容API：推理努力、函数调用和长上下文检索的实践指南

2026-06-23 14:35 UTC+8

本教程提供了使用GLM-5.2的OpenAI兼容API的实用步骤，涵盖设置客户端、控制推理努力、流式推理、函数调用、多步骤工具代理、结构化JSON输出、长上下文检索和成本估算。通过可复用的聊天包装器和多个提供商选项，读者可以快速上手并测试模型的高级功能。

通过OpenAI兼容API设置GLM-5.2，支持多个提供商和安全加载密钥。
测试推理努力控制（关闭、高、最大）并观察延迟和输出令牌变化。

xAI 在 Grok Build 中推出 /goal，为多步骤编码任务提供长时间运行的自主执行并内置验证

2026-06-23 04:34 UTC+8

xAI 在 Grok Build 终端编码代理中推出了 /goal 模式，支持长时间运行的自主任务执行。用户只需给出一个目标，代理会规划步骤、执行进度检查并验证结果，直至任务完成。该功能适用于大型代码迁移、重构、依赖升级等多步骤任务，并提供了状态查看、暂停、恢复和清除等控制命令，需要 SuperGrok 或 X Premium Plus 订阅。

/goal 在 Grok Build 中运行长时间、自主的任务。
它规划方法、构建检查清单、执行并验证直到完成。

Sakana AI 推出 Sakana Fugu：一种将任务路由到可交换前沿LLM池的编排模型

2026-06-23 02:42 UTC+8

Sakana AI 发布了 Sakana Fugu，一个多智能体编排系统，通过单个API端点将任务路由到可交换的模型池中。Fugu 和 Fugu Ultra 在编码、推理和智能体基准测试中领先。该系统旨在减少对单一供应商的依赖，并能在内部协调模型团队来解决复杂问题。

Fugu 是一个语言模型，能调用其他LLM来组成代理池，动态选择模型、委派任务并综合结果。
提供两个版本：Fugu（注重低延迟和合规性）和 Fugu Ultra（针对困难问题优化，使用固定模型池）。

MoonMath AI 开源 AMD MI300X 的 HIP 注意力内核，在各项指标和舍入模式下均超越 AITER v3

2026-06-22 15:13 UTC+8

MoonMath AI 团队发布了针对 AMD MI300X GPU 的 bf16 前向注意力内核，采用 HIP 编写并以 MIT 许可开源。该内核通过单指令汇编包装器和八波流水线等创新技术，在测试的各种形状和舍入模式下均优于 AMD 自家的优化内核 AITER v3，几何平均加速比达 1.08× 到 1.18×。关键加速来自内存布局优化（K 置于 LDS，V 置于 L1，Q 和累加器置于寄存器），同时已实际应用于 Wan2.1 视频扩散模型，端到端性能提升 1.23× 且无质量退化。

MoonMath AI 开源了针对 AMD MI300X 的 bf16 前向注意力内核，采用 HIP 编写（MIT 许可）。
相比 AMD 的 AITER v3，内核在每种形状和舍入模式下均更优，几何平均加速比 1.08×–1.18×，最高 1.26×。

AI工程师必读：七种智能体记忆类型技术指南

2026-06-22 07:12 UTC+8

大型语言模型默认无状态，智能体需要记忆来保留上下文。本文详细解析了七种记忆类型——工作记忆、语义记忆、情节记忆、程序记忆、检索记忆、参数记忆和前瞻记忆，包括每种记忆存储的内容、位置和实现时机。附带对比表和Python代码示例。

智能体记忆将无状态模型转变为能保留上下文、从经验中学习并随时间行动的系统。
七种记忆类型按形式和时标分为短期与长期，覆盖从上下文窗口到外部数据库的存储。

Crawlee for Python：构建包含机器人处理、链接图和RAG分块导出的网络爬取管道

2026-06-21 14:52 UTC+8

本教程演示如何使用Crawlee for Python从零搭建完整的网络爬取工作流，包括设置本地演示网站、使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler进行爬取，提取标题、元数据、产品字段和JavaScript渲染的卡片，并捕获全页截图。随后规范化数据、构建链接图，导出JSON、CSV和RAG就绪的JSONL分块。

采用HTTP优先策略，轻量高效；仅对需要JavaScript渲染的页面使用浏览器爬取。
每个爬虫提取URL、标题、页面类型、文本摘要、出站链接和页面特定元数据。

思科AI推出FAPO：具备步骤级故障归因与Claude Code编排的流水线感知提示优化

2026-06-21 07:04 UTC+8

思科基础AI开源了FAPO（全自动提示优化），这是一个由Claude Code驱动的系统，能够自主优化多步骤LLM流水线，从基础提示达到目标准确率。FAPO评估链、在步骤级别归因故障，并在提示、参数和链结构级别提出变体，通过独立审查器验证每个变体。在思科的评估中，它在18个模型-基准比较中击败了GEPA。

FAPO是一个由Claude Code驱动的全自动提示优化系统，开源且支持多步骤LLM流水线。
它通过三个级别（提示、参数、链结构）逐步升级优化，并利用步骤级故障归因指导改进。

Nous Research 更新 Hermes Agent，推出全新 Blank Slate 模式，通过 platform_toolsets.cli 和 disabled_toolsets 锁定工具集

2026-06-21 05:50 UTC+8

Nous Research 为其开源 Hermes Agent 新增了 Blank Slate 设置模式。该模式从零开始，仅启用 provider、model、文件操作和终端，其余功能全部关闭，并通过配置文件持久化这一选择。用户可后续按需手动开启。

Blank Slate 模式仅保留 provider & model、文件操作和终端三大基础功能。
Web、浏览器、代码执行、视觉、记忆、委托、cron、技能、插件和 MCP 等默认禁用。

Yandex 开源 YaFF：为 Protobuf 设计的零拷贝线格式，读取速度接近结构体

2026-06-20 17:23 UTC+8

Yandex 开源了 YaFF（Yet another Flat Format），这是一个为 Protobuf 生态打造的高性能零拷贝线格式。它保持 .proto 文件作为单一真相来源，仅改变数据在内存中的布局。YaFF 提供四种布局——Fixed、Flat、Sparse 和 Dynamic，其中 Flat 布局的读取速度在 Yandex 的基准测试中达到原始 C++ 结构体的 1.2 倍以内，比 FlatBuffers 快约 3.8 倍，比 Protobuf 快约 22 倍。该格式已在 Yandex 的广告推荐系统生产环境中使用，实现了 10-20% 的 CPU 节省。

YaFF 是 Yandex 开源的 Protobuf 零拷贝线格式，采用 Apache 2.0 许可，目前为 C++ 实现。
提供四种布局：Fixed（冻结模式）、Flat（密集热数据）、Sparse（稀疏模式）以及 Dynamic（运行时自动选择）。

如何使用TimeCopilot构建基于基础模型和自动异常检测的预测管道

2026-06-20 17:05 UTC+8

本教程展示了如何使用TimeCopilot构建端到端的预测工作流。它涵盖了数据准备、模型评估（包括统计模型、基础模型和可选的GPU模型）、滚动交叉验证、概率预测、异常检测以及可选的LLM代理解释。

TimeCopilot提供了一个统一的接口来管理多种预测模型，包括Statistical、Prophet和Chronos等。
使用滚动交叉验证和多个误差指标（MAE、RMSE、MAPE）评估模型性能。

NVIDIA AI 推出 SpatialClaw：一种免训练代理，将代码作为空间推理的动作接口

2026-06-20 06:51 UTC+8

SpatialClaw 是 NVIDIA 研究团队推出的一种免训练框架，通过将代码作为动作接口，让视觉语言模型在 20 个空间基准测试中平均准确率达到 59.9%，比现有方法 SpaceTools 高出 11.2 个百分点。

SpatialClaw 无需重新训练模型，通过将代码作为动作接口来提升 VLM 的空间推理能力。
在 20 个基准测试中平均准确率 59.9%，相比 SpaceTools 提升 11.2%。

VibeThinker-3B：基于Qwen2.5-Coder-3B与频谱到信号后训练流水线的3B密集推理模型

2026-06-20 06:06 UTC+8

VibeThinker-3B是一个仅30亿参数的开源推理模型，在可验证基准测试中匹配DeepSeek V3.2和Kimi K2.5等千亿级模型。它采用频谱到信号后训练流水线，通过监督微调、强化学习和自蒸馏实现高效推理，并引入测试时缩放方法CLR进一步提升性能。

VibeThinker-3B仅有3B参数，MIT许可证开源，基于Qwen2.5-Coder-3B构建，专攻可验证推理。
在AIME26上得分94.3，与671B的DeepSeek V3.2和1T的Kimi K2.5相当。

Liquid AI 发布 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M：用于跨11种语言的快速多语言搜索的密集双编码器和后期交互模型

2026-06-19 18:29 UTC+8

Liquid AI 发布了两个新的检索模型：LFM2.5-Embedding-350M（密集双编码器）和 LFM2.5-ColBERT-350M（后期交互模型），均基于 LFM2.5-350M-Base 并适应为双向编码器。它们支持 11 种语言的多语言和跨语言搜索，体积小可运行于边缘设备，在 NanoBEIR 和 MKQA-11 基准测试中领先同类模型。

Liquid AI 发布两个 350M 参数检索模型，基于 LFM2.5-350M-Base 并改为双向编码器。
LFM2.5-Embedding-350M 为密集双编码器，索引小速度快；LFM2.5-ColBERT-350M 为后期交互模型，精度更高。

Salesforce CodeGen教程：生成、验证和重排Python函数，附单元测试和安全检查

2026-06-19 10:44 UTC+8

本教程实现了Salesforce CodeGen的端到端工作流程，从Hugging Face加载模型，超越基础推理，添加函数提取、语法检查、静态安全检查、单元测试验证、最佳N候选重排、多步骤程序合成、提示风格实验，最后可视化迷你基准并导出可复用文件。

从Hugging Face加载Salesforce CodeGen模型并准备代码生成环境
实现函数提取、语法验证、静态安全检查和单元测试验证

MarkTechPost