AI 日报 2026-06-17

今日必读

Agent

我们构建了一个运行我们AI数据平台的智能体

2026-06-16

Encord宣布推出Merlin——一个代理智能层，通过MCP集成到Claude、Codex等平台，让用户通过对话管理AI数据基础设施，涵盖构建、观察和优化整个数据生命周期。

Merlin是Encord的代理智能层，旨在通过对话简化AI数据管理。
它通过MCP协议集成到Claude、Codex等代理编码平台，未来将支持Slack等。

SpaceX以600亿美元收购Cursor，瞄准智能编码领域

2026-06-16

此次收购将帮助SpaceX扩大开发者服务，并获取Cursor的开发者工作流程和用户分析数据。

SpaceX以600亿美元收购AI编码工具Cursor
收购旨在扩展SpaceX的开发者生态

AI的无声飞跃：从代码到认知

2026-06-16

通过日常使用AI，作者发现真正的瓶颈不是编码本身，而是上下文切换导致的精神消耗。AI让思考更持久，能量从语法和调试转向架构和系统思维，但保持判断力和品味仍是关键。

AI减少了上下文切换带来的精神疲劳，使开发者能更长时间保持专注。
AI充当外部工作记忆，允许同时处理不同层次的问题。

Show HN：Ctx——仅加载相关工具，节省令牌

2026-06-16

Ctx 是一个为 Claude Code 和自定义 LLM 设计的上下文管理工具，它通过分析当前任务，从包含 102,928 个节点的知识图谱中推荐最相关的小型技能、代理和 MCP 服务器集合，从而节省令牌并提高质量。

Ctx 通过分析用户当前构建的内容，从大型图谱中推荐最相关的工具，避免浪费上下文空间。
支持 Claude Code 以及自定义本地/API 模型，提供独立的配置流程。

Factory 如何利用 LangSmith 自动化反馈循环，将迭代速度提升 2 倍

2026-06-16

Factory AI 通过 LangSmith 的可观测性和反馈 API 优化产品反馈循环，实现了迭代速度翻倍，并显著缩短了开发周期。

Factory 将 LangSmith 与 AWS CloudWatch 集成，提升了可观测性和调试效率。
利用 LangSmith 的反馈 API，Factory 自动化了提示优化过程，减少了人工操作。

推出 Open SWE：一款开源异步编码代理

2026-06-16

Open SWE 是一款开源、云端托管的编码代理，能够自主处理 GitHub 任务，包括规划、编码、测试和提交拉取请求。它采用多代理架构，包含规划器、程序员和审查器，并支持人类参与循环和异步执行。

Open SWE 是一款开源的异步云端编码代理，可直接与 GitHub 集成。
它使用多代理架构（规划器、程序员、审查器）来确保代码质量。

Monte Carlo：使用 LangGraph 和 LangSmith 构建数据 + AI 可观测性代理

2026-06-16

Monte Carlo 利用 LangGraph 构建 AI 故障排除代理，并使用 LangSmith 进行调试，帮助数据团队更快地解决问题。该代理能够并行探索多个调查路径，显著缩短根因分析时间。

Monte Carlo 采用 LangGraph 创建动态图结构，实现故障排除流程的自动化与并行化。
LangSmith 从开发初期就用于可视化和迭代提示工程，加速了代理的优化。

工具

人工智能意识：妄想者与哲学家的长椅

2026-06-16

本文探讨围绕人工智能意识的争论，区分了两种观点：一种是认为AI可能具有意识的“妄想者”，另一种是持哲学怀疑态度的“哲学家”。

“妄想者”认为AI可能发展出意识，但缺乏科学依据
哲学家对AI意识持批判态度，强调定义和证据的重要性

研究

耳机爱好者必看：Prime Day 最佳耳机早期优惠TOP8

2026-06-16

今年的亚马逊Prime Day将于6月23日至26日提前举行，多款2025年旗舰耳机参与折扣。本文精选了8款经过实测的耳机推荐，涵盖Bowers & Wilkins、索尼、Bose等品牌，并提供购买建议。

Prime Day 于6月23日至26日举行，比往年提前一个月。
Bowers & Wilkins Px7 S3 和索尼 WH-1000XM6 等新款耳机首次打折。

政策

人工智能会终结开放互联网吗？[穿越AI – 第6集] [视频]

2026-06-16

本视频探讨了人工智能对开放互联网的潜在影响，包括内容生成、信息验证和平台监管等关键问题。

AI可能加剧虚假信息传播
开放互联网面临算法垄断风险

其余更新（24 条）

模型

分享 LangSmith 基准测试

2026-06-16

LangSmith 推出公开基准测试和评估数据集共享功能，帮助开发者比较不同 LLM 架构在相同任务上的表现。首发数据集为 LangChain 文档问答数据集，并发布了 langchain-benchmarks 包以支持实验。文章分析了多种模型和架构的性能，并提供了调试方法。

LangSmith 现在支持共享评估数据集和结果，便于社区驱动的基准测试。
首发基准测试是 LangChain 文档问答数据集，测试 RAG 系统的综合回答能力。

智能体工程：一门新兴学科

2026-06-16

智能体工程是一门结合产品思维、工程和数据科学的新学科，旨在通过迭代构建、测试、发布、观察和优化的循环，将非确定性的LLM系统转变为可靠的工业生产体验。文章介绍了该学科的核心概念、所需技能、实践场景以及为什么现在需要它。

智能体工程是迭代过程：构建、测试、发布、观察、优化、重复。
结合产品思维（定义范围与行为）、工程（构建基础设施）、数据科学（测量与改进）。

在LangSmith中测试微调的开源模型

2026-06-16

本文介绍了如何使用LangSmith评估和比较微调后的开源LLM。作者通过微调Llama2-7b和13b模型来生成SQL，并在LangSmith上创建数据集、运行测试、用GPT-4自动评估。结果显示，13b模型在使用较少数据时仍接近GPT-3.5水平，证明了开源模型的竞争力。

LangSmith提供UI和API来创建评估数据集，方便测试多个模型。
微调了Llama2-7b（78k行）和Llama2-13b（10k行）用于SQL生成。

Android 17正式发布，同时推出6月Pixel Drop——新功能一览

2026-06-16

Android 17与6月Pixel Drop同步推出，为Pixel设备率先带来应用气泡、增强安全、AI新模型等多项更新。

Android 17正式推送，首批支持Pixel 6及更新机型
新增应用气泡、屏幕反应、游戏模式等实用功能

法国将放弃Palantir的AI数据工具，转向本土供应商

2026-06-16

法国总理塞巴斯蒂安·勒科尔努表示，法国国内情报部门将放弃美国科技巨头Palantir的AI数据工具，转而采用本土供应商，以避免“战略依赖”。

法国国内情报部门将用ChapsVision取代Palantir的AI工具。
勒科尔努总理强调避免对外国势力的战略依赖。

认识Qwen-RobotSuite：三种用于VLA操作、视频世界建模和导航的具身AI模型

2026-06-16

Qwen团队发布了三种具身AI模型，统称为Qwen-RobotSuite。包括操作模型RobotManip（基于Qwen3.5-4B）、视频世界模型RobotWorld（60层MMDiT）和导航模型RobotNav（基于Qwen3-VL，提供2B/4B/8B版本）。本文详细介绍了每个模型的架构、数据管道和基准测试结果。

Qwen-RobotSuite包含三个独立的基础模型：RobotManip、RobotWorld和RobotNav。
RobotManip通过统一对齐框架解决了操作数据的异构性问题，在多个OOD基准上取得了SOTA。

Agent

LangSmith：改版产品主页与资源标签，实现更好的组织管理

2026-06-16

LangSmith 产品主页重新划分为三大板块：可观测性、评估和提示工程。同时，资源标签功能得到增强，支持按应用或自定义标签灵活分组资源，未来还将引入基于属性的访问控制（ABAC）。

主页分为可观测性、评估和提示工程三个部分，每个部分包含相关功能。
资源标签现在支持按“应用”或其他自定义标签进行灵活过滤和组织。

智能体改进循环中的人类判断

2026-06-16

AI智能体在反映团队积累的知识和判断时效果最佳。本文探讨如何将人类判断融入智能体开发的生命周期，以交易员助手为例，讲解工作流设计、工具设计和上下文工程，并介绍通过自动化评估和监测来优化智能体的改进循环。

智能体需要吸收领域专家的隐性知识
通过工作流设计、工具设计和上下文工程融入人类判断

深度代理的上下文管理

2026-06-16

Deep Agents SDK通过卸载、摘要和文件系统抽象来管理长时间运行AI任务的上下文，防止上下文腐败。本文介绍了三种压缩技术：卸载大型工具结果、卸载大型工具输入和摘要，并提供了实践指导和评估方法。

Deep Agents SDK采用上下文压缩技术管理AI代理的有限记忆，包括卸载和摘要。
三种压缩技术在上下文窗口不同阈值触发：卸载大型结果（>20K令牌）、卸载大型输入（>85%）、摘要（>85%且无可卸载内容）。

在 Databricks 上为企业应用实现受治理的 Vibe Coding

2026-06-16

Databricks 在 Data + AI Summit 2026 上宣布了 App Spaces、Genie App Builder 和 Serverless Micro Apps 三项新功能，旨在将快速、易用的 vibe coding 引入企业环境，同时不牺牲治理、数据安全和成本控制。

App Spaces 提供应用组级别的治理边界，自动继承安全策略，实现治理前置。
Genie App Builder 利用 Databricks 的数据上下文和 Unity Catalog 语义层，通过自然语言或截图辅助构建应用。

Show HN：Ito – 自动运行代码的代码审查工具

2026-06-16

Ito 是一个自动化的 QA 平台，它在拉取请求中运行代码，检测行为回归，无需手动编写测试脚本。它集成 GitHub，支持各种技术栈，并直接在 PR 中提供包含视频和截图的质量报告。

Ito 提供无需脚本的、基于执行的 QA 测试，能够捕捉行为回归。
支持多种技术栈，仅需 5 分钟设置。

隆重推出OpenSharing：代理时代Delta Sharing的下一次进化

2026-06-16

Databricks推出OpenSharing，这是Delta Sharing的下一次进化，也是业界首个为代理时代构建的开放协议。它将开放数据共享扩展到完整的AI堆栈，支持模型和代理，并成为Linux基金会下的独立开源项目。OpenSharing支持跨任何云、供应商和格式的无缝共享，解决了跨组织数据共享的难题，并引入了Genie Agent Sharing、SecureConnect和Global Distribution等新功能。

OpenSharing是Delta Sharing的进化版，扩展了共享范围到完整的AI堆栈，包括模型和代理。
作为Linux基金会下的独立开源项目，OpenSharing支持Delta Lake、Apache Iceberg和Parquet等格式，实现跨平台零拷贝数据共享。

跟踪AI代理在代码开发中的谱系和状态的逻辑方法

2026-06-16

本文探讨了在代理式软件开发中，如何系统性地跟踪AI代理的决策历史、配置和生成代码的谱系。作者提出建立“代理仓库”以实现可观测性和规模化，并讨论了Git在存储代理数据方面的局限性。

代理开发需要记录代理的元数据，包括提交SHA、代理版本和会话日志。
通过从代码到部署的谱系跟踪，可以理解代理行为对终端系统的影响。

Databricks Marketplace 上推出应用程序

2026-06-16

Databricks 宣布 Databricks Marketplace 上的应用程序公开预览，允许客户发现、安装和运行第三方数据及 AI 应用程序，这些应用程序在客户的安全环境中原生运行，数据无需离开其环境。

Databricks Marketplace 上的应用程序允许客户在 Databricks 工作区内直接发现、安装和运行第三方数据及 AI 应用程序。
应用程序在 Unity Catalog 的安全隔离沙箱中运行，数据无需移动。

如何在2026年使用Nvidia eGPU搭配Mac进行本地AI

2026-06-16

苹果已批准Tiny Corp的TinyGPU驱动程序，允许Nvidia和AMD外置GPU在Apple Silicon Mac上用于计算工作负载。本指南涵盖了硬件推荐、设置步骤以及运行基于CUDA的本地AI的性能基准测试。

苹果已签署并公证TinyGPU驱动，首次支持Nvidia/AMD eGPU在Mac上进行计算。
最佳eGPU选择：大多数用户推荐RTX 4090，运行70B模型可选RTX 5090。

开放共享 SecureConnect 简介

2026-06-16

开放共享 SecureConnect 是 Databricks 管理的代理，旨在简化跨组织数据共享的网络配置。提供者只需一次性设置，无需为每个接收者配置网络。可选私有链路连接增强安全性，数据保留在提供者存储中。现已公开发布预览版。

SecureConnect 是 Databricks 管理的代理，用于路由存储访问。
提供者一次性设置后，无需为每个数据接收者更改防火墙规则。

循环工程的艺术

2026-06-16

本文探讨了构建可靠AI代理的核心在于精心设计的循环架构，而不仅仅是模型本身。作者介绍了四种嵌套循环：代理循环、验证循环、事件驱动循环和爬山循环，并展示了如何使用LangChain原语实现每层循环。文章强调，通过将代理嵌入生态系统并持续改进，可以构建难以复制的竞争优势。

代理循环让模型反复调用工具完成任务，是基础循环。
验证循环通过评分与反馈确保输出质量。

我将20年的企业AI销售经验打包成一个Claude技能

2026-06-16

前向部署销售（FDS）是一种面向AI时代的企业销售方法论，已打包为Claude技能并开源。它基于20年的销售实践提炼而成，旨在通过AI辅助将销售周期压缩3-10倍。

FDS是一种基于20年企业销售经验（包括在AWS等公司）打造的AI时代销售方法论。
它被打包为Claude技能，60秒即可安装，包含完整的AI辅助销售手册。

宝可梦卡牌AI对战挑战赛

2026-06-16

宝可梦卡牌AI对战挑战赛是一项让AI在宝可梦集换式卡牌游戏中一决高下的竞赛。比赛分为模拟赛和策略赛两个阶段，总奖金池丰厚，决赛将于2026年末举行。

比赛模拟赛阶段在Kaggle上进行，AI代理自动对战，实时排名。
策略赛阶段需提交AI策略报告，综合稳定性、卡组设计和模拟赛成绩。

HPE与NVIDIA扩展AI工厂，迎接智能体时代

2026-06-16

企业正将智能体AI从概念验证转向生产，下一代AI工厂为此设计。在HPE Discover大会上，NVIDIA和HPE宣布扩展HPE AI Factory，包括NVIDIA Vera CPU和NVIDIA Agent Toolkit。Vera CPU专为智能体设计，提供确定性低延迟性能。NVIDIA机密计算现覆盖整个HPE AI Factory产品组合。此外，全栈NVIDIA集成增强，涵盖网络、DPU和GPU。

NVIDIA Vera CPU将于2027年随HPE Private Cloud AI上市，专为智能体工作负载优化。
NVIDIA Agent Toolkit现可用于HPE Private Cloud AI，提供智能体AI操作系统。

芯片

在 Amazon SageMaker AI 上使用 P-EAGLE 实现推测解码并行化

2026-06-16

本篇文章指导您如何在 Amazon SageMaker AI 中直接使用 P-EAGLE，展示如何从 SageMaker JumpStart 目录中选择兼容模型、配置并行草稿规格，并部署高度优化的实时 SageMaker AI 端点以加速生成式 AI 应用。

P-EAGLE 通过一次前向传播并行预测所有草稿令牌，消除了传统推测解码的串行瓶颈。
相比 EAGLE-3，在真实基准测试中吞吐量提升高达 1.69 倍。

苹果2027年传闻：带摄像头的AirPods用于AI及第二款折叠iPhone

2026-06-16

据彭博社记者马克·古尔曼报道，苹果计划于2027年底推出带摄像头的AirPods，以增强Siri的视觉上下文能力，同时还有第二款折叠iPhone和20周年纪念版iPhone等产品正在研发中。

带摄像头的AirPods预计2027年底上市，内部测试基于iOS 28。
摄像头位于耳机柄上，配有指示灯，可为Siri提供视觉上下文。

高通最新芯片暗示更强大的智能眼镜即将问世

2026-06-16

高通发布Snapdragon Reality Elite芯片，专为下一波XR设备设计，性能大幅提升，包括GPU提升60%、CPU提升30%、NPU提升高达160%，并改善散热和电池续航。该芯片已用于即将推出的Aura眼镜，预示着更强大、更轻便的AI智能眼镜即将到来。

高通推出Snapdragon Reality Elite芯片，面向XR设备，性能全面提升。
GPU性能提升60%，CPU提升30%，NPU提升高达160%。

供应链资本主义、平台重商主义与AI政变：依赖性的政治经济学

2026-06-16

本文分析了资本主义中不同的剥削策略如何导致权力集中，威胁民主政体。通过供应链资本主义、平台重商主义和AI政变三个案例，作者提出了“依赖性的政治经济学”框架，探讨科技巨头与政治权力的融合，以及AI在这一过程中的关键角色。

供应链资本主义始于20世纪80年代，通过外包和全球价值链重塑全球经济。
平台重商主义在21世纪10年代兴起，数字平台通过数据提取和网络效应积累巨大权力。