AI News HubLIVE

今日必读

Agent

我们构建了一个运行我们AI数据平台的智能体

Encord宣布推出Merlin——一个代理智能层,通过MCP集成到Claude、Codex等平台,让用户通过对话管理AI数据基础设施,涵盖构建、观察和优化整个数据生命周期。

  • Merlin是Encord的代理智能层,旨在通过对话简化AI数据管理。
  • 它通过MCP协议集成到Claude、Codex等代理编码平台,未来将支持Slack等。
站内正文

AI的无声飞跃:从代码到认知

通过日常使用AI,作者发现真正的瓶颈不是编码本身,而是上下文切换导致的精神消耗。AI让思考更持久,能量从语法和调试转向架构和系统思维,但保持判断力和品味仍是关键。

  • AI减少了上下文切换带来的精神疲劳,使开发者能更长时间保持专注。
  • AI充当外部工作记忆,允许同时处理不同层次的问题。
站内正文

Show HN:Ctx——仅加载相关工具,节省令牌

Ctx 是一个为 Claude Code 和自定义 LLM 设计的上下文管理工具,它通过分析当前任务,从包含 102,928 个节点的知识图谱中推荐最相关的小型技能、代理和 MCP 服务器集合,从而节省令牌并提高质量。

  • Ctx 通过分析用户当前构建的内容,从大型图谱中推荐最相关的工具,避免浪费上下文空间。
  • 支持 Claude Code 以及自定义本地/API 模型,提供独立的配置流程。
站内正文

Factory 如何利用 LangSmith 自动化反馈循环,将迭代速度提升 2 倍

Factory AI 通过 LangSmith 的可观测性和反馈 API 优化产品反馈循环,实现了迭代速度翻倍,并显著缩短了开发周期。

  • Factory 将 LangSmith 与 AWS CloudWatch 集成,提升了可观测性和调试效率。
  • 利用 LangSmith 的反馈 API,Factory 自动化了提示优化过程,减少了人工操作。
站内正文

推出 Open SWE:一款开源异步编码代理

Open SWE 是一款开源、云端托管的编码代理,能够自主处理 GitHub 任务,包括规划、编码、测试和提交拉取请求。它采用多代理架构,包含规划器、程序员和审查器,并支持人类参与循环和异步执行。

  • Open SWE 是一款开源的异步云端编码代理,可直接与 GitHub 集成。
  • 它使用多代理架构(规划器、程序员、审查器)来确保代码质量。
站内正文

Monte Carlo:使用 LangGraph 和 LangSmith 构建数据 + AI 可观测性代理

Monte Carlo 利用 LangGraph 构建 AI 故障排除代理,并使用 LangSmith 进行调试,帮助数据团队更快地解决问题。该代理能够并行探索多个调查路径,显著缩短根因分析时间。

  • Monte Carlo 采用 LangGraph 创建动态图结构,实现故障排除流程的自动化与并行化。
  • LangSmith 从开发初期就用于可视化和迭代提示工程,加速了代理的优化。
站内正文
工具

人工智能意识:妄想者与哲学家的长椅

本文探讨围绕人工智能意识的争论,区分了两种观点:一种是认为AI可能具有意识的“妄想者”,另一种是持哲学怀疑态度的“哲学家”。

  • “妄想者”认为AI可能发展出意识,但缺乏科学依据
  • 哲学家对AI意识持批判态度,强调定义和证据的重要性
站内正文
研究

耳机爱好者必看:Prime Day 最佳耳机早期优惠TOP8

今年的亚马逊Prime Day将于6月23日至26日提前举行,多款2025年旗舰耳机参与折扣。本文精选了8款经过实测的耳机推荐,涵盖Bowers & Wilkins、索尼、Bose等品牌,并提供购买建议。

  • Prime Day 于6月23日至26日举行,比往年提前一个月。
  • Bowers & Wilkins Px7 S3 和索尼 WH-1000XM6 等新款耳机首次打折。
站内正文
政策
其余更新(24 条)
模型

分享 LangSmith 基准测试

LangSmith 推出公开基准测试和评估数据集共享功能,帮助开发者比较不同 LLM 架构在相同任务上的表现。首发数据集为 LangChain 文档问答数据集,并发布了 langchain-benchmarks 包以支持实验。文章分析了多种模型和架构的性能,并提供了调试方法。

  • LangSmith 现在支持共享评估数据集和结果,便于社区驱动的基准测试。
  • 首发基准测试是 LangChain 文档问答数据集,测试 RAG 系统的综合回答能力。
站内正文

智能体工程:一门新兴学科

智能体工程是一门结合产品思维、工程和数据科学的新学科,旨在通过迭代构建、测试、发布、观察和优化的循环,将非确定性的LLM系统转变为可靠的工业生产体验。文章介绍了该学科的核心概念、所需技能、实践场景以及为什么现在需要它。

  • 智能体工程是迭代过程:构建、测试、发布、观察、优化、重复。
  • 结合产品思维(定义范围与行为)、工程(构建基础设施)、数据科学(测量与改进)。
站内正文

在LangSmith中测试微调的开源模型

本文介绍了如何使用LangSmith评估和比较微调后的开源LLM。作者通过微调Llama2-7b和13b模型来生成SQL,并在LangSmith上创建数据集、运行测试、用GPT-4自动评估。结果显示,13b模型在使用较少数据时仍接近GPT-3.5水平,证明了开源模型的竞争力。

  • LangSmith提供UI和API来创建评估数据集,方便测试多个模型。
  • 微调了Llama2-7b(78k行)和Llama2-13b(10k行)用于SQL生成。
站内正文

法国将放弃Palantir的AI数据工具,转向本土供应商

法国总理塞巴斯蒂安·勒科尔努表示,法国国内情报部门将放弃美国科技巨头Palantir的AI数据工具,转而采用本土供应商,以避免“战略依赖”。

  • 法国国内情报部门将用ChapsVision取代Palantir的AI工具。
  • 勒科尔努总理强调避免对外国势力的战略依赖。
站内正文

认识Qwen-RobotSuite:三种用于VLA操作、视频世界建模和导航的具身AI模型

Qwen团队发布了三种具身AI模型,统称为Qwen-RobotSuite。包括操作模型RobotManip(基于Qwen3.5-4B)、视频世界模型RobotWorld(60层MMDiT)和导航模型RobotNav(基于Qwen3-VL,提供2B/4B/8B版本)。本文详细介绍了每个模型的架构、数据管道和基准测试结果。

  • Qwen-RobotSuite包含三个独立的基础模型:RobotManip、RobotWorld和RobotNav。
  • RobotManip通过统一对齐框架解决了操作数据的异构性问题,在多个OOD基准上取得了SOTA。
站内正文
Agent

LangSmith:改版产品主页与资源标签,实现更好的组织管理

LangSmith 产品主页重新划分为三大板块:可观测性、评估和提示工程。同时,资源标签功能得到增强,支持按应用或自定义标签灵活分组资源,未来还将引入基于属性的访问控制(ABAC)。

  • 主页分为可观测性、评估和提示工程三个部分,每个部分包含相关功能。
  • 资源标签现在支持按“应用”或其他自定义标签进行灵活过滤和组织。
站内正文

智能体改进循环中的人类判断

AI智能体在反映团队积累的知识和判断时效果最佳。本文探讨如何将人类判断融入智能体开发的生命周期,以交易员助手为例,讲解工作流设计、工具设计和上下文工程,并介绍通过自动化评估和监测来优化智能体的改进循环。

  • 智能体需要吸收领域专家的隐性知识
  • 通过工作流设计、工具设计和上下文工程融入人类判断
站内正文

深度代理的上下文管理

Deep Agents SDK通过卸载、摘要和文件系统抽象来管理长时间运行AI任务的上下文,防止上下文腐败。本文介绍了三种压缩技术:卸载大型工具结果、卸载大型工具输入和摘要,并提供了实践指导和评估方法。

  • Deep Agents SDK采用上下文压缩技术管理AI代理的有限记忆,包括卸载和摘要。
  • 三种压缩技术在上下文窗口不同阈值触发:卸载大型结果(>20K令牌)、卸载大型输入(>85%)、摘要(>85%且无可卸载内容)。
站内正文

在 Databricks 上为企业应用实现受治理的 Vibe Coding

Databricks 在 Data + AI Summit 2026 上宣布了 App Spaces、Genie App Builder 和 Serverless Micro Apps 三项新功能,旨在将快速、易用的 vibe coding 引入企业环境,同时不牺牲治理、数据安全和成本控制。

  • App Spaces 提供应用组级别的治理边界,自动继承安全策略,实现治理前置。
  • Genie App Builder 利用 Databricks 的数据上下文和 Unity Catalog 语义层,通过自然语言或截图辅助构建应用。
站内正文

Show HN:Ito – 自动运行代码的代码审查工具

Ito 是一个自动化的 QA 平台,它在拉取请求中运行代码,检测行为回归,无需手动编写测试脚本。它集成 GitHub,支持各种技术栈,并直接在 PR 中提供包含视频和截图的质量报告。

  • Ito 提供无需脚本的、基于执行的 QA 测试,能够捕捉行为回归。
  • 支持多种技术栈,仅需 5 分钟设置。
站内正文

隆重推出OpenSharing:代理时代Delta Sharing的下一次进化

Databricks推出OpenSharing,这是Delta Sharing的下一次进化,也是业界首个为代理时代构建的开放协议。它将开放数据共享扩展到完整的AI堆栈,支持模型和代理,并成为Linux基金会下的独立开源项目。OpenSharing支持跨任何云、供应商和格式的无缝共享,解决了跨组织数据共享的难题,并引入了Genie Agent Sharing、SecureConnect和Global Distribution等新功能。

  • OpenSharing是Delta Sharing的进化版,扩展了共享范围到完整的AI堆栈,包括模型和代理。
  • 作为Linux基金会下的独立开源项目,OpenSharing支持Delta Lake、Apache Iceberg和Parquet等格式,实现跨平台零拷贝数据共享。
站内正文

跟踪AI代理在代码开发中的谱系和状态的逻辑方法

本文探讨了在代理式软件开发中,如何系统性地跟踪AI代理的决策历史、配置和生成代码的谱系。作者提出建立“代理仓库”以实现可观测性和规模化,并讨论了Git在存储代理数据方面的局限性。

  • 代理开发需要记录代理的元数据,包括提交SHA、代理版本和会话日志。
  • 通过从代码到部署的谱系跟踪,可以理解代理行为对终端系统的影响。
站内正文

Databricks Marketplace 上推出应用程序

Databricks 宣布 Databricks Marketplace 上的应用程序公开预览,允许客户发现、安装和运行第三方数据及 AI 应用程序,这些应用程序在客户的安全环境中原生运行,数据无需离开其环境。

  • Databricks Marketplace 上的应用程序允许客户在 Databricks 工作区内直接发现、安装和运行第三方数据及 AI 应用程序。
  • 应用程序在 Unity Catalog 的安全隔离沙箱中运行,数据无需移动。
站内正文

如何在2026年使用Nvidia eGPU搭配Mac进行本地AI

苹果已批准Tiny Corp的TinyGPU驱动程序,允许Nvidia和AMD外置GPU在Apple Silicon Mac上用于计算工作负载。本指南涵盖了硬件推荐、设置步骤以及运行基于CUDA的本地AI的性能基准测试。

  • 苹果已签署并公证TinyGPU驱动,首次支持Nvidia/AMD eGPU在Mac上进行计算。
  • 最佳eGPU选择:大多数用户推荐RTX 4090,运行70B模型可选RTX 5090。
站内正文

开放共享 SecureConnect 简介

开放共享 SecureConnect 是 Databricks 管理的代理,旨在简化跨组织数据共享的网络配置。提供者只需一次性设置,无需为每个接收者配置网络。可选私有链路连接增强安全性,数据保留在提供者存储中。现已公开发布预览版。

  • SecureConnect 是 Databricks 管理的代理,用于路由存储访问。
  • 提供者一次性设置后,无需为每个数据接收者更改防火墙规则。
站内正文

循环工程的艺术

本文探讨了构建可靠AI代理的核心在于精心设计的循环架构,而不仅仅是模型本身。作者介绍了四种嵌套循环:代理循环、验证循环、事件驱动循环和爬山循环,并展示了如何使用LangChain原语实现每层循环。文章强调,通过将代理嵌入生态系统并持续改进,可以构建难以复制的竞争优势。

  • 代理循环让模型反复调用工具完成任务,是基础循环。
  • 验证循环通过评分与反馈确保输出质量。
站内正文

我将20年的企业AI销售经验打包成一个Claude技能

前向部署销售(FDS)是一种面向AI时代的企业销售方法论,已打包为Claude技能并开源。它基于20年的销售实践提炼而成,旨在通过AI辅助将销售周期压缩3-10倍。

  • FDS是一种基于20年企业销售经验(包括在AWS等公司)打造的AI时代销售方法论。
  • 它被打包为Claude技能,60秒即可安装,包含完整的AI辅助销售手册。
站内正文

宝可梦卡牌AI对战挑战赛

宝可梦卡牌AI对战挑战赛是一项让AI在宝可梦集换式卡牌游戏中一决高下的竞赛。比赛分为模拟赛和策略赛两个阶段,总奖金池丰厚,决赛将于2026年末举行。

  • 比赛模拟赛阶段在Kaggle上进行,AI代理自动对战,实时排名。
  • 策略赛阶段需提交AI策略报告,综合稳定性、卡组设计和模拟赛成绩。
站内正文

HPE与NVIDIA扩展AI工厂,迎接智能体时代

企业正将智能体AI从概念验证转向生产,下一代AI工厂为此设计。在HPE Discover大会上,NVIDIA和HPE宣布扩展HPE AI Factory,包括NVIDIA Vera CPU和NVIDIA Agent Toolkit。Vera CPU专为智能体设计,提供确定性低延迟性能。NVIDIA机密计算现覆盖整个HPE AI Factory产品组合。此外,全栈NVIDIA集成增强,涵盖网络、DPU和GPU。

  • NVIDIA Vera CPU将于2027年随HPE Private Cloud AI上市,专为智能体工作负载优化。
  • NVIDIA Agent Toolkit现可用于HPE Private Cloud AI,提供智能体AI操作系统。
站内正文
芯片

在 Amazon SageMaker AI 上使用 P-EAGLE 实现推测解码并行化

本篇文章指导您如何在 Amazon SageMaker AI 中直接使用 P-EAGLE,展示如何从 SageMaker JumpStart 目录中选择兼容模型、配置并行草稿规格,并部署高度优化的实时 SageMaker AI 端点以加速生成式 AI 应用。

  • P-EAGLE 通过一次前向传播并行预测所有草稿令牌,消除了传统推测解码的串行瓶颈。
  • 相比 EAGLE-3,在真实基准测试中吞吐量提升高达 1.69 倍。
站内正文

苹果2027年传闻:带摄像头的AirPods用于AI及第二款折叠iPhone

据彭博社记者马克·古尔曼报道,苹果计划于2027年底推出带摄像头的AirPods,以增强Siri的视觉上下文能力,同时还有第二款折叠iPhone和20周年纪念版iPhone等产品正在研发中。

  • 带摄像头的AirPods预计2027年底上市,内部测试基于iOS 28。
  • 摄像头位于耳机柄上,配有指示灯,可为Siri提供视觉上下文。
站内正文

高通最新芯片暗示更强大的智能眼镜即将问世

高通发布Snapdragon Reality Elite芯片,专为下一波XR设备设计,性能大幅提升,包括GPU提升60%、CPU提升30%、NPU提升高达160%,并改善散热和电池续航。该芯片已用于即将推出的Aura眼镜,预示着更强大、更轻便的AI智能眼镜即将到来。

  • 高通推出Snapdragon Reality Elite芯片,面向XR设备,性能全面提升。
  • GPU性能提升60%,CPU提升30%,NPU提升高达160%。
站内正文

供应链资本主义、平台重商主义与AI政变:依赖性的政治经济学

本文分析了资本主义中不同的剥削策略如何导致权力集中,威胁民主政体。通过供应链资本主义、平台重商主义和AI政变三个案例,作者提出了“依赖性的政治经济学”框架,探讨科技巨头与政治权力的融合,以及AI在这一过程中的关键角色。

  • 供应链资本主义始于20世纪80年代,通过外包和全球价值链重塑全球经济。
  • 平台重商主义在21世纪10年代兴起,数字平台通过数据提取和网络效应积累巨大权力。