AI News HubLIVE

今日必讀

Agent

我們構建了一個運行我們AI數據平台的智能體

Encord宣佈推出Merlin——一個代理智能層,通過MCP集成到Claude、Codex等平台,讓用户通過對話管理AI數據基礎設施,涵蓋構建、觀察和優化整個數據生命週期。

  • Merlin是Encord的代理智能層,旨在通過對話簡化AI數據管理。
  • 它通過MCP協議集成到Claude、Codex等代理編碼平台,未來將支持Slack等。
站內正文

AI的無聲飛躍:從代碼到認知

通過日常使用AI,作者發現真正的瓶頸不是編碼本身,而是上下文切換導致的精神消耗。AI讓思考更持久,能量從語法和調試轉向架構和系統思維,但保持判斷力和品味仍是關鍵。

  • AI減少了上下文切換帶來的精神疲勞,使開發者能更長時間保持專注。
  • AI充當外部工作記憶,允許同時處理不同層次的問題。
站內正文

Show HN:Ctx——僅加載相關工具,節省令牌

Ctx 是一個為 Claude Code 和自定義 LLM 設計的上下文管理工具,它通過分析當前任務,從包含 102,928 個節點的知識圖譜中推薦最相關的小型技能、代理和 MCP 服務器集合,從而節省令牌並提高質量。

  • Ctx 通過分析用户當前構建的內容,從大型圖譜中推薦最相關的工具,避免浪費上下文空間。
  • 支持 Claude Code 以及自定義本地/API 模型,提供獨立的配置流程。
站內正文

Factory 如何利用 LangSmith 自動化反饋循環,將迭代速度提升 2 倍

Factory AI 通過 LangSmith 的可觀測性和反饋 API 優化產品反饋循環,實現了迭代速度翻倍,並顯著縮短了開發週期。

  • Factory 將 LangSmith 與 AWS CloudWatch 集成,提升了可觀測性和調試效率。
  • 利用 LangSmith 的反饋 API,Factory 自動化了提示優化過程,減少了人工操作。
站內正文

推出 Open SWE:一款開源異步編碼代理

Open SWE 是一款開源、雲端託管的編碼代理,能夠自主處理 GitHub 任務,包括規劃、編碼、測試和提交拉取請求。它採用多代理架構,包含規劃器、程序員和審查器,並支持人類參與循環和異步執行。

  • Open SWE 是一款開源的異步雲端編碼代理,可直接與 GitHub 集成。
  • 它使用多代理架構(規劃器、程序員、審查器)來確保代碼質量。
站內正文

Monte Carlo:使用 LangGraph 和 LangSmith 構建數據 + AI 可觀測性代理

Monte Carlo 利用 LangGraph 構建 AI 故障排除代理,並使用 LangSmith 進行調試,幫助數據團隊更快地解決問題。該代理能夠並行探索多個調查路徑,顯著縮短根因分析時間。

  • Monte Carlo 採用 LangGraph 創建動態圖結構,實現故障排除流程的自動化與並行化。
  • LangSmith 從開發初期就用於可視化和迭代提示工程,加速了代理的優化。
站內正文
工具

人工智能意識:妄想者與哲學家的長椅

本文探討圍繞人工智能意識的爭論,區分了兩種觀點:一種是認為AI可能具有意識的“妄想者”,另一種是持哲學懷疑態度的“哲學家”。

  • “妄想者”認為AI可能發展出意識,但缺乏科學依據
  • 哲學家對AI意識持批判態度,強調定義和證據的重要性
站內正文
研究

耳機愛好者必看:Prime Day 最佳耳機早期優惠TOP8

今年的亞馬遜Prime Day將於6月23日至26日提前舉行,多款2025年旗艦耳機參與折扣。本文精選了8款經過實測的耳機推薦,涵蓋Bowers & Wilkins、索尼、Bose等品牌,並提供購買建議。

  • Prime Day 於6月23日至26日舉行,比往年提前一個月。
  • Bowers & Wilkins Px7 S3 和索尼 WH-1000XM6 等新款耳機首次打折。
站內正文
政策
其餘更新(24 條)
模型

分享 LangSmith 基準測試

LangSmith 推出公開基準測試和評估數據集共享功能,幫助開發者比較不同 LLM 架構在相同任務上的表現。首發數據集為 LangChain 文檔問答數據集,併發布了 langchain-benchmarks 包以支持實驗。文章分析了多種模型和架構的性能,並提供了調試方法。

  • LangSmith 現在支持共享評估數據集和結果,便於社區驅動的基準測試。
  • 首發基準測試是 LangChain 文檔問答數據集,測試 RAG 系統的綜合回答能力。
站內正文

智能體工程:一門新興學科

智能體工程是一門結合產品思維、工程和數據科學的新學科,旨在通過迭代構建、測試、發佈、觀察和優化的循環,將非確定性的LLM系統轉變為可靠的工業生產體驗。文章介紹了該學科的核心概念、所需技能、實踐場景以及為什麼現在需要它。

  • 智能體工程是迭代過程:構建、測試、發佈、觀察、優化、重複。
  • 結合產品思維(定義範圍與行為)、工程(構建基礎設施)、數據科學(測量與改進)。
站內正文

在LangSmith中測試微調的開源模型

本文介紹瞭如何使用LangSmith評估和比較微調後的開源LLM。作者通過微調Llama2-7b和13b模型來生成SQL,並在LangSmith上創建數據集、運行測試、用GPT-4自動評估。結果顯示,13b模型在使用較少數據時仍接近GPT-3.5水平,證明了開源模型的競爭力。

  • LangSmith提供UI和API來創建評估數據集,方便測試多個模型。
  • 微調了Llama2-7b(78k行)和Llama2-13b(10k行)用於SQL生成。
站內正文

法國將放棄Palantir的AI數據工具,轉向本土供應商

法國總理塞巴斯蒂安·勒科爾努表示,法國國內情報部門將放棄美國科技巨頭Palantir的AI數據工具,轉而採用本土供應商,以避免“戰略依賴”。

  • 法國國內情報部門將用ChapsVision取代Palantir的AI工具。
  • 勒科爾努總理強調避免對外國勢力的戰略依賴。
站內正文

認識Qwen-RobotSuite:三種用於VLA操作、視頻世界建模和導航的具身AI模型

Qwen團隊發佈了三種具身AI模型,統稱為Qwen-RobotSuite。包括操作模型RobotManip(基於Qwen3.5-4B)、視頻世界模型RobotWorld(60層MMDiT)和導航模型RobotNav(基於Qwen3-VL,提供2B/4B/8B版本)。本文詳細介紹了每個模型的架構、數據管道和基準測試結果。

  • Qwen-RobotSuite包含三個獨立的基礎模型:RobotManip、RobotWorld和RobotNav。
  • RobotManip通過統一對齊框架解決了操作數據的異構性問題,在多個OOD基準上取得了SOTA。
站內正文
Agent

LangSmith:改版產品主頁與資源標籤,實現更好的組織管理

LangSmith 產品主頁重新劃分為三大板塊:可觀測性、評估和提示工程。同時,資源標籤功能得到增強,支持按應用或自定義標籤靈活分組資源,未來還將引入基於屬性的訪問控制(ABAC)。

  • 主頁分為可觀測性、評估和提示工程三個部分,每個部分包含相關功能。
  • 資源標籤現在支持按“應用”或其他自定義標籤進行靈活過濾和組織。
站內正文

智能體改進循環中的人類判斷

AI智能體在反映團隊積累的知識和判斷時效果最佳。本文探討如何將人類判斷融入智能體開發的生命週期,以交易員助手為例,講解工作流設計、工具設計和上下文工程,並介紹通過自動化評估和監測來優化智能體的改進循環。

  • 智能體需要吸收領域專家的隱性知識
  • 通過工作流設計、工具設計和上下文工程融入人類判斷
站內正文

深度代理的上下文管理

Deep Agents SDK通過卸載、摘要和文件系統抽象來管理長時間運行AI任務的上下文,防止上下文腐敗。本文介紹了三種壓縮技術:卸載大型工具結果、卸載大型工具輸入和摘要,並提供了實踐指導和評估方法。

  • Deep Agents SDK採用上下文壓縮技術管理AI代理的有限記憶,包括卸載和摘要。
  • 三種壓縮技術在上下文窗口不同閾值觸發:卸載大型結果(>20K令牌)、卸載大型輸入(>85%)、摘要(>85%且無可卸載內容)。
站內正文

在 Databricks 上為企業應用實現受治理的 Vibe Coding

Databricks 在 Data + AI Summit 2026 上宣佈了 App Spaces、Genie App Builder 和 Serverless Micro Apps 三項新功能,旨在將快速、易用的 vibe coding 引入企業環境,同時不犧牲治理、數據安全和成本控制。

  • App Spaces 提供應用組級別的治理邊界,自動繼承安全策略,實現治理前置。
  • Genie App Builder 利用 Databricks 的數據上下文和 Unity Catalog 語義層,通過自然語言或截圖輔助構建應用。
站內正文

Show HN:Ito – 自動運行代碼的代碼審查工具

Ito 是一個自動化的 QA 平台,它在拉取請求中運行代碼,檢測行為迴歸,無需手動編寫測試腳本。它集成 GitHub,支持各種技術棧,並直接在 PR 中提供包含視頻和截圖的質量報告。

  • Ito 提供無需腳本的、基於執行的 QA 測試,能夠捕捉行為迴歸。
  • 支持多種技術棧,僅需 5 分鐘設置。
站內正文

隆重推出OpenSharing:代理時代Delta Sharing的下一次進化

Databricks推出OpenSharing,這是Delta Sharing的下一次進化,也是業界首個為代理時代構建的開放協議。它將開放數據共享擴展到完整的AI堆棧,支持模型和代理,併成為Linux基金會下的獨立開源項目。OpenSharing支持跨任何雲、供應商和格式的無縫共享,解決了跨組織數據共享的難題,並引入了Genie Agent Sharing、SecureConnect和Global Distribution等新功能。

  • OpenSharing是Delta Sharing的進化版,擴展了共享範圍到完整的AI堆棧,包括模型和代理。
  • 作為Linux基金會下的獨立開源項目,OpenSharing支持Delta Lake、Apache Iceberg和Parquet等格式,實現跨平台零拷貝數據共享。
站內正文

跟蹤AI代理在代碼開發中的譜系和狀態的邏輯方法

本文探討了在代理式軟件開發中,如何系統性地跟蹤AI代理的決策歷史、配置和生成代碼的譜系。作者提出建立“代理倉庫”以實現可觀測性和規模化,並討論了Git在存儲代理數據方面的侷限性。

  • 代理開發需要記錄代理的元數據,包括提交SHA、代理版本和會話日誌。
  • 通過從代碼到部署的譜系跟蹤,可以理解代理行為對終端系統的影響。
站內正文

Databricks Marketplace 上推出應用程序

Databricks 宣佈 Databricks Marketplace 上的應用程序公開預覽,允許客户發現、安裝和運行第三方數據及 AI 應用程序,這些應用程序在客户的安全環境中原生運行,數據無需離開其環境。

  • Databricks Marketplace 上的應用程序允許客户在 Databricks 工作區內直接發現、安裝和運行第三方數據及 AI 應用程序。
  • 應用程序在 Unity Catalog 的安全隔離沙箱中運行,數據無需移動。
站內正文

如何在2026年使用Nvidia eGPU搭配Mac進行本地AI

蘋果已批准Tiny Corp的TinyGPU驅動程序,允許Nvidia和AMD外置GPU在Apple Silicon Mac上用於計算工作負載。本指南涵蓋了硬件推薦、設置步驟以及運行基於CUDA的本地AI的性能基準測試。

  • 蘋果已簽署並公證TinyGPU驅動,首次支持Nvidia/AMD eGPU在Mac上進行計算。
  • 最佳eGPU選擇:大多數用户推薦RTX 4090,運行70B模型可選RTX 5090。
站內正文

開放共享 SecureConnect 簡介

開放共享 SecureConnect 是 Databricks 管理的代理,旨在簡化跨組織數據共享的網絡配置。提供者只需一次性設置,無需為每個接收者配置網絡。可選私有鏈路連接增強安全性,數據保留在提供者存儲中。現已公開發布預覽版。

  • SecureConnect 是 Databricks 管理的代理,用於路由存儲訪問。
  • 提供者一次性設置後,無需為每個數據接收者更改防火牆規則。
站內正文

循環工程的藝術

本文探討了構建可靠AI代理的核心在於精心設計的循環架構,而不僅僅是模型本身。作者介紹了四種嵌套循環:代理循環、驗證循環、事件驅動循環和爬山循環,並展示瞭如何使用LangChain原語實現每層循環。文章強調,通過將代理嵌入生態系統並持續改進,可以構建難以複製的競爭優勢。

  • 代理循環讓模型反覆調用工具完成任務,是基礎循環。
  • 驗證循環通過評分與反饋確保輸出質量。
站內正文

我將20年的企業AI銷售經驗打包成一個Claude技能

前向部署銷售(FDS)是一種面向AI時代的企業銷售方法論,已打包為Claude技能並開源。它基於20年的銷售實踐提煉而成,旨在通過AI輔助將銷售週期壓縮3-10倍。

  • FDS是一種基於20年企業銷售經驗(包括在AWS等公司)打造的AI時代銷售方法論。
  • 它被打包為Claude技能,60秒即可安裝,包含完整的AI輔助銷售手冊。
站內正文

寶可夢卡牌AI對戰挑戰賽

寶可夢卡牌AI對戰挑戰賽是一項讓AI在寶可夢集換式卡牌遊戲中一決高下的競賽。比賽分為模擬賽和策略賽兩個階段,總獎金池豐厚,決賽將於2026年末舉行。

  • 比賽模擬賽階段在Kaggle上進行,AI代理自動對戰,實時排名。
  • 策略賽階段需提交AI策略報告,綜合穩定性、卡組設計和模擬賽成績。
站內正文

HPE與NVIDIA擴展AI工廠,迎接智能體時代

企業正將智能體AI從概念驗證轉向生產,下一代AI工廠為此設計。在HPE Discover大會上,NVIDIA和HPE宣佈擴展HPE AI Factory,包括NVIDIA Vera CPU和NVIDIA Agent Toolkit。Vera CPU專為智能體設計,提供確定性低延遲性能。NVIDIA機密計算現覆蓋整個HPE AI Factory產品組合。此外,全棧NVIDIA集成增強,涵蓋網絡、DPU和GPU。

  • NVIDIA Vera CPU將於2027年隨HPE Private Cloud AI上市,專為智能體工作負載優化。
  • NVIDIA Agent Toolkit現可用於HPE Private Cloud AI,提供智能體AI操作系統。
站內正文
芯片

在 Amazon SageMaker AI 上使用 P-EAGLE 實現推測解碼並行化

本篇文章指導您如何在 Amazon SageMaker AI 中直接使用 P-EAGLE,展示如何從 SageMaker JumpStart 目錄中選擇兼容模型、配置並行草稿規格,並部署高度優化的實時 SageMaker AI 端點以加速生成式 AI 應用。

  • P-EAGLE 通過一次前向傳播並行預測所有草稿令牌,消除了傳統推測解碼的串行瓶頸。
  • 相比 EAGLE-3,在真實基準測試中吞吐量提升高達 1.69 倍。
站內正文

蘋果2027年傳聞:帶攝像頭的AirPods用於AI及第二款摺疊iPhone

據彭博社記者馬克·古爾曼報道,蘋果計劃於2027年底推出帶攝像頭的AirPods,以增強Siri的視覺上下文能力,同時還有第二款摺疊iPhone和20週年紀念版iPhone等產品正在研發中。

  • 帶攝像頭的AirPods預計2027年底上市,內部測試基於iOS 28。
  • 攝像頭位於耳機柄上,配有指示燈,可為Siri提供視覺上下文。
站內正文

高通最新芯片暗示更強大的智能眼鏡即將問世

高通發佈Snapdragon Reality Elite芯片,專為下一波XR設備設計,性能大幅提升,包括GPU提升60%、CPU提升30%、NPU提升高達160%,並改善散熱和電池續航。該芯片已用於即將推出的Aura眼鏡,預示着更強大、更輕便的AI智能眼鏡即將到來。

  • 高通推出Snapdragon Reality Elite芯片,面向XR設備,性能全面提升。
  • GPU性能提升60%,CPU提升30%,NPU提升高達160%。
站內正文

供應鏈資本主義、平台重商主義與AI政變:依賴性的政治經濟學

本文分析了資本主義中不同的剝削策略如何導致權力集中,威脅民主政體。通過供應鏈資本主義、平台重商主義和AI政變三個案例,作者提出了“依賴性的政治經濟學”框架,探討科技巨頭與政治權力的融合,以及AI在這一過程中的關鍵角色。

  • 供應鏈資本主義始於20世紀80年代,通過外包和全球價值鏈重塑全球經濟。
  • 平台重商主義在21世紀10年代興起,數字平台通過數據提取和網絡效應積累巨大權力。