AI News HubLIVE

今日必讀

工具

Show HN: Empirical – 你的個人AI記憶,跨越所有AI工具

Empirical是一種AI記憶基礎設施,旨在為所有AI工具提供統一的個人記憶層,幫助用户在不同平台之間保持上下文和偏好的一致性。

  • Empirical作為AI的記憶層,跨工具同步用户數據和偏好。
  • 旨在解決AI工具之間的“記憶孤島”問題。
站內正文
Agent

Ornith-1.0:自我改進的開源代碼智能編碼模型

Ornith-1.0 是一個開源編碼智能體模型系列,基於 Gemma 4 和 Qwen 3.5 後訓練,採用強化學習同時優化搜索腳手架和解決方案,在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基準測試中達到同類開源模型的最優性能。提供 9B(密集)、35B(MoE)和 397B(MoE)三種規模,MIT 許可證,支持 OpenAI 兼容 API 和工具調用,可部署於 vLLM、SGLang、llama.cpp 等推理引擎。

  • Ornith-1.0 包含 9B、35B MoE 和 397B MoE 三個版本,在多項編碼基準上取得開源模型最佳結果。
  • 採用自我改進的強化學習框架,聯合訓練搜索腳手架與解決方案,提升搜索軌跡質量。
站內正文

Claude 遇見 Blackwell Ultra:Anthropic 模型現已在 Azure 上搭載 NVIDIA GB300 運行

Anthropic 的 Claude 模型在 Microsoft Foundry 中——託管於 Microsoft Azure 並運行在 NVIDIA GB300 Blackwell Ultra GPU 上——現已普遍可用,為 Azure 原生企業構建自主且特定領域的 AI 代理提供了強大新方式。

  • Anthropic Claude 模型在 Azure 上通過 NVIDIA GB300 GPU 加速,現已在 Microsoft Foundry 中全面推出。
  • 該集成支持企業構建和運行更強大的自主 AI 代理系統,包括跨業務領域的專業子代理。
站內正文

在Deep Agents中引入動態子代理

動態子代理允許AI智能體使用代碼而非工具調用來大規模編排工作。瞭解Deep Agents中的程序化編排如何保證覆蓋範圍、處理扇出,並通過常見編排模式和實時跟蹤實現可靠的多步驟複雜智能體管道。

  • 動態子代理通過編寫代碼來實現子任務的調度,取代了傳統的一對一工具調用,提高了大規模任務處理的可靠性。
  • 程序化編排確保了確定性覆蓋和複雜邏輯,如循環、分支和併發,使得多階段管道和扇出加合成模式更加可靠。
站內正文

可觀測性的未來不會是單一專利AI代理,而是由團隊構建的數千個代理

文章認為,可觀測性不會演變為一個通用的AI代理,而是由數千個專門為團隊構建的代理組成,強調了上下文、開放性和共享調查工件的重要性。

  • 可觀測性的未來不是通用的SRE代理,而是大量針對特定團隊的代理。
  • 代理將擴大調查範圍,給數據系統帶來壓力。
站內正文
芯片

今日下載:指標的弱點與人工智能大象預警

本期《下載》探討了量化生活中指標的潛在危害,印度利用人工智能系統減少人象衝突,以及科技領域的其他重要新聞,包括Anthropic的Mythos 5發佈、中國AI模型匹配其漏洞發現能力、蘋果尋求從黑名單公司購買芯片等。

  • 指標可能掩蓋真正重要的東西,並重新定義我們的價值觀。
  • 印度部署AI預警系統,將大象與人衝突的響應時間縮短至數分鐘甚至數秒。
站內正文

全新遊戲GPU挑戰者:Bolt Graphics瞄準Nvidia

Bolt Graphics推出新款遊戲GPU,旨在與Nvidia競爭。該視頻展示了其技術特點和市場定位。

  • Bolt Graphics發佈新遊戲GPU,挑戰Nvidia地位。
  • 視頻介紹其性能和創新技術。
站內正文
政策

零基礎設施成本打造AI Chrome擴展——PR Focus AI Pro的BYOK架構

PR Focus AI Pro是一款Chrome擴展程序,利用BYOK架構實現零服務器成本,為GitHub Pull Request提供AI驅動的風險評分、摘要和審核建議,所有數據本地處理,無需後端支持。

  • 本地AI處理:使用用户自己的API密鑰(OpenAI、Groq等),代碼和密鑰均不離開本地瀏覽器。
  • 智能分診:0–100風險評分,基於CI狀態、PR年齡和代碼範圍,AI從實際差異生成摘要。
站內正文
模型

Ornith-1.0:用於自主編程的自支架LLM

DeepReinforce發佈了首個開放權重模型Ornith-1.0,基於Gemma 4和Qwen 3.5,提供多種參數規模(9B到397B),在編程基準測試中達到開源模型最佳性能。作者使用LM Studio測試了35B MoE變體,發現其能熟練處理多個工具調用,並在代理編程任務中表現出色。該模型採用MIT許可,底層模型均為Apache 2.0許可,兼容性良好。

  • Ornith-1.0是DeepReinforce首個開源模型,採用MIT許可
  • 基於Gemma 4和Qwen 3.5,有9B Dense、31B Dense、35B MoE和397B MoE四種變體
站內正文

你對AI的投入決定了結果

本文通過採訪AI教育者Harper Carroll,探討了微調與提示工程的差異、2025年學習編程的意義以及AI領域與公眾溝通的誤區。Harper認為,AI是一種媒介,其結果取決於使用者的投入。她通過微調開源模型成功復現自己的寫作風格,並強調直覺是人類在AI時代的關鍵優勢。

  • 微調能改變模型輸出分佈,而提示工程僅表面調整。
  • 學習編程仍重要,但更應注重系統理解而非語法細節。
站內正文
其餘更新(5 條)
Agent

如何利用LangSmith構建Candidly的狀態感知智能體引擎

Candidly構建了一種狀態感知的對話智能體引擎,通過輸入-輸出隱馬爾可夫模型(IO-HMM)實時推斷用户參與狀態,並據此調整回覆策略,顯著降低對話放棄率。文章詳細介紹了從軌跡特徵提取、狀態模型訓練到策略部署和實驗驗證的全過程。

  • Candidly使用IO-HMM從對話軌跡中提取用户狀態和智能體行為特徵,模型識別出四種參與狀態:參與、詳細、引導和脱離。
  • 基於狀態的策略將脱離狀態佔比從23%降至11%,顯著提升對話解決率。
站內正文

Katra:AI代理的自託管認知記憶系統(MCP)

Katra 是一個開源自託管記憶系統,為 AI 代理提供類似人類的認知記憶能力,包括情景記憶、語義搜索、知識圖譜和時間分析。它通過 MCP 協議與任何兼容代理(如 OpenClaw、Claude Code 等)集成,並提供35個專用工具。項目靈感來自 Star Trek 的瓦肯人精神融合(katra),旨在通過多層級記憶架構和睡眠鞏固機制實現湧現行為。

  • Katra 提供多層級記憶:情景記憶、語義記憶、工作記憶、知識圖譜和時間查詢。
  • 支持任意 MCP 兼容代理,提供35個專門工具。
站內正文

向AI專家提問:到底什麼是全棧?

Google專家Richard Seroter解釋了全棧AI方法的含義,以及為什麼它長期以來一直是Google AI工作的基礎。

  • 全棧AI意味着一個集成系統,涵蓋基礎設施、模型、編排和界面。
  • Google對TPU和模型長達十年的投資帶來了可靠性和有競爭力的價格。
站內正文
政策

美國國會擬禁止AI公司出售你的健康數據

美國國會即將提出新版《健康與位置數據保護法》,禁止所有公司向數據經紀商出售健康與位置信息,包括用户向AI聊天機器人透露的數據。法案賦予FTC、州檢察長及個人起訴權,並撥款10億美元用於執法。

  • 新法案將禁止公司向數據經紀商出售健康與位置數據,明確涵蓋AI系統輸入的信息。
  • AI實驗室如OpenAI、Anthropic、xAI正積極拓展健康領域產品,引發數據保護擔憂。
站內正文
模型

LlamaParse檢索工具包:面向AI代理的文件系統原語

LlamaIndex發佈了LlamaParse索引的更新,新增檢索工具包,為AI代理提供文件系統級文檔遍歷工具,以及視覺佈局保留、託管基礎設施和管道可觀測性功能。

  • 檢索工具包包含四種文件系統原語:混合檢索、列出文件、文件Grep和文件讀取。
  • 視覺佈局保留功能可捕獲頁面截圖,以處理佈局依賴型內容。