AI News HubLIVE

今日必讀

工具

Show HN: Empirical – 你的個人AI記憶,跨越所有AI工具

Empirical是一種AI記憶基礎設施,旨在為所有AI工具提供統一的個人記憶層,幫助使用者在不同平臺之間保持上下文和偏好的一致性。

  • Empirical作為AI的記憶層,跨工具同步使用者資料和偏好。
  • 旨在解決AI工具之間的“記憶孤島”問題。
站內正文
Agent

Ornith-1.0:自我改進的開原始碼智慧編碼模型

Ornith-1.0 是一個開源編碼智慧體模型系列,基於 Gemma 4 和 Qwen 3.5 後訓練,採用強化學習同時最佳化搜尋腳手架和解決方案,在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基準測試中達到同類開源模型的最優效能。提供 9B(密集)、35B(MoE)和 397B(MoE)三種規模,MIT 許可證,支援 OpenAI 相容 API 和工具呼叫,可部署於 vLLM、SGLang、llama.cpp 等推理引擎。

  • Ornith-1.0 包含 9B、35B MoE 和 397B MoE 三個版本,在多項編碼基準上取得開源模型最佳結果。
  • 採用自我改進的強化學習框架,聯合訓練搜尋腳手架與解決方案,提升搜尋軌跡質量。
站內正文

Claude 遇見 Blackwell Ultra:Anthropic 模型現已在 Azure 上搭載 NVIDIA GB300 執行

Anthropic 的 Claude 模型在 Microsoft Foundry 中——託管於 Microsoft Azure 並執行在 NVIDIA GB300 Blackwell Ultra GPU 上——現已普遍可用,為 Azure 原生企業構建自主且特定領域的 AI 代理提供了強大新方式。

  • Anthropic Claude 模型在 Azure 上透過 NVIDIA GB300 GPU 加速,現已在 Microsoft Foundry 中全面推出。
  • 該整合支援企業構建和執行更強大的自主 AI 代理系統,包括跨業務領域的專業子代理。
站內正文

在Deep Agents中引入動態子代理

動態子代理允許AI智慧體使用程式碼而非工具呼叫來大規模編排工作。瞭解Deep Agents中的程式化編排如何保證覆蓋範圍、處理扇出,並透過常見編排模式和即時跟蹤實現可靠的多步驟複雜智慧體管道。

  • 動態子代理透過編寫程式碼來實現子任務的排程,取代了傳統的一對一工具呼叫,提高了大規模任務處理的可靠性。
  • 程式化編排確保了確定性覆蓋和複雜邏輯,如迴圈、分支和併發,使得多階段管道和扇出加合成模式更加可靠。
站內正文

可觀測性的未來不會是單一專利AI代理,而是由團隊構建的數千個代理

文章認為,可觀測性不會演變為一個通用的AI代理,而是由數千個專門為團隊構建的代理組成,強調了上下文、開放性和共享調查工件的重要性。

  • 可觀測性的未來不是通用的SRE代理,而是大量針對特定團隊的代理。
  • 代理將擴大調查範圍,給資料系統帶來壓力。
站內正文
晶片

今日下載:指標的弱點與人工智慧大象預警

本期《下載》探討了量化生活中指標的潛在危害,印度利用人工智慧系統減少人象衝突,以及科技領域的其他重要新聞,包括Anthropic的Mythos 5釋出、中國AI模型匹配其漏洞發現能力、蘋果尋求從黑名單公司購買晶片等。

  • 指標可能掩蓋真正重要的東西,並重新定義我們的價值觀。
  • 印度部署AI預警系統,將大象與人衝突的響應時間縮短至數分鐘甚至數秒。
站內正文

全新遊戲GPU挑戰者:Bolt Graphics瞄準Nvidia

Bolt Graphics推出新款遊戲GPU,旨在與Nvidia競爭。該影片展示了其技術特點和市場定位。

  • Bolt Graphics釋出新遊戲GPU,挑戰Nvidia地位。
  • 影片介紹其效能和創新技術。
站內正文
政策

零基礎設施成本打造AI Chrome擴充套件——PR Focus AI Pro的BYOK架構

PR Focus AI Pro是一款Chrome擴充套件程式,利用BYOK架構實現零伺服器成本,為GitHub Pull Request提供AI驅動的風險評分、摘要和稽核建議,所有資料本地處理,無需後端支援。

  • 本地AI處理:使用使用者自己的API金鑰(OpenAI、Groq等),程式碼和金鑰均不離開本地瀏覽器。
  • 智慧分診:0–100風險評分,基於CI狀態、PR年齡和程式碼範圍,AI從實際差異生成摘要。
站內正文
模型

Ornith-1.0:用於自主程式設計的自支架LLM

DeepReinforce釋出了首個開放權重模型Ornith-1.0,基於Gemma 4和Qwen 3.5,提供多種引數規模(9B到397B),在程式設計基準測試中達到開源模型最佳效能。作者使用LM Studio測試了35B MoE變體,發現其能熟練處理多個工具呼叫,並在代理程式設計任務中表現出色。該模型採用MIT許可,底層模型均為Apache 2.0許可,相容性良好。

  • Ornith-1.0是DeepReinforce首個開源模型,採用MIT許可
  • 基於Gemma 4和Qwen 3.5,有9B Dense、31B Dense、35B MoE和397B MoE四種變體
站內正文

你對AI的投入決定了結果

本文透過採訪AI教育者Harper Carroll,探討了微調與提示工程的差異、2025年學習程式設計的意義以及AI領域與公眾溝通的誤區。Harper認為,AI是一種媒介,其結果取決於使用者的投入。她透過微調開源模型成功復現自己的寫作風格,並強調直覺是人類在AI時代的關鍵優勢。

  • 微調能改變模型輸出分佈,而提示工程僅表面調整。
  • 學習程式設計仍重要,但更應注重系統理解而非語法細節。
站內正文
其餘更新(5 條)
Agent

如何利用LangSmith構建Candidly的狀態感知智慧體引擎

Candidly構建了一種狀態感知的對話智慧體引擎,透過輸入-輸出隱馬爾可夫模型(IO-HMM)即時推斷使用者參與狀態,並據此調整回覆策略,顯著降低對話放棄率。文章詳細介紹了從軌跡特徵提取、狀態模型訓練到策略部署和實驗驗證的全過程。

  • Candidly使用IO-HMM從對話軌跡中提取使用者狀態和智慧體行為特徵,模型識別出四種參與狀態:參與、詳細、引導和脫離。
  • 基於狀態的策略將脫離狀態佔比從23%降至11%,顯著提升對話解決率。
站內正文

Katra:AI代理的自託管認知記憶系統(MCP)

Katra 是一個開源自託管記憶系統,為 AI 代理提供類似人類的認知記憶能力,包括情景記憶、語義搜尋、知識圖譜和時間分析。它透過 MCP 協議與任何相容代理(如 OpenClaw、Claude Code 等)整合,並提供35個專用工具。專案靈感來自 Star Trek 的瓦肯人精神融合(katra),旨在透過多層級記憶架構和睡眠鞏固機制實現湧現行為。

  • Katra 提供多層級記憶:情景記憶、語義記憶、工作記憶、知識圖譜和時間查詢。
  • 支援任意 MCP 相容代理,提供35個專門工具。
站內正文

向AI專家提問:到底什麼是全棧?

Google專家Richard Seroter解釋了全棧AI方法的含義,以及為什麼它長期以來一直是Google AI工作的基礎。

  • 全棧AI意味著一個整合系統,涵蓋基礎設施、模型、編排和介面。
  • Google對TPU和模型長達十年的投資帶來了可靠性和有競爭力的價格。
站內正文
政策

美國國會擬禁止AI公司出售你的健康資料

美國國會即將提出新版《健康與位置資料保護法》,禁止所有公司向資料經紀商出售健康與位置資訊,包括使用者向AI聊天機器人透露的資料。法案賦予FTC、州檢察長及個人起訴權,並撥款10億美元用於執法。

  • 新法案將禁止公司向資料經紀商出售健康與位置資料,明確涵蓋AI系統輸入的資訊。
  • AI實驗室如OpenAI、Anthropic、xAI正積極拓展健康領域產品,引發資料保護擔憂。
站內正文
模型

LlamaParse檢索工具包:面向AI代理的檔案系統原語

LlamaIndex釋出了LlamaParse索引的更新,新增檢索工具包,為AI代理提供檔案系統級文件遍歷工具,以及視覺佈局保留、託管基礎設施和管道可觀測性功能。

  • 檢索工具包包含四種檔案系統原語:混合檢索、列出檔案、檔案Grep和檔案讀取。
  • 視覺佈局保留功能可捕獲頁面截圖,以處理佈局依賴型內容。