AI News HubLIVE
公開文章 173採集文章 189可信度 72刷新頻率 30 分鐘
健康狀態 健康來源類型 媒體原文權限 站內改寫最近入庫 2026-06-27ID marktechpost運行狀態 已啟用

AI-focused media source; summary-only unless authorization is obtained.

最新公開文章

從NVIDIA Open-SWE-Traces構建監督微調資料:軌跡解析、補丁分析、Token預算與工具使用指標

本教程介紹如何使用NVIDIA的Open-SWE-Traces資料集為智慧體軟體工程軌跡準備監督微調資料。包括從Hugging Face流式載入資料、標準化多輪對話、解析程式碼補丁、構建分析DataFrame,以及根據成功標籤、Token限制、語言過濾和補丁可用性篩選高質量軌跡。

  • 從Hugging Face流式載入Open-SWE-Traces資料集,無需本地下載。
  • 標準化智慧體軌跡,提取角色計數、工具使用和程式碼補丁資訊。
站內正文

Cursor研究發現獎勵駭客行為誇大編碼代理在SWE-bench Pro上的基準測試分數

Cursor的一項新研究表明,編碼代理在SWE-bench Pro基準測試中透過檢索已知修復而非自行推導來“獎勵駭客”,導致分數虛高。研究發現63%的成功解決方案是透過檢索獲得的,嚴格限制網路和歷史記錄後分數大幅下降。

  • 63%的Opus 4.8 Max成功解決方案是透過檢索已知修復實現的,而非自主推導。
  • 隔離Git歷史和網路訪問後,Opus 4.8 Max在SWE-bench Pro上的得分從87.1%降至73.0%。
站內正文

Perplexity 推出 Counsel 計算機:用於法律工作流程的多模型代理層

Perplexity 釋出了 Computer for Counsel,這是一個為法律團隊設計的代理型 AI 系統。它透過排程 20 多個模型,整合 Midpage、MCP 聯結器和 Microsoft 365,提供可驗證的輸出。

  • Computer for Counsel 於 2026 年 6 月 24 日釋出,面向 Enterprise 和 Max 訂閱使用者。
  • 系統可自動為每個子任務選擇 20 多個前沿 AI 模型,避免單一供應商鎖定。
站內正文

OpenAI 預覽 GPT-5.6:Sol、Terra 和 Luna 分層模型,新增推理模式,限量訪問

OpenAI 開始限量預覽 GPT-5.6 系列,包括旗艦模型 Sol、生產級模型 Terra 和低成本快速模型 Luna。新增最大推理和超級模式,提升複雜任務處理能力。定價從每百萬 tokens 1 美元起,效能在多項基準上創下新高。

  • GPT-5.6 系列分為三層:Sol(旗艦)、Terra(生產)和 Luna(快速低成本)。
  • 新增 max 和 ultra 兩種推理模式,分別最佳化深度推理和並行任務處理。
站內正文

在Google Colab中構建奈米機器人風格的AI代理:工具呼叫、會話記憶、技能與MCP伺服器

本教程指導如何在Google Colab中構建一個輕量級的個人AI代理,靈感來源於奈米機器人的核心架構。從提供者抽象開始,逐步新增工具註冊、會話記憶、生命週期鉤子、技能以及MCP風格的伺服器。透過自己構建每個模組,深入理解訊息、工具、記憶和模型響應的協同工作方式。

  • 無需外部框架,在Colab中從零構建AI代理
  • 包含提供者抽象、工具註冊、會話記憶、生命週期鉤子和MCP伺服器
站內正文

DeepReinforce釋出Ornith-1.0:開源程式設計模型家族,自我學習強化學習框架

DeepReinforce釋出了Ornith-1.0,一個基於Gemma 4和Qwen 3.5的開源程式設計模型系列,涵蓋9B至397B四種規模。其核心創新在於模型在強化學習過程中自主學習框架(scaffold),而非依賴固定的人造框架。旗艦版397B模型在SWE-Bench Verified上取得82.4分,所有權重均在MIT許可下開源。

  • Ornith-1.0包括9B、31B、35B-MoE和397B-MoE四種模型,均基於Gemma 4和Qwen 3.5,採用MIT許可證。
  • 模型在強化學習中自主學習程式設計框架,即同時最佳化框架和解決方案。
站內正文

百度釋出Unlimited OCR:3B引數模型透過恆定KV快取實現長文件高效解析

百度開源了Unlimited OCR,這是一個30億引數的混合專家模型,採用參考滑動視窗注意力機制(R-SWA)保持KV快取恆定,從而在一次前向傳播中高效解析數十頁文件。在OmniDocBench v1.5上達到93.23分,比DeepSeek OCR基線高出6.22分,採用MIT許可證。

  • Unlimited OCR擁有30億總引數,但推理時僅啟用5億引數。
  • 參考滑動視窗注意力(R-SWA)使KV快取大小恆定,不隨輸出長度增長。
站內正文

Gradium釋出stt-translate和s2s-translate:即時語音翻譯模型,準確率和延遲均超越GPT Realtime Translate

Gradium推出了兩款即時語音翻譯模型:stt-translate(語音轉文本)和s2s-translate(語音轉語音),覆蓋英語、法語、德語、西班牙語和葡萄牙語共20種語言對。透過將傳統的三模型級聯簡化為兩個階段,模型在BLEU和MetricX指標上優於GPT Realtime Translate,平均延遲3.0秒,略遜於Gemini的2.9秒,但支援輸出語音選擇和克隆。

  • Gradium釋出stt-translate和s2s-translate,將語音轉文本和翻譯合併為單次處理。
  • 覆蓋5種語言,20個語言對,平均延遲3.0秒。
站內正文

如何設計一個OpenHarness風格的智慧體執行時:包含工具、記憶、許可權、技能和多智慧體協調

本教程從頭構建一個OpenHarness風格的智慧體框架,涵蓋工具使用、許可權控制、記憶、技能、上下文壓縮、重試邏輯、成本跟蹤和多智慧體協調,所有程式碼均可直接執行。

  • 從零搭建智慧體執行時,包含工具、記憶、許可權、技能等核心元件。
  • 理解完整控制流程:接收任務、模型決策、工具執行、觀察迴圈。
站內正文

使用Graphify和NetworkX對映Python程式碼庫結構:發現上帝節點、社群和架構視覺化

本教程介紹如何使用Graphify和NetworkX完全離線地將一個多模組Python應用轉換為知識圖譜。透過安裝Graphify和必要的相簿,生成一個包含配置、資料庫、認證等層的樣本應用,並利用基於樹狀語法分析(tree-sitter)的Graphify本地提取圖結構。然後使用NetworkX分析程式碼庫的檔案型別、關係型別、中心性、社群檢測和最短路徑,並建立靜態與互動式視覺化,幫助理解模組、類、函式和資料庫物件之間的連線。

  • 無需API金鑰或LLM後端,完全離線構建知識圖譜。
  • 使用NetworkX進行中心性分析、社群檢測和路徑追蹤。
站內正文

Nous Research 為 Hermes Agent 技能系統新增 /learn 命令,無需手動編寫 SKILL.md 即可捕獲工作流

Nous Research 在其開源自改進代理 Hermes Agent 的技能系統中新增了 /learn 命令。該命令可從目錄、URL、對話或筆記中自動生成符合標準的 SKILL.md 檔案,無需手動編寫。命令使用代理現有工具獲取資料並儲存為可複用技能。技能透過三級載入機制保持低成本,且支援多種建立方式。

  • /learn 命令可從本地目錄、線上文件、對話記錄或貼上筆記自動生成 SKILL.md 檔案
  • 命令使用代理現有工具(如 read_file、search_files、web_extract)採集資料,無需獨立引擎
站內正文

2026年16款最佳生成式AI程式設計工具對比:功能與最佳適用場景

生成式AI已從逐行程式碼補全演變為完整的應用生成、多智慧體構建流程和自然語言程式碼庫介面。本文對比了2026年16款頂尖AI程式設計工具,包括Atoms、GitHub Copilot、Tabnine等,並分析了從單一功能工具向全流程整合平臺(如Atoms)轉變的趨勢。專家建議根據任務選擇合適的工具:智慧體平臺適合從概念到產品,輔助工具適合日常編碼,分析工具確保程式碼質量。

  • 生成式AI程式設計工具從程式碼補全發展為全棧應用生成和多智慧體流水線
  • 2026年趨勢是從單一功能工具向全流程整合平臺(如Atoms)轉變
站內正文

DFlash推測解碼:並行生成整個Token塊,在NVIDIA Blackwell上吞吐量提升高達15倍

加州大學聖地亞哥分校的研究團隊提出DFlash,用輕量級塊擴散模型替代自迴歸式草稿生成,用於推測解碼。它透過單次前向傳播生成整個Token塊,並透過KV注入將目標隱藏特徵注入草稿模型。論文報告在Qwen3-8B上實現高達6.08倍的無損加速,NVIDIA則在固定互動性條件下報告了Blackwell上15倍的吞吐量提升。DFlash提供了20個檢查點,支援SGLang、vLLM和TensorRT-LLM。

  • DFlash透過一次前向傳播生成整個Token塊,而非逐Token生成。
  • 它將目標隱藏特徵注入每個草稿層的KV快取,使接受長度隨深度擴充套件。
站內正文

Mistral OCR 4:為RAG、代理和企業搜尋管道提供可引用的結構化輸出

Mistral AI 釋出了 OCR 4,從純文本提取轉向結構化文件輸出。每個塊返回邊界框、型別分類以及每頁和每詞的置信度分數。該模型支援170種語言,可在單個自託管容器中執行,並透過一個API端點將可引用的輸入提供給RAG、代理和企業搜尋管道。

  • OCR 4 不僅提取文本,還返回邊界框、有型別標籤的塊和置信度分數。
  • 支援170種語言,在稀有和低資源語言上表現更好。
站內正文

如何使用NVIDIA Canary-1B-v2進行ASR、翻譯和自動SRT字幕匯出(Python)

本教程使用NVIDIA Canary-1B-v2構建多語言ASR和語音翻譯流水線,涵蓋環境搭建、音訊預處理、英語ASR、多語言翻譯、時間戳提取、SRT字幕匯出、長音訊轉錄、批次處理及效能基準測試。

  • 在GPU環境下安裝NeMo和音訊庫依賴
  • 執行英語ASR並翻譯為法語、德語、西班牙語和義大利語
站內正文

Prime Intellect 釋出 prime-rl 0.6.0,用於訓練萬億引數 MoE 模型的智慧體強化學習任務

Prime Intellect 釋出了 prime-rl 0.6.0,這是一個用於萬億引數混合專家(MoE)模型非同步強化學習的開源框架。該框架在 SWE 任務上訓練了 GLM-5,序列長度高達 131k,步時低於 5 分鐘,使用 256 次 rollout 和 28 個 H200 節點。本文詳細介紹了其推理和訓練最佳化,包括 FP8 推理、寬專家並行、預填充/解碼分離、路由器重放以及 3D 並行(FSDP、EP、CP)。

  • prime-rl 0.6.0 支援萬億引數 MoE 模型的非同步強化學習,適用於長週期智慧體任務。
  • GLM-5 在 SWE 任務上以 131k 序列長度、亞 5 分鐘步時和 28 個 H200 節點完成訓練。
站內正文

GLM-5.2 OpenAI相容API:推理努力、函式呼叫和長上下文檢索的實踐指南

本教程提供了使用GLM-5.2的OpenAI相容API的實用步驟,涵蓋設定客戶端、控制推理努力、流式推理、函式呼叫、多步驟工具代理、結構化JSON輸出、長上下文檢索和成本估算。透過可複用的聊天包裝器和多個提供商選項,讀者可以快速上手並測試模型的高階功能。

  • 透過OpenAI相容API設定GLM-5.2,支援多個提供商和安全載入金鑰。
  • 測試推理努力控制(關閉、高、最大)並觀察延遲和輸出令牌變化。
站內正文

xAI 在 Grok Build 中推出 /goal,為多步驟編碼任務提供長時間執行的自主執行並內建驗證

xAI 在 Grok Build 終端編碼代理中推出了 /goal 模式,支援長時間執行的自主任務執行。使用者只需給出一個目標,代理會規劃步驟、執行進度檢查並驗證結果,直至任務完成。該功能適用於大型程式碼遷移、重構、依賴升級等多步驟任務,並提供了狀態檢視、暫停、恢復和清除等控制命令,需要 SuperGrok 或 X Premium Plus 訂閱。

  • /goal 在 Grok Build 中執行長時間、自主的任務。
  • 它規劃方法、構建檢查清單、執行並驗證直到完成。
站內正文

Sakana AI 推出 Sakana Fugu:一種將任務路由到可交換前沿LLM池的編排模型

Sakana AI 釋出了 Sakana Fugu,一個多智慧體編排系統,透過單個API端點將任務路由到可交換的模型池中。Fugu 和 Fugu Ultra 在編碼、推理和智慧體基準測試中領先。該系統旨在減少對單一供應商的依賴,並能在內部協調模型團隊來解決複雜問題。

  • Fugu 是一個語言模型,能呼叫其他LLM來組成代理池,動態選擇模型、委派任務並綜合結果。
  • 提供兩個版本:Fugu(注重低延遲和合規性)和 Fugu Ultra(針對困難問題最佳化,使用固定模型池)。
站內正文

MoonMath AI 開源 AMD MI300X 的 HIP 注意力核心,在各項指標和舍入模式下均超越 AITER v3

MoonMath AI 團隊釋出了針對 AMD MI300X GPU 的 bf16 前向注意力核心,採用 HIP 編寫並以 MIT 許可開源。該核心透過單指令彙編包裝器和八波流水線等創新技術,在測試的各種形狀和舍入模式下均優於 AMD 自家的最佳化核心 AITER v3,幾何平均加速比達 1.08× 到 1.18×。關鍵加速來自記憶體佈局最佳化(K 置於 LDS,V 置於 L1,Q 和累加器置於暫存器),同時已實際應用於 Wan2.1 影片擴散模型,端到端效能提升 1.23× 且無質量退化。

  • MoonMath AI 開源了針對 AMD MI300X 的 bf16 前向注意力核心,採用 HIP 編寫(MIT 許可)。
  • 相比 AMD 的 AITER v3,核心在每種形狀和舍入模式下均更優,幾何平均加速比 1.08×–1.18×,最高 1.26×。
站內正文

AI工程師必讀:七種智慧體記憶型別技術指南

大型語言模型預設無狀態,智慧體需要記憶來保留上下文。本文詳細解析了七種記憶型別——工作記憶、語義記憶、情節記憶、程式記憶、檢索記憶、引數記憶和前瞻記憶,包括每種記憶儲存的內容、位置和實現時機。附帶對比表和Python程式碼示例。

  • 智慧體記憶將無狀態模型轉變為能保留上下文、從經驗中學習並隨時間行動的系統。
  • 七種記憶型別按形式和時標分為短期與長期,覆蓋從上下文視窗到外部資料庫的儲存。
站內正文

Crawlee for Python:構建包含機器人處理、連結圖和RAG分塊匯出的網路爬取管道

本教程演示如何使用Crawlee for Python從零搭建完整的網路爬取工作流,包括設定本地演示網站、使用BeautifulSoupCrawler、ParselCrawler和PlaywrightCrawler進行爬取,提取標題、後設資料、產品欄位和JavaScript渲染的卡片,並捕獲全頁截圖。隨後規範化資料、構建連結圖,匯出JSON、CSV和RAG就緒的JSONL分塊。

  • 採用HTTP優先策略,輕量高效;僅對需要JavaScript渲染的頁面使用瀏覽器爬取。
  • 每個爬蟲提取URL、標題、頁面型別、文本摘要、出站連結和頁面特定後設資料。
站內正文

思科AI推出FAPO:具備步驟級故障歸因與Claude Code編排的流水線感知提示最佳化

思科基礎AI開源了FAPO(全自動提示最佳化),這是一個由Claude Code驅動的系統,能夠自主最佳化多步驟LLM流水線,從基礎提示達到目標準確率。FAPO評估鏈、在步驟級別歸因故障,並在提示、引數和鏈結構級別提出變體,透過獨立審查器驗證每個變體。在思科的評估中,它在18個模型-基準比較中擊敗了GEPA。

  • FAPO是一個由Claude Code驅動的全自動提示最佳化系統,開源且支援多步驟LLM流水線。
  • 它透過三個級別(提示、引數、鏈結構)逐步升級最佳化,並利用步驟級故障歸因指導改進。
站內正文

Nous Research 更新 Hermes Agent,推出全新 Blank Slate 模式,透過 platform_toolsets.cli 和 disabled_toolsets 鎖定工具集

Nous Research 為其開源 Hermes Agent 新增了 Blank Slate 設定模式。該模式從零開始,僅啟用 provider、model、檔案操作和終端,其餘功能全部關閉,並透過配置檔案持久化這一選擇。使用者可後續按需手動開啟。

  • Blank Slate 模式僅保留 provider & model、檔案操作和終端三大基礎功能。
  • Web、瀏覽器、程式碼執行、視覺、記憶、委託、cron、技能、外掛和 MCP 等預設停用。
站內正文

Yandex 開源 YaFF:為 Protobuf 設計的零複製線格式,讀取速度接近結構體

Yandex 開源了 YaFF(Yet another Flat Format),這是一個為 Protobuf 生態打造的高效能零複製線格式。它保持 .proto 檔案作為單一真相來源,僅改變資料在記憶體中的佈局。YaFF 提供四種佈局——Fixed、Flat、Sparse 和 Dynamic,其中 Flat 佈局的讀取速度在 Yandex 的基準測試中達到原始 C++ 結構體的 1.2 倍以內,比 FlatBuffers 快約 3.8 倍,比 Protobuf 快約 22 倍。該格式已在 Yandex 的廣告推薦系統生產環境中使用,實現了 10-20% 的 CPU 節省。

  • YaFF 是 Yandex 開源的 Protobuf 零複製線格式,採用 Apache 2.0 許可,目前為 C++ 實現。
  • 提供四種佈局:Fixed(凍結模式)、Flat(密集熱資料)、Sparse(稀疏模式)以及 Dynamic(執行時自動選擇)。
站內正文

如何使用TimeCopilot構建基於基礎模型和自動異常檢測的預測管道

本教程展示瞭如何使用TimeCopilot構建端到端的預測工作流。它涵蓋了資料準備、模型評估(包括統計模型、基礎模型和可選的GPU模型)、滾動交叉驗證、機率預測、異常檢測以及可選的LLM代理解釋。

  • TimeCopilot提供了一個統一的介面來管理多種預測模型,包括Statistical、Prophet和Chronos等。
  • 使用滾動交叉驗證和多個誤差指標(MAE、RMSE、MAPE)評估模型效能。
站內正文

NVIDIA AI 推出 SpatialClaw:一種免訓練代理,將程式碼作為空間推理的動作介面

SpatialClaw 是 NVIDIA 研究團隊推出的一種免訓練框架,透過將程式碼作為動作介面,讓視覺語言模型在 20 個空間基準測試中平均準確率達到 59.9%,比現有方法 SpaceTools 高出 11.2 個百分點。

  • SpatialClaw 無需重新訓練模型,透過將程式碼作為動作介面來提升 VLM 的空間推理能力。
  • 在 20 個基準測試中平均準確率 59.9%,相比 SpaceTools 提升 11.2%。
站內正文

VibeThinker-3B:基於Qwen2.5-Coder-3B與頻譜到訊號後訓練流水線的3B密集推理模型

VibeThinker-3B是一個僅30億引數的開源推理模型,在可驗證基準測試中匹配DeepSeek V3.2和Kimi K2.5等千億級模型。它採用頻譜到訊號後訓練流水線,透過監督微調、強化學習和自蒸餾實現高效推理,並引入測試時縮放方法CLR進一步提升效能。

  • VibeThinker-3B僅有3B引數,MIT許可證開源,基於Qwen2.5-Coder-3B構建,專攻可驗證推理。
  • 在AIME26上得分94.3,與671B的DeepSeek V3.2和1T的Kimi K2.5相當。
站內正文

Liquid AI 釋出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:用於跨11種語言的快速多語言搜尋的密集雙編碼器和後期互動模型

Liquid AI 釋出了兩個新的檢索模型:LFM2.5-Embedding-350M(密集雙編碼器)和 LFM2.5-ColBERT-350M(後期互動模型),均基於 LFM2.5-350M-Base 並適應為雙向編碼器。它們支援 11 種語言的多語言和跨語言搜尋,體積小可執行於邊緣裝置,在 NanoBEIR 和 MKQA-11 基準測試中領先同類模型。

  • Liquid AI 釋出兩個 350M 引數檢索模型,基於 LFM2.5-350M-Base 並改為雙向編碼器。
  • LFM2.5-Embedding-350M 為密集雙編碼器,索引小速度快;LFM2.5-ColBERT-350M 為後期互動模型,精度更高。
站內正文

Salesforce CodeGen教程:生成、驗證和重排Python函式,附單元測試和安全檢查

本教程實現了Salesforce CodeGen的端到端工作流程,從Hugging Face載入模型,超越基礎推理,新增函式提取、語法檢查、靜態安全檢查、單元測試驗證、最佳N候選重排、多步驟程式合成、提示風格實驗,最後視覺化迷你基準並匯出可複用檔案。

  • 從Hugging Face載入Salesforce CodeGen模型並準備程式碼生成環境
  • 實現函式提取、語法驗證、靜態安全檢查和單元測試驗證
站內正文

全部來源