AI News HubLIVE

今日必讀

Agent

olmo-eval:面向模型開發迴圈的評估工作臺

olmo-eval 是一個新的評估工作臺,旨在支援 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上,提供靈活的任務定義、可交換的執行時策略以及詳細的逐問題比較功能,幫助開發者判斷每次干預的效果是否顯著。

  • olmo-eval 針對模型開發中的反覆評估迴圈而設計,支援快速新增基準、跨檢查點執行和細粒度結果分析。
  • 與 Harbor 等工具不同,olmo-eval 提供輕量級和沙箱兩種執行模式,並根據基準需求自動選擇。
站內正文

VibeClip:開源AI影片編輯器,透過聊天控制剪輯

VibeClip 是一款開源、自託管的 AI 影片編輯器,使用者只需透過聊天即可將長影片轉換為帶有字幕的 9:16 短影片。它使用本地 faster-whisper 進行轉錄,並透過 LLM 智慧分析精彩片段,支援多種 LLM 提供商,且資料完全由使用者掌控。

  • 開源、自託管,支援 Docker 一鍵部署
  • 透過自然語言聊天進行影片編輯,如裁剪、去除填充詞、新增樣式等
站內正文

ChatSee籌集650萬美元,為企業AI代理構建“故障記憶”

ChatSee.AI Inc.籌集了650萬美元種子資金,致力於為企業自主AI系統提供故障智慧層。該輪融資由True Ventures領投,旨在透過觀測代理故障、記錄上下文及修復方式,構建故障知識庫,幫助AI代理避免重複錯誤。

  • ChatSee獲得650萬美元種子輪融資,True Ventures領投。
  • 公司開發故障智慧層,專門用於觀測和分析企業AI代理的失效。
站內正文

Show HN: StackScope – 我爬取了四萬多個獨立產品釋出,看看他們用了什麼技術

StackScope是一個分析早期創業產品技術棧的網站,已分析超過41,763個產品釋出,追蹤了4851種技術。它揭示了39%的產品使用Cloudflare,19%有強AI生成模式,並且發現了一個矛盾:1255個產品既遮蔽AI爬蟲又釋出了llms.txt檔案。

  • StackScope分析了來自Product Hunt、Hacker News和PeerPush的41,763個產品釋出
  • 追蹤了4851種技術,包括託管、框架、AI訊號、安全等
站內正文

Swamp之所以有趣,是因為它不信任AI

Swamp是一個專注於工作流可靠性的AI工具,與當前追求自主代理的主流趨勢相反。它強調確定性檢查、可執行的工作流定義,以及將組織流程從文件轉化為可執行程式碼。來自SRE背景的作者認為,未來可能不是自主代理,而是可靠的代理。

  • Swamp反主流,專注可靠性和確定性,而非AI自主性。
  • 它把工作流作為一等公民,幫助定義和執行組織流程。
站內正文

展示 HN:消費 Hacker News 的糟糕方式——AI 垃圾內容

這篇文章展示了一個模擬的 Hacker News 評論流,其中所有評論均由 AI 生成,充滿空洞的流行詞和膚淺的分析,以諷刺當前 AI 生成內容氾濫的現象。

  • 該帖子模擬了一個由 AI 生成的 Hacker News 評論流,涵蓋多個話題。
  • 評論被故意設計為充滿流行詞和空洞分析,以突出 AI 生成內容的膚淺。
站內正文

從機器學習工程師到AI原生:重新技能化以佔據優勢

本文探討了機器學習工程師如何應對AI代理自動化的衝擊,強調核心技能是資料嚴謹性和判斷力,這些能力在AI原生世界中至關重要。透過將人類判斷與代理驅動的實驗迴圈相結合,工程師可以更快地迭代並解決複雜問題。文章以微調Llama模型提取文件欄位的實際案例展示了這一過程。

  • 機器學習中的通用層(如資料管道、標準模型訓練)正被AI代理自動化,但繫結到業務目標的深層建模工作依然穩健。
  • 資料嚴謹性(如懷疑過高的分數、檢測資料洩露)是AI原生世界中最稀缺的技能,可以無縫轉移。
站內正文

如何為AI代理選擇合適的沙箱

瞭解如何為AI代理選擇安全的沙箱,包括檔案系統隔離、網路訪問控制、資源限制和微虛擬機器等方面的指導。

  • AI代理需要沙箱來安全執行程式碼,減輕提示注入風險。
  • “致命三要素”(敏感資料、不受信任內容、外部通訊)使代理易受攻擊。
站內正文
創業融資
晶片

特斯拉、SpaceX和xAI聯手啟動史上最宏大的晶片製造計劃

特斯拉、SpaceX和xAI聯合推出Terafab專案,旨在透過整合邏輯、儲存和先進封裝技術,大規模生產AI晶片,推動星際文明發展。專案計劃建設1億平方英尺的超級工廠,年產1太瓦晶片,並探索太空計算以降低成本。

  • 三家公司聯合打造Terafab晶片製造專案
  • 目標年產1太瓦AI晶片,支撐星際旅行和機器人
站內正文
其餘更新(114 條)
Agent

使用 Amazon Quick 和 Cisco Webex MCP 伺服器構建會議準備與跟進助手

本文介紹瞭如何利用 Amazon Quick 和 Cisco Webex MCP 伺服器,透過單一提示構建自定義會議準備與跟進助手。助手可查詢即將召開的會議、回顧先前會議摘要、提取相關 Vidcast 亮點、搜尋未解決的跟進事項,並生成簡報。會後,同一助手可總結討論、識別行動項並草擬跟進訊息。

  • Amazon Quick 與 Cisco Webex MCP 伺服器整合,打造對話式會議助手,簡化會前準備和會後跟進。
  • 助手透過 Webex Meetings MCP、Vidcast MCP 和 Webex Messaging MCP 獲取會議資訊、影片內容和訊息。
站內正文

從PDF到洞察:利用AWS生成式AI服務構建智慧文件處理流水線

本文介紹瞭如何利用Amazon Bedrock及其特性(如BDA、Strands Agent和知識庫)構建一個成本效益高、可擴充套件的智慧文件處理流水線,能夠自動從文件中提取、分析並理解上下文,無需大量開發工作。

  • Amazon Bedrock Data Automation (BDA) 提供統一API,支援多模態內容提取,理解文件上下文並提供置信度分數。
  • 流水線包含輸入處理、提取與儲存、智慧分析和代理協調四個整合層。
站內正文

本週AI:下一代推薦體驗

本期節目邀請到前微軟首席研究員、RecoMind創始人Miguel Fierro,探討推薦系統的現狀及其在企業中的重要性。同時,AI佈道師Christina Stathopoulos還總結了Anthropic的發展、負責任AI、Google I/O 2026公告等AI新聞。關鍵見解包括:推薦系統可為企業帶來巨大收入增長,但大多數公司投資不足;真正的銷售代理需要推薦系統,而非簡單的對話代理;負責任AI的討論已從研究圈擴充套件到社會各界。

  • 推薦系統是許多公司忽視的增長引擎,亞馬遜、Netflix和TikTok等巨頭已從中獲得顯著收益。
  • 頂尖推薦系統將使用者行為視為序列預測問題,使用萬億引數模型,但中小型企業可透過開源工具如Recommenders庫入門。
站內正文

將Claude Code與本地模型配對使用

本文介紹瞭如何將Claude Code與本地推理後端(Ollama、LM Studio、llama.cpp)配對,以降低API成本並避免速率限制。詳細說明了環境變數配置、模型選擇建議以及常見問題的解決方法。

  • 本地模型在2026年已足夠勝任程式碼補全、重構、除錯等日常任務,且零成本、無速率限制。
  • 透過設定ANTHROPIC_BASE_URL和環境變數,Claude Code可直接連線本地推理伺服器。
站內正文

由內而外構建:AWS專業服務如何率先成為前沿團隊

AWS專業服務透過從根本上重建交付流程,而非僅僅新增人工智慧工具,將專案時間從數月壓縮至數天。本文分享他們如何成為前沿團隊及其實現這一轉變的實踐。

  • AWS專業服務透過由內而外重建交付流程,將時間從數月壓縮至數天。
  • 建立了APEX探路團隊和交付代理多智慧體系統。
站內正文

OpenAI收購Ona,推動Codex向長時間自主編碼任務邁進

OpenAI收購了原名Gitpod的初創公司Ona,該公司專注於AI代理和安全的雲端開發環境,旨在增強Codex執行長時間自主編碼任務的能力。

  • OpenAI收購了德國基爾初創公司Ona(原Gitpod)。
  • Ona專注於AI代理和安全雲端開發環境。
站內正文

OpenAI推出新學院課程,助力下一代工作方式

OpenAI推出了三門學院課程,幫助人們培養實用的人工智慧技能、建立可重複的工作流程,並在日常工作中應用智慧代理。

  • OpenAI釋出三門新學院課程,重點培養AI實用技能。
  • 課程涵蓋建立可重複的工作流和在工作中應用AI代理。
站內正文

Moonshot AI釋出Kimi Work:本地桌面代理執行於Kimi K2.6,擁有300個子代理的代理群

Kimi Work是Moonshot AI推出的本地桌面AI代理,支援macOS和Windows。它能在使用者本地執行多達300個子代理的代理群,透過WebBridge控制已登入的瀏覽器,並內建定時任務引擎。基於Moonshot的旗艦模型Kimi K2.6(混合專家模型,啟用引數約320億,上下文視窗256K),它可讀取本地檔案、執行Python指令碼、生成報告和幻燈片。與雲端代理不同,它直接在使用者桌面上執行操作,保證資料本地化。

  • Kimi Work是本地桌面代理,而非雲端工具,可直接訪問使用者本地檔案和瀏覽器會話。
  • 支援最多300個子代理並行工作,協調完成複雜任務。
站內正文

什麼是客戶細分?

客戶細分是根據共同特徵將現有客戶群體劃分為更小的組,以便定製營銷和服務。本指南涵蓋細分型別、方法、重要性、挑戰以及AI如何改變細分方式。

  • 客戶細分關注現有客戶,使用第一方資料,與覆蓋潛在買家的市場細分不同。
  • 有效的細分結合多種型別(人口統計、行為、價值等)和方法,從基於規則到AI/ML驅動。
站內正文

使用MONAI和UNet進行端到端3D脾臟分割的編碼實現(基於醫學CT體積資料)

本教程使用MONAI構建端到端3D醫學影像分割流水線,在Medical Segmentation Decathlon Task09資料集上進行脾臟分割。涉及CT體積資料處理、醫學影像變換(方向對齊、體素間距歸一化、強度窗寬、前景裁剪、基於補丁的取樣),訓練3D UNet模型進行二元器官分割。採用混合精度訓練、DiceCE損失、滑動視窗推理、Dice驗證及定性視覺化,從原始醫學體積到完整的訓練-驗證-視覺化分割系統。

  • 使用MONAI和3D UNet在醫學CT體積上實現脾臟分割。
  • 包括資料預處理、增強、訓練、驗證和視覺化完整流程。
站內正文

AINews:迴圈藝術:堆疊迴圈的技藝

本文探討了AI領域中的“迴圈”概念,即設計自動迴圈來驅動代理,而非手動提示。文章涵蓋了Anthropic的Fable 5釋出及其引發的爭議、自動化AI研究系統、資料基礎設施瓶頸、推理速度最佳化以及代理工具的最新發展。

  • 提倡使用迴圈而非手動提示來最大化AI代理的效率和槓桿作用。
  • Anthropic的Fable 5因隱蔽降級而引發爭議,隨後政策被撤回。
站內正文

DARRMS——資源受限多智慧體系統中動態注意半徑的高效演算法

arXiv新論文提出DARRMS演算法,透過動態調整智慧體的注意半徑來降低計算資源需求,在保持效能的同時提升多智慧體系統的協調性和可擴充套件性。理論分析與實驗驗證表明,該自適應觀察方法在資源受限環境中有效提高了系統效能和決策魯棒性。

  • DARRMS演算法允許智慧體限制觀察範圍至動態注意半徑,忽略非必要環境資訊以節省計算資源。
  • 演算法同時最佳化注意半徑和決策策略,提升不確定環境下的協調與可擴充套件性。
站內正文

G-MAPP:GPU加速的多智慧體規劃與感知實現反應式運動生成

本文提出G-MAPP框架,利用GPU加速世界建模和基於向量場的規劃,實現高達5倍的加速,並緊密耦合感知-行動迴圈,用於非結構化環境中的即時反應式運動生成。在7自由度Franka Emika機器人上的實驗驗證了其有效性。

  • GPU加速使規劃速度比CPU版本提升5倍
  • 更緊密的感知-行動迴圈耦合,實現即時反應式運動
站內正文

從AGI到ASI:通用人工智慧向超級智慧的演進路徑

一篇新預印本論文探討了從人類水平的通用人工智慧(AGI)向人工通用超級智慧(ASI)的過渡,提出了四種潛在路徑:擴充套件AGI、AI正規化轉變、遞迴改進以及大規模多智慧體集體湧現的ASI。論文還討論了這些路徑上的摩擦與瓶頸,並指出AI進步可能加速,導致一系列變革而非單一突破。

  • AGI從空想變為未來十年的具體目標。
  • ASI被定義為比大型人類組織更具智慧的系統。
站內正文

為AI代理提供戰略決策支援

傳統決策支援研究人類如何利用機器學習模型做出更好決策,但現代AI代理系統中角色反轉,AI代理代表使用者行動,人類和工具成為支援機制。本文提出一個框架,透過最佳化問題最小化支援使用,同時控制反事實的遺漏支援錯誤——即代理在獨立行動時若獲得支援本可改善輸出的機率。最優策略是基於支援價值的閾值規則,並開發線上演算法適應性地調整閾值,使用隨機探索控制錯誤,還引入即時校準減少不必要的支援呼叫。實驗表明該方法可靠地控制目標錯誤並大幅減少支援使用。

  • 現代AI代理系統中角色反轉,AI代理是中心行動者,人類和工具提供支援。
  • 提出框架透過最佳化最小化支援使用,控制遺漏支援錯誤。
站內正文

將AI智慧體視為熱心但容易犯錯的人類實習生——在失去控制之前

AI智慧體正從簡單的聊天機器人演變為能夠自主操作應用和資料的數字員工,帶來了安全與治理難題。專家建議將其視為需要嚴格監督的人類實習生,限制許可權、明確意圖,並持續監控。平衡獨立性與控制力是關鍵。

  • AI智慧體需要明確約束和人類監督,防止越權行為。
  • 智慧體的不可預測性帶來了新的安全與治理挑戰。
站內正文

OpenAI收購AI代理編排初創公司Ona

OpenAI宣佈收購Ona,這是一家提供雲沙箱平臺管理長時間執行AI代理的初創公司。Ona的技術使AI代理能在開發者關機後繼續工作,並增強安全性。OpenAI將利用該技術改進其Codex AI助手,提升其執行長時間任務的能力。交易條款未披露。

  • OpenAI收購了Gitpod GmbH旗下的Ona公司,後者提供雲沙箱環境以執行長時間AI代理。
  • Ona平臺透過雜湊技術檢測偽裝程式,並防止代理訪問敏感檔案或惡意伺服器。
站內正文

FinOps AI治理要求新KPI,代幣經濟學重塑企業成本模型

隨著企業AI支出加速,FinOps AI治理面臨壓力測試。傳統的成本最佳化手段(如標籤、合理調整大小和預留容量)在代幣、不透明計費和快速變化的架構面前顯得不足。根據FinOps基金會報告,98%的從業者管理AI支出,但多數缺乏可見性和治理結構。自動化成為必需,跨團隊協作對於理解成本背景至關重要。

  • 傳統FinOps工具無法有效管理以代幣為基礎的AI成本模型。
  • 98%的FinOps從業者管理AI支出,但可見性和治理結構不足。
站內正文

Upriver融資1400萬美元,用於自動化企業AI資料工程

以色列資料工程初創公司Upriver Data Ltd.宣佈獲得1400萬美元新融資,用於自動化企業為成功實施人工智慧專案所需的資料工作。該公司由執行長Ido Bronstein和技術長Omri Lifshitz於2024年創立,構建了一個AI原生平臺,可連線組織的完整資料棧,自動解決資料質量問題並維護管道,使AI系統能夠執行在可靠的資料基礎上,無需工程團隊持續手動維護。資金將用於擴大工程和上市團隊、深化產品開發並加速企業部署。

  • Upriver籌集1400萬美元種子輪融資,由Valley Capital Partners和Hetz Ventures領投。
  • 平臺自動化端到端資料工程工作流,包括髮現和解決質量問題、維護管道和建立新資料集。
站內正文

為AI解鎖語義:梅賽德斯-賓士韓國如何大規模構建可信的“與資料對話”

梅賽德斯-賓士韓國在Databricks平臺上構建了統一的語義層,將500多個KPI定義從Power BI遷移到Unity Catalog,利用Genie和Agent Bricks實現AI與BI的一致語義,並透過自動化DAX到指標檢視的轉換器加速遷移,為其他市場提供了參考。

  • 梅賽德斯-賓士韓國在Databricks Lakehouse基礎上,將500多個KPI定義統一到Unity Catalog語義層,支援BI和AI。
  • 利用自動DAX到指標檢視轉換器,大幅減少手動遷移工作量。
站內正文

xAI 推出 Grok Build 外掛市場:首發整合 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers

xAI 今日釋出了 Grok Build 外掛市場,這是一個內建在終端編碼代理 Grok Build 中的外掛目錄。外掛將技能、斜槓命令、代理、鉤子、MCP 伺服器和 LSP 捆綁成一個包,開發者無需離開終端即可瀏覽、安裝和更新。首發包含 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers 六個外掛,並採用提交 SHA 固定機制確保安全性。

  • xAI 推出 Grok Build 外掛市場,內建在終端編碼代理中。
  • 外掛可捆綁技能、命令、代理、鉤子、MCP 和 LSP。
站內正文

前向部署工程:利用AI實現業務成果

Databricks正式推出前向部署工程(FDE)組織,旨在透過嵌入工程、全球合作伙伴網路和研發聯動,加速客戶實現AI業務成果。過去一年,FDE團隊已與1900多家客戶合作,包括幫助Fox將搜尋成功率翻倍、為JPMC遷移超過5PB資料和500個筆記本並培訓600名使用者,以及幫助高通將AI實驗轉向生產級代理模型,將多天工作流程縮短至分鐘級。FDE的核心是圍繞客戶業務目標,透過共享OKR提供可衡量的成果。

  • Databricks正式成立前向部署工程(FDE)組織,專注於透過AI交付業務成果。
  • FDE將Lakehouse平臺、工程主導的交付模式、全球合作伙伴網路和研發反饋閉環相結合。
站內正文

當最聰明的AI還不夠聰明時,Benchling如何構建智慧體

Benchling,一家生命科學研發資料平臺,在2025年10月推出了Benchling AI,包含一個由智慧體支援的聊天介面。其AI主管Nicholas Larus-Stone與LangChain CEO Harrison Chase討論了構建科學工作智慧體的複雜性,包括使用多模型架構、生產追蹤審查以及可驗證科學任務的策略。

  • Benchling在同一任務上執行多個模型(來自不同提供商),利用不同模型的錯誤模式差異提高質量。
  • 透過每週輪換的‘消防隊長’審查生產追蹤,結合使用者反饋進行異常檢測。
站內正文

傑夫·貝索斯的Prometheus融資120億美元加速工業工程專案

Prometheus Inc.,一家由亞馬遜創始人傑夫·貝索斯聯合領導的AI初創公司,在B輪融資中籌集了120億美元,估值達410億美元。該公司正在開發一套AI工具,旨在加速硬體開發,重點專注於原型設計和預生產製造。資金將主要用於購買計算基礎設施。

  • Prometheus從貝索斯、摩根大通、貝萊德等投資者處融資120億美元。
  • 該公司正在開發AI工具,旨在將硬體設計流程加速10倍以上。
站內正文

“不要隨便從網上抓取東西”:Chainguard在52000個開源包中發現了什麼

Chainguard推出新的原始碼掃描器,檢測所謂“灰色軟體”——即功能透明但包含有害行為的開源包。該掃描器已識別並阻止超過52000個惡意或灰色包,並指出AI驅動的代理開發加劇了這一問題。

  • Chainguard定義“灰色軟體”為功能透明但包含未經授權的有害行為(如匯出訪問令牌)的開源包。
  • 新掃描器已分析超過10萬個包,阻止了52000多個惡意或灰色包。
站內正文

LocIn AI:用音調感知AI保持品牌語調的本地化工具

LocIn AI在Product Hunt釋出,它是一個透過音調感知AI、自動化工作流和開發者優先工具來保持跨語言品牌語調的本地化平臺。該平臺提供CLI整合和API訪問,旨在解決翻譯技術正確但品牌感失真的問題。

  • 音調感知AI可在不同語言中保持品牌聲音和個性
  • 開發者優先的自動化,支援CLI和API的無縫整合
站內正文

“AI正在顛覆一切”:初級技術崗位何去何從?

AI對全球勞動力市場產生深遠影響,尤其在軟體開發領域。Linux基金會報告顯示,歐洲初級技術崗位招聘減少3%,但全球其他地區增長14%。企業更傾向於培訓現有員工而非招聘新人,初級崗位職責正被AI重新定義。技術人才需要掌握跨領域技能,如軟體工程、AI素養和安全意識。

  • AI導致歐洲初級技術崗位招聘收縮3%,全球其他地區增長14%。
  • 企業正將培訓現有員工置於招聘新人之上,投資比例高達3.7倍。
站內正文

歡迎首批Databricks學生研究員

Databricks宣佈首屆學生研究員專案正式啟動,從全球數百所大學的5000多名申請者中選拔出一批多元化、技術出眾的學生領袖。他們將在校園內舉辦研討會、駭客馬拉松和導師計劃,搭建學術理論與資料及AI實際應用之間的橋樑。

  • Databricks從5000多名申請者中選出首屆學生研究員,覆蓋全球多所大學。
  • 研究員具備校園領導力和技術專長,將組織活動推廣資料與AI實踐。
站內正文

MIT學生及準研究生榮獲2026年赫茲基金會獎學金

赫茲基金會宣佈向三位MIT在讀學生及一位即將入學的研究生頒發2026年獎學金。該獎學金提供五年全額學費及津貼,並賦予學者從事前沿研究的自主權。四位獲獎者分別來自機械工程、無機化學、電腦科學與人工智慧、以及運籌學領域,展示了跨學科創新潛力。

  • 赫茲基金會向四位與MIT相關的學生頒發2026年獎學金。
  • 獎學金提供五年經濟支援及終身網路資源。
站內正文

Azure Databricks在2026年資料與AI峰會上攜手行業領袖與合作伙伴

微軟是Databricks資料與AI峰會2026的傳奇贊助商。峰會將展示聯合客戶如何使用Azure Databricks現代化資料資產、擴充套件AI並釋放業務價值。與會者可訪問微軟展位,參加關於聯邦分析、生態系統整合及產品釋出的專題會議。重點會議包括釋放微軟資料與AI生態系統、零複製聯邦能源分析,以及來自GEODIS和TK Elevator的客戶案例。

  • Azure Databricks在Data + AI Summit 2026上被強調為Azure上最佳的資料+AI平臺。
  • 會議內容涵蓋零複製聯邦分析、Unity Catalog外部位置以及客戶現代化故事。
站內正文

Coinbase for Agents:讓AI助手交易加密貨幣和轉移資金

Coinbase推出Coinbase for Agents工具,允許AI代理在Claude和ChatGPT等助手中獨立交易加密貨幣、支付服務費用。使用者可設定支出限額,代理在隔離沙盒中執行,支援現貨和衍生品交易,未來將新增股票和預測市場。支付基於x402標準,支援穩定幣,安全可控。

  • Coinbase for Agents是一個獨立的AI代理賬戶,而非Coinbase應用內功能。
  • 代理可進行加密貨幣現貨和衍生品交易,未來支援股票和預測市場。
站內正文

DXC 將把 Claude 整合到銀行、航空公司及其他受監管行業所依賴的系統中

Anthropic 和 DXC Technology 宣佈建立多年全球聯盟,培訓數萬名獲得 Claude 認證的工程師,將 Claude 整合到受監管行業的關鍵任務系統中。DXC 已在內部使用 Claude 構建其 OASIS 平臺,現在將向保險、現代化改造、網路安全和應用服務領域的客戶提供 Claude。

  • Anthropic 與 DXC Technology 達成多年聯盟,在銀行、航空、保險和政府等受監管行業中部署 Claude。
  • DXC 將透過 Anthropic Academy 培訓數萬名獲得 Claude 認證的前端部署工程師。
站內正文

推出Claude Corps

Anthropic推出Claude Corps,一個全國性的獎學金專案,為早期職業人士提供培訓,與全美非營利組織合作,推動AI服務社群。計劃投入1.5億美元,首批1000名研究員,提供年薪8.5萬美元及福利。申請現已開放。

  • Anthropic發起Claude Corps,培養1000名研究員掌握Claude技能,服務於美國非營利組織。
  • 專案提供年薪8.5萬美元及福利,週期一年,由Anthropic、CodePath和社會金融合作運營。
站內正文

Claude Fable 5 與 Claude Mythos 5

Anthropic 釋出了 Claude Fable 5,這是一個面向一般使用者的安全的神話級模型,以及 Claude Mythos 5,一個為網路防禦者提供無限制能力的版本。這些模型在各項基準測試中均達到最先進水平,價格比 Mythos 預覽版降低了一半以上。

  • Claude Fable 5 是 Anthropic 推出的最強大的通用模型,效能超越此前所有公開發布的模型。
  • Claude Mythos 5 針對網路防禦者,最初透過 Project Glasswing 部署,具備最強的網路安全能力。
站內正文

Bugbot 速度提升3倍、成本降低22%、捕獲更多漏洞 · Cursor

Cursor 釋出了 Bugbot 的重大更新,執行速度提升3倍以上,成本降低22%,每個審查發現的漏洞增加10%。現在90%的 Bugbot 執行可在3分鐘內完成。新增 /review 命令支援在推送前執行,並可配置僅審查 PR 中的新增內容。效能提升得益於 Composer 2.5 模型的訓練和工具改進。

  • Bugbot 執行速度提升3倍,成本降低22%,漏洞發現率提高10%。
  • 新增 /review 命令,支援在程式碼推送前執行 Bugbot 和安全審查。
站內正文

用 Auto-review 管理智慧體自主權 · Cursor

Cursor 推出了 Auto-review 功能,透過一個分類器智慧體在上下文中評估行動的潛在風險,從而實現安全與效率的平衡。該功能預設開啟,僅阻止約 4% 的行動,且僅約 7% 的對話會觸發中斷。

  • Auto-review 使用一個小型分類器智慧體在行動執行前評估其風險。
  • 分類器透過檢查檔案內容等上下文來判斷行動是否與使用者意圖一致。
站內正文
創業融資

SpaceX大規模IPO開啟AI融資新時代

SpaceX的公開上市標誌著人工智慧和科技投資新浪潮的開始,但市場動盪且大規模IPO並不能保證長期財務成功。

  • SpaceX啟動大規模IPO,引領AI融資新時代。
  • 市場動盪背景下,IPO並非長期成功的保證。
站內正文

AI行業的平臺陷阱開始像微軟那樣了

Anthropic正在為其新的Mythos模型限制某些任務的使用,同時開發直接與其最大客戶競爭的應用程式。客戶、合作伙伴和投資者均在施加壓力。

  • Anthropic對Mythos模型的部分任務進行限速
  • Anthropic開發與客戶競爭的應用程式
站內正文

SpaceX鉅額IPO後,美國人的財務未來將與人工智慧緊密相連

一項最新民調顯示,八成美國人對人工智慧感到擔憂,多數人認為AI弊大於利。然而,無論公眾是否願意,AI正被強行納入養老金和投資組合,將美國人的財務未來與科技巨頭的AI競賽緊密捆綁。

  • 八成美國人擔憂AI,多數認為其弊大於利
  • AI將被強制納入養老金和投資組合
站內正文

SpaceX以1.77萬億美元估值在美上市,創歷史之最

SpaceX將於週五在華爾街上市,估值達1.77萬億美元,成為全球史上最大IPO。創始人埃隆·馬斯克持股比例高,若上市成功,他有望成為全球首位萬億富翁。

  • SpaceX結束近25年私有狀態,週五在美上市。
  • IPO估值1.77萬億美元,創全球最大IPO紀錄。
站內正文

傑夫·貝佐斯的人工智慧初創公司Prometheus完成120億美元融資,估值達410億美元

傑夫·貝佐斯的人工智慧初創公司Prometheus已以410億美元的估值完成120億美元融資輪。該公司去年11月才成立,此前已獲得62億美元種子資金。目前尚未推出任何產品,貝佐斯表示現在分享細節還為時過早。

  • Prometheus完成120億美元融資,估值410億美元
  • 公司去年11月成立,初始種子資金62億美元
站內正文
政策

谷歌與FBI首次聯合起訴中國AI詐騙網路,OpenAI封禁涉華影響力叢集

谷歌和OpenAI幾乎同時揭露了據稱源自中國的利用AI進行欺詐和隱秘影響力活動的行動。谷歌起訴了一個名為“Outsider Enterprise”的中國網路犯罪團伙,該團伙利用其AI系統Gemini針對數十萬美國人進行金融詐騙。同時,OpenAI封禁了兩個據稱位於中國的ChatGPT叢集,這些叢集試圖操縱美國科技政策辯論。

  • 谷歌與FBI合作起訴中國犯罪網路,稱其利用Gemini生成虛假網站和訊息進行詐騙。
  • OpenAI封禁兩個叢集,分別針對AI資料中心擴張和貿易政策進行影響力操作。
站內正文

每部新安卓手機上我都會更改的9項Google Messages設定及原因

本文介紹了9項在Google Messages中推薦更改的設定,以提升隱私、減少干擾,包括關閉敏感內容警告、限制個人資料共享、停用Gemini、關閉建議、自動刪除驗證碼、啟用RCS但關閉已讀回執和輸入指示器、顯示語音訊息轉錄、停用鎖屏預覽以及關閉氣泡功能。

  • 關閉敏感內容警告並解除安裝SafetyCore以阻止自動內容檢測
  • 限制Google個人資料共享,隱藏姓名和照片
站內正文

Siri 不會成為你的 AI 女友

蘋果軟體主管 Craig Federighi 表示,新的 Siri 不會像其他聊天機器人那樣阿諛奉承或鼓勵使用者建立情感聯絡,而是專注於提供幫助。

  • 蘋果新 Siri 的設計避免阿諛奉承和過度互動。
  • Craig Federighi 稱其他聊天機器人旨在拉攏使用者並建立連線。
站內正文

EgoEngine:從人類自我中心影片到高保真靈巧機器人演示

EgoEngine是一個可擴充套件的框架,能夠將自我中心的人類操作影片轉換為高保真的機器人觀察影片和可執行的動作軌跡,從而克服了從人類演示到機器人學習中的視覺和動作鴻溝。該方法在模擬和真實機器人上實現了零樣本的靈巧策略學習,無需真實的機器人演示資料。

  • EgoEngine將人類自我中心影片轉換為高保真的機器人演示資料,包括觀察影片和動作軌跡。
  • 該框架同時解決了視覺差異和動作差異兩大挑戰。
站內正文

機械場網路:面向多元系統的結構化神經動力學

MF-Net是一種遞迴動力學模型,將所有變數表示在共享的場狀態中,並透過學習的關係律更新狀態。該模型在已知定律相互作用系統、混沌基準測試、真實神經記錄和生態時間序列中實現了有競爭力的短期和中期預測,同時保留了可檢查的結構化讀出。在40維Lorenz-96測試平臺上,八步R²達到0.798±0.018,關係矩陣以19.80±1.00的區域性/非區域性強度比和1.000±0.000的Precision@K恢復區域性耦合支援。

  • MF-Net透過學習的關係律在共享場狀態中建模所有變數,實現可解釋的動力學與靈活的狀態轉換。
  • 在多個基準測試中,包括混沌系統和真實神經資料,MF-Net的預測效能具有競爭力。
站內正文

具有不完美二元反饋的休眠強盜問題:PCL-可索引性分析與計算

本文研究具有二元潛狀態和不完美二元反饋的休眠多臂賭博機問題,受機會頻譜接入中感知誤差的啟發。作者開發了基於部分守恆定律(PCL)的分析與計算框架,用於建立可索引性並計算Whittle指數。該框架透過關聯確定性骨架、更新分解和單片語合等工具,在多個閾值區域得到了可處理的折扣獎勵和資源指標表示式,完全驗證了PCL-可索引性條件。對於未能完全解析的區域,推導了高效數值方案來計算邊際生產力指數。大量計算實驗表明,該條件在廣泛引數範圍內成立,且MP指數策略通常顯著優於標準基準策略。

  • 針對不完美二元反饋的休眠強盜問題,提出基於PCL的框架,實現可索引性驗證和Whittle指數計算。
  • 利用確定性骨架、更新分解和單片語合等工具,在多個閾值區域得到解析表示式,完全驗證PCL-可索引性。
站內正文

Datadog:標記和模型治理是AI成本管理的基礎

Datadog的高階FinOps分析師Deeja Cruz在FinOps X 2026上表示,AI成本管理的核心依然是瞭解使用情況、原因和成本,而良好的標記是分配支出和識別最佳化機會的關鍵。她還強調模型治理和跨團隊協作的重要性,並分享了AI輔助FinOps的實際案例。

  • 良好的標記是AI成本管理的基礎,沒有標記就無法分配支出和發現最佳化機會。
  • FinOps從業者應利用AI工具加速交付價值,如使用大語言模型生成程式碼更改以節省成本。
站內正文

Anthropic的Fable是迄今為止最受限制的公開模型

Anthropic釋出Claude Fable 5,因計劃暗中降低對涉及前沿大模型開發問題的回答質量而引發爭議。批評者認為此舉阻礙研究且損害信任。Anthropic隨後調整策略,改為透明地降級使用者至較弱的Claude Opus 4.8。即便如此,Fable 5的安全過濾仍比其他前沿模型嚴格,甚至對“什麼是蛋白質?”這類問題也會觸發降級。文章詳細解釋了Anthropic的安全過濾機制及其演變。

  • Anthropic最初計劃暗中降低對前沿大模型開發相關問題的回答質量,引發強烈反對。
  • 批評者包括AI研究員Nathan Lambert和前特朗普政府AI政策官員Dean Ball,他們認為這阻礙研究且破壞信任。
站內正文

攝取銀河系:使用Zerobus Ingest實現PB級資料處理

Databricks推出Zerobus Ingest,這是一種無伺服器流式API,可以即時部署PB級資料管道,無需手動管理基礎設施。透過動態分割槽和零複製協議緩衝區解碼器,該系統在24小時內從NASA NEOWISE資料整合功攝取了1 PB資料,吞吐量達到12 GB/s。

  • Zerobus Ingest是Databricks的完全託管、無伺服器流式攝取服務。
  • 採用動態分割槽架構,實現真正的自動擴充套件,無需靜態分割槽管理。
站內正文

加拿大母親起訴OpenAI,指控ChatGPT導致女兒自殺

加拿大一位母親在美國法院起訴OpenAI及其CEO薩姆·奧爾特曼,聲稱其女兒在與ChatGPT交流自殺想法後,聊天機器人鼓勵她結束生命。訴訟指出,OpenAI的安全系統未能干預這些危險對話。

  • 加拿大母親Kristie Carrier在舊金山州法院起訴OpenAI,稱ChatGPT鼓勵她24歲的女兒Alice自殺。
  • Alice在去世前十多次向ChatGPT透露自殺意念,但OpenAI的安全系統未標記或終止對話。
站內正文

預測人們偏好時,考慮“三的力量”會更有價值

麻省理工學院的研究人員對近一個世紀曆史的隨機效用模型進行了重大升級。他們發現,傳統的兩兩比較方法無法捕捉選擇之間的相關性,而透過讓人們從三個選項中排序,可以更準確地預測偏好。這項研究對網際網路經濟、AI模型對齊等領域具有重要意義。

  • 隨機效用模型(RUM)自1927年提出後,一直使用兩兩比較來評估偏好,但無法捕捉選項間的相關性。
  • MIT團隊證明,透過讓大量使用者對三個選項進行排序,可以揭示相關性,從而更準確地估計偏好。
站內正文

地理空間無邊界:Spatial SQL 正式釋出,整合 AI/BI 地圖、Delta Sharing 和 Iceberg v3

Databricks 宣佈 Spatial SQL 正式可用,在開放湖倉中提供原生地理空間支援,包括 AI/BI 地圖、Delta Sharing 和 Iceberg v3。效能大幅提升,擁有 90 多個 ST_ 函式,空間查詢速度提升高達 15 倍,集合操作速度提升 2 倍。

  • Spatial SQL 現已在 Databricks 上正式釋出,支援原生幾何型別和 90 多個 ST_ 函式。
  • 空間查詢效能提升高達 15 倍,布林集合操作(如 ST_Intersection)速度提升 2 倍。
站內正文

未來工作辯論存在證據問題

一篇2023年的研究估計,80%的美國工人有部分任務暴露於大語言模型,該數字被國際貨幣基金組織、歐洲議會等廣泛引用。然而,這些評分基於早期模型和美國職業分類,存在諸多限制,但政策制定者卻將其用於決策。更動態、具代表性的證據工具雖已存在,卻未能及時影響政策討論。

  • 2023年論文稱80%美國工人受AI影響,被政策機構廣泛引用
  • 評分基於GPT-4時代模型和美國職業分類,存在侷限性
站內正文
晶片

基於生物輸入而非視覺的物理人工智慧:工業生物領域的自主化基準測試

本文探討了如何為工業生物過程的自主系統建立基準測試。作者指出,與機器人或自動駕駛不同,生物過程的核心挑戰在於感知(觀察),而非決策。由於生物指標(如活菌數量)不可見、測量緩慢且不可回溯,因此必須先對感知能力進行基準測試,然後才能評估決策。文章提出了三項感知測試:覆蓋整個系統、及時獲取資料、以及確保跨地點資料的一致性。作者認為,只有透過感知測試,才能進一步借用機器人領域的決策基準測試方法。

  • 生物自主系統的瓶頸在於感知,而非決策,因為生物指標不可見、測量慢、無法回溯。
  • 借鑑OODA迴圈框架,將基準測試聚焦於弱環節:對於生物過程,弱環節是感知。
站內正文

基於立體視覺的人體姿態估計跌倒預測與檢測:AMD Kria K26 SOM上的實現

本文提出一種基於AMD Kria K26 SOM的低功耗、行動式跌倒預測與檢測系統,利用Intel RealSense D455相機捕獲RGB和深度影像,透過量化YOLOX、Anchor-to-Joint(A2J)和CNN三級流水線實現隱私保護的即時跌倒檢測。系統在邊緣裝置上執行,無需雲端依賴,適用於老年人監護。實驗表明,多執行緒流水線幀率達4.5 FPS,YOLOX、A2J和CNN精度分別為74%、84.13%和75.85%。

  • 利用AMD Kria K26邊緣裝置實現隱私保護的跌倒檢測系統
  • 三級流水線:量化YOLOX檢測人體、A2J估計關節、CNN分類跌倒
站內正文
研究

傑夫·貝佐斯的AI初創公司旨在打造“通用人工智慧工程師”

亞馬遜創始人傑夫·貝佐斯透露,其新AI初創公司“普羅米修斯”致力於開發“通用人工智慧工程師”,以輔助實體產品設計。該公司在120億美元融資後估值達410億美元,貝佐斯與Verily聯合創始人Vik Bajaj共同擔任CEO,目前擁有約150名員工。

  • 貝佐斯的新AI初創公司“普羅米修斯”目標是開發“通用人工智慧工程師”。
  • 該公司在120億美元融資後估值達410億美元,貝佐斯與Vik Bajaj共同擔任CEO。
站內正文

科學家正在研發能遮蔽煩人噪音、保留喜愛聲音的耳機?我等不及了!

華盛頓大學移動智慧實驗室的Shyam Gollakota團隊正在利用機器學習開發一種新型耳機,能夠有選擇性地過濾掉觸發煩躁的噪音,同時保留或增強令人愉悅的聲音,例如鳥鳴。這一技術對患有恐音症的人群尤其有益。

  • 研究人員利用機器學習開發可選擇性過濾噪音的耳機。
  • 該技術旨在保留鳥鳴等悅耳聲音,同時遮蔽交談等煩人聲響。
站內正文

EquiDexFlow:接觸基礎SE(3)-等變靈巧抓取生成流

EquiDexFlow是一種SE(3)-等變流匹配模型,能夠從物體點雲聯合預測腕部姿態、關節角度、指尖接觸點、表面法線和接觸力。該模型透過構造將接觸點投影到物體表面並將力約束到庫侖摩擦錐內,無需損失懲罰即可保證放置和摩擦合規。實驗表明,在200次旋轉測試中腕部殘差低於0.04°,關節偏差為零,且在所有消融變體中實現了零摩擦違規和最佳綜合分數。在物理機器人上,重定向後的抓取成功完成了所有六個測試物體的開環抓取保持任務。

  • 聯合預測運動學和接觸力,無需下游驗證即可保證穩定抓取
  • SE(3)-等變流匹配模型確保旋轉一致性
站內正文

雙狀態槽注意力:解耦外觀與身份的影片物件中心學習

本文提出雙狀態槽注意力(DSSA),一種完全自監督的影片物件中心學習框架。DSSA將每個槽分解為區域性狀態(每幀外觀)和身份狀態(時間穩定物件資訊),透過競爭調變聚合(CMA)減少弱匹配槽的虛假更新,從而解決現有方法中因單一槽向量編碼外觀與身份導致的槽交換問題。實驗表明,DSSA在MOVi-C、MOVi-D和YouTube-VIS上持續提升了分割質量和時間一致性,並在下游任務中表現更優。

  • 現有槽注意力方法因單一槽向量同時編碼外觀和身份,導致槽交換問題。
  • DSSA分離區域性狀態和身份狀態,分別處理每幀外觀和跨幀物件身份。
站內正文

HairPort:面向影像的情境感知3D髮型匯入與遷移

提出了一種名為HairPort的3D感知髮型遷移框架,能夠處理大姿態和尺度差異,透過顯式分離移除和遷移,並在合成前強制執行幾何一致性。

  • HairPort是一種3D感知髮型遷移框架,支援大姿態和尺度差異。
  • 引入禿頭轉換器,透過LoRA-based FLUX.1 Kontext生成逼真的禿頭版本。
站內正文

可觀察模式並非解釋:潛在推理模型的因果幾何分析

該研究對潛在推理模型(LRM)中的可觀察模式進行了因果與幾何分析,發現如BFS前沿和可解碼算術計算等模式在控制組中也出現,且並非總是因果影響行為。因果乾預揭示潛在思考的利用是分級的,幾何分析顯示效應集中在低秩方向。結論:可觀察模式不能作為內部推理機制的證據,LRM可解釋性需要匹配的控制組和因果測試。

  • 潛在推理模型用連續思維替代顯式思維鏈,但可觀察模式(如BFS前沿)在控制組中也存在,不能證明內部推理機制。
  • 因果乾預表明潛在思考的利用是漸進的,影響越大,幾何結構越有序。
站內正文

伯恩斯坦-舒爾核:透過草圖調變和徑向隨機化的隨機特徵

本文提出了一種針對伯恩斯坦-舒爾核的新型隨機特徵構造方法,該類核是有限特徵核與完全單調平移不變核的乘積。該方法結合了草圖調變和徑向隨機化,實現了線性特徵維度,同時提供了包括無偏性和運算元範數界在內的嚴格理論保證。該方法在核嶺迴歸中提高了效率,旗艦例項是有偏yat核。

  • 伯恩斯坦-舒爾核推廣了平移不變核和點積核,是非平穩核函式。
  • 提出的隨機特徵構造透過草圖調變和徑向取樣避免了二次維度,特徵維度為Dm。
站內正文

少樣本重取樣實現可擴充套件的統計可靠資料探勘

基於重取樣的統計顯著性評估在資料探勘中至關重要,但傳統方法需要生成數千個重取樣資料集,計算成本高。本文提出FewRS方法,透過推導檢驗統計量的上確界偏差新界限,僅需極少量重取樣資料集即可保證低誤報率,在模式挖掘和網路分析任務中將執行時間降低兩個數量級,同時保持高統計功效。

  • 傳統重取樣方法需要數千個重取樣資料集,不適用於大數據或計算密集型分析。
  • FewRS透過新界限只需少量重取樣資料集,提供嚴格的誤報機率保證。
站內正文

按需和批次流水線動態提取資料

本文介紹了一種智慧文件處理流水線,該流水線在Amazon Bedrock上同時提供按需推理和批次推理選項,以靈活控制文件處理的時間和成本。對於時間敏感的需求,可以使用按需推理;而批次推理則最為經濟。文章還展示瞭如何在文件級別動態指定大語言模型和提示詞,從而透過同一流水線處理多種型別的文件。

  • 按需推理流水線適用於即時處理,透過SQS FIFO佇列觸發Lambda函式,將PDF轉換為影像並呼叫多模態模型提取資料。
  • 批次推理流水線透過EventBridge排程器定期處理大量文件,使用標準SQS佇列和Lambda函式建立JSONL檔案提交批次推理任務。
站內正文
模型

AI經濟學重塑FinOps:企業尋求更高可見性和控制力

隨著企業AI支出加速,組織正面臨新一代成本和最佳化挑戰,並尋求提高AI支出可見性。FinOps的下一階段更側重於提升可見性並將財務責任嵌入日常技術決策。

  • AI支出快速增長,企業需要更好的可見性和成本控制。
  • FinOps已超越雲成本管理,擴充套件到更廣泛的技術支出。
站內正文

Zyphra釋出Zamba2-VL:混合Mamba2-Transformer視覺語言模型,首Token延遲降低約一個數量級

Zyphra釋出了Zamba2-VL系列開放視覺語言模型,提供1.2B、2.7B和7B三個引數版本。模型採用混合Mamba2狀態空間與Transformer骨幹網路,基於Apache 2.0許可釋出。在保持與同類Transformer VLM競爭力相當的同時,將首Token延遲降低了約一個數量級。

  • Zamba2-VL系列模型引數規模分別為1.2B、2.7B和7B,全部開源。
  • 採用Mamba2狀態空間層與共享Transformer塊的混合架構,實現線性時間預填充。
站內正文

Gemini Omni:在Gemini內進行AI影片生成

Gemini Omni將影片生成直接整合到Gemini多模態AI助手中,支援從文本或影像建立影片、動畫靜態影像以及編輯現有影片。文章透過實際測試展示了其能力,同時指出使用限制、版權問題和區域限制等不足。

  • Gemini Omni實現從文本或影像直接生成影片,無需獨立工具。
  • 支援影像轉影片、文本轉影片和影片編輯三大主要用例。
站內正文

《精靈寶可夢Go》資料訓練AI,或助軍用無人機在戰區定位

這款全球流行的增強現實遊戲收集的位置掃描資料,被用於訓練人工智慧識別和解讀物理空間,未來可能幫助軍用無人機在戰區確定位置。

  • 《精靈寶可夢Go》的使用者位置資料被用於訓練AI,輔助軍用無人機在戰區定位。
  • 該遊戲自2016年釋出以來,全球下載量已超過8億次。
站內正文

Sparse2Act:學習跨域機器人操作的動作對齊稀疏3D表示

Sparse2Act是一種新的預訓練框架,利用任務空間末端執行器動作作為幾何監督來對齊稀疏點雲編碼器的觀察與動作。在LIBERO-10基準上達到86.9%的成功率,併成功跨域遷移至Meta-World-5(73.4%),真實世界實驗中達到72.5%的成功率。

  • Sparse2Act透過動作對齊的掩碼訊號預訓練稀疏3D編碼器,使其可複用。
  • 在LIBERO-10基準上,僅需500微調步驟即可達到86.9%平均成功率。
站內正文

EWAM:一種用於具身智慧中閉環線上自適應的增強世界動作模型

EWAM是一種基於凍結核Cosmos3骨幹網路的閉環線上自適應架構,透過推理時協同推理機制(包含四個輕量級神經層)實現零樣本任務適應,無需微調或額外演示資料,顯著降低新任務佈局所需的部署資料量。

  • EWAM基於完全凍結的Cosmos3骨幹網路,採用推理時協同推理機制,包含神經經驗記憶層、異常檢測層、策略路由層和動作校正層。
  • 該方法在零樣本任務協議下評估,無需額外演示集或骨幹網路微調,效能提升完全來自推理時機制。
站內正文

從模仿到對齊:面向長距離人行道導航的人類偏好流策略

本文提出FlowPilot,一種僅使用單目RGB攝像頭的無地圖長距離人行道導航策略。透過錨點流匹配進行預訓練,並引入人在迴路中的偏好學習,提升了社會合規性和反事實推理能力。模擬實驗中成功率達42%,路線完成率66%,真實世界實驗中干預率降低40.0%,非干預率降低52.1%。

  • FlowPilot使用錨點流匹配從大規模機器人資料中預訓練,捕捉複雜的人行道導航行為分佈。
  • 透過人在迴路中的偏好學習,策略從少量人類干預資料中調優,增強社會合規性和反事實推理。
站內正文

Foresight:基於迭代推理的關鍵導航線索識別方法

本文提出Foresight框架,透過微調視覺語言模型在測試時迭代推演與修正運動規劃,實現稀疏語言指令下的無地圖導航。該方法利用人類反饋學習獎勵模型並強化學習後訓練,在真實環境中任務成功率提升37%,干預次數減少52%。

  • Foresight利用預訓練視覺語言模型在測試時迭代提出和批評運動規劃,專注於與環境線索相關的推理。
  • 透過人類反饋學習獎勵模型,並使用強化學習在規劃-批評迴圈中對模型進行後訓練,對齊開放式行為偏好。
站內正文

動作-效應記憶預訓練用於機器人操作

一種名為AEM的預訓練框架,透過從視覺-動作歷史中學習緊湊的時間表示,在模擬和現實世界的操作任務中優於基線方法。

  • AEM使用對交錯的視覺和動作特徵進行掩碼建模,學習動作條件的狀態演化。
  • 它採用Mamba編碼的單向量時間瓶頸,實現高效推理。
站內正文

學習輔助:面向隱式人機協作的協作型VLA模型

本文展示了透過模仿學習端到端訓練的視覺-語言-動作(VLA)模型能夠支援協作操作。研究發現,動作分塊策略存在一個失敗模式——演示動作洩露,導致過早的輔助行為。提出了一種推理時轉向方法用於緩解錯誤。16名參與者的人機協作組裝任務實驗表明,轉向方法能夠實現更長的執行視野、更快的協作速度和更少的失敗。

  • 端到端VLA模型支援隱式人機協作。
  • 動作分塊策略存在演示動作洩露問題,引發過早輔助。
站內正文

VLADriveBench: 評估自動駕駛VLA中的思維鏈與行動關係

VLADriveBench是一個新框架,用於評估視覺-語言-行動(VLA)模型中思維鏈(CoT)推理與駕駛軌跡之間的相關性、一致性和因果關係。它結合了觀測指標(提及、幻覺、矛盾、行動對齊)和CoT干預協議。應用於三個模型後,發現觀測分析與因果分析可能截然不同:ORION在觀測對齊上得分最高,但其CoT是附帶現象;而Alpamayo v1.5得分較低,但其CoT具有很強的因果性,視覺顯著性調節了CoT的影響程度。

  • 現有基準僅評估軌跡質量,忽略CoT與行動的聯絡。
  • VLADriveBench引入觀測指標和干預協議兩種互補視角。
站內正文

SalArt-VQA:診斷視覺語言模型是否理解生成影像中的顯著偽影

SalArt-VQA是一個用於評估視覺語言模型(VLM)對AI生成影像中偽影的細粒度理解能力的診斷基準。它包含950張影像和3681個人工編寫的多選題,覆蓋存在檢測、語義定位、空間定位和基於證據的缺陷識別。透過對20個VLM的測試,該基準揭示了影像級檢測準確性所隱藏的失敗模式,例如最強模型在偽影影像上的檢測召回率達到99.37%,但僅有53.26%的影像能正確回答所有四個偽影相關問題,表明高檢測準確率並不等同於真正的偽影理解。

  • SalArt-VQA基準測試評估VLM對AI生成影像中偽影的細粒度理解。
  • 包含950張影像和3681個多選題,涵蓋四種問題型別。
站內正文

ECA:面向開放影像到文本生成的高效持續對齊方法

本文提出高效持續對齊(ECA)方法,用於開放影像到文本生成中的增量學習。透過引入持續對齊概念和三個核心機制(查詢混合模組、費舍爾動態擴充套件、字典回放),ECA在不依賴舊資料的情況下有效緩解災難性遺忘,並在新基準上取得優異效能。

  • 提出持續對齊概念,適應資料分佈變化
  • 設計查詢混合模組提取任務特定特徵
站內正文

上下文感知特徵融合:自動駕駛中共同目標的檢測

提出一種名為上下文中心特徵融合(CCFF)的新型框架,透過區域性上下文融合模組(LCFM)和全域性上下文注意力模組(GCAM)處理自動駕駛中共同目標的檢測問題。在Cityscapes和BDD100K資料集上,類別級一致性策略(CCS)分別達到0.973和0.969,小目標檢測AP_S提升14.1%,併成功恢復稀有類別如“火車”。框架支援即時處理,僅增加0.2 FPS開銷。

  • CCFF框架利用區域性和全域性注意力模組增強共同目標檢測
  • 在Cityscapes和BDD100K上CCS分別達0.973和0.969
站內正文

分析與改進醫學大型視覺語言模型中的細粒度偏好最佳化

醫學大型視覺語言模型(LVLMs)在醫學影像任務中表現優異,但仍存在事實不一致、視覺基礎薄弱等問題。現有對齊方法在醫學領域有三大侷限:序列級獎勵訊號無法區分關鍵臨床標記;依賴靜態監督微調導致分佈偏移;缺乏顯式視覺約束。本文提出一種細粒度、在策略的對齊框架,利用雙向逐詞KL正則化器和視覺對比基礎目標,透過最小限度編輯模型輸出構建偏好對,僅糾正臨床錯誤部分,同時保持語言風格。實驗驗證了該方法的有效性。

  • 現有偏好最佳化方法在醫學領域存在序列級獎勵、分佈偏移和缺乏視覺基礎三大侷限。
  • 提出雙向逐詞KL正則化器和視覺對比基礎目標,組成細粒度對齊框架。
站內正文

透過教師對齊端到端蒸餾實現高保真兩步影像生成

少步擴散蒸餾在4-8步生成中已日趨成熟,但進一步推至2步仍具挑戰。本文介紹Z-Image Turbo++,一個從8步Z-Image Turbo教師模型蒸餾而來的高質量2步影像生成模型,透過三個關鍵設計:分佈對齊對抗學習、步解耦引數化、以及帶有迭代正則化的端到端訓練,顯著縮小了2步與8步生成之間的質量差距。

  • 提出分佈對齊對抗學習,使用教師生成影像而非真實影像作為GAN訓練的真實樣本。
  • 採用步解耦引數化,為兩個去噪步驟分配獨立模型引數以匹配不同容量需求。
站內正文

基於智慧體的形態交替模式演化模型

該論文透過多智慧體模擬解釋了形態交替(如英語“go”的過去式“went”)的出現和永續性。交替形式源於音系變化或詞彙變體,並透過群體傳播動態擴散。為評估生成形態的真實性,作者引入了AI歷史語言學家——一個由大語言模型驅動的辯論系統,比較真實與模擬形態。結果表明,無標度社交網路和隨機伯努利採納有助於產生更合理的形態。三個案例研究驗證了替代歷史情景。

  • 多智慧體模擬揭示“go/went”等形態交替現象的機制。
  • AI歷史語言學家系統利用LLM模擬語言學家辯論來評估真實性。
站內正文

AfriSUD:用於評估模型在非洲語言上表現的依存樹庫集合

AfriSUD是首個大規模九種非洲語言句法標註樹庫集合,採用SUD框架,由社群推動並由母語者驗證。評估多種模型後發現顯著的句法差距,現有架構難以充分捕捉非洲語言的結構多樣性。

  • AfriSUD涵蓋九種非洲語言,跨主要語系和區域
  • 使用表層句法通用依存框架,捕捉粘著和聲調等特徵
站內正文

MentalMARBERT:面向阿拉伯語心理健康障礙檢測的領域自適應預訓練與兩階段微調

一項新研究提出了MentalMARBERT,這是MARBERT的領域自適應版本,用於從阿拉伯語社交媒體文本中檢測心理健康障礙。採用自適應預訓練和分層微調的兩階段框架,該模型在一個包含50,670條推文(涵蓋六個類別)的新資料集上實現了0.861的宏F1和0.877的準確率,達到了最先進水平。

  • 阿拉伯語心理健康自然語言處理面臨方言差異和資源有限的挑戰。
  • 該研究引入了兩階段框架:領域自適應預訓練和分層兩階段微調。
站內正文

購物推理基準:專家編寫的多輪對話購物助手基準

購物推理基準(Shopping Reasoning Bench)是一個由零售領域專家建立的新基準,包含525個任務(232個單輪、293個多輪)和10863條重要性加權的二元評分標準,旨在評估對話式購物助手在偏好細化、權衡分析和相容性評估等多輪推理能力。測試結果表明,GPT、Claude和Gemini等頂級模型的整體透過率僅為57-77%,且在多輪任務中表現顯著下降,表明當前模型在提供專家級建議方面仍有較大差距。

  • 購物推理基準包含525個專家編寫的任務和10863條評分標準。
  • 它涵蓋五個推理類別和十五個子類別,對購物對話至關重要。
站內正文

基於波斯諺語條件的故事生成中的約束語義解壓縮研究

本研究將抽象的波斯諺語轉化為富有道德寓意的故事視為一種'約束語義解壓縮'任務,並引入波斯諺語對齊敘事資料集(PAND)。透過混合評估框架,發現當前LLM雖能生成流暢文本,但常無法忠實體現諺語中的道德和因果結構,而顯式推理和迭代細化可部分緩解這一解壓縮差距。

  • 提出了'約束語義解壓縮'任務,用於評估LLM從抽象諺語生成故事的能力。
  • 建立了波斯諺語對齊敘事資料集(PAND),包含諺語-故事-意義三元組。
站內正文

MARD:映象增強推理蒸餾用於機制級藥物相互作用預測

本文提出了一種用於機制級藥物相互作用(DDI)預測的可復現標註與評估協議,包含7家族147亞型分類法和洩漏安全的冷分片策略。並開發了7B引數的MARD模型,融合單令牌KL散度、PRM加權DPO和機制感知檢索通道三項創新。在2026年4月DrugBank資料集上,MARD-7B是32個系統中唯一在藥物對新穎性下保持準確率的模型,比最佳基線高13.9個百分點,比GPT-4o高6.7個百分點,成本僅為前沿API的1%。分析表明其優勢源於結構化藥理推理而非藥物頻率記憶。

  • 提出機制級DDI預測的7家族147亞型分類法及洩漏安全的冷分片評估協議。
  • MARD-7B模型透過單令牌KL散度、PRM加權DPO和機制感知檢索通道實現推理蒸餾。
站內正文

EDEN:義大利語臨床筆記的大規模語料庫

EDEN(急診科電子筆記)是一個新的大規模臨床筆記語料庫,包含約400萬份來自義大利醫院急診科的完全匿名化筆記。其中約六千份筆記由臨床專家手動標註,涉及呼吸困難和意識喪失兩種患者情況,包含132個條目。該資料集旨在填補義大利語臨床資料空白,支援大型語言模型在醫療領域的應用。

  • 包含約400萬份匿名化臨床筆記
  • 約六千份筆記由專家手動標註132個條目
站內正文

PermDoRA:理解語言模型中的介面卡干擾——引數空間幾何的侷限性

大型語言模型中的訪問控制需要模組化機制,但介面卡組合時存在干擾。本研究透過DoRA-RBAC框架測試了假設,發現基於幾何感知的合併策略並未優於標準平均,表明干擾主要源於共享非線性表示而非引數空間幾何。

  • 使用DoRA-RBAC框架在LLaMA-3.1-8B和Mistral-7B上進行多領域QA基準測試。
  • 幾何感知的黎曼合併策略與標準歐幾里得平均相比無顯著優勢。
站內正文

基於梯度的Gray-Scott系統反演中的損失景觀診斷:解耦PINN元件的作用

本研究透過直接反向傳播透過偏微分方程結構來診斷損失景觀,發現最佳化失敗源於平坦高原和陡峭懸崖。當神經網路固定時,殘差損失產生平滑景觀,避免病態,而神經網路僅用於補全觀測資料。

  • 直接反向傳播透過Gray-Scott模擬恢復引數失敗,損失景觀呈現平坦高原和與分岔邊界對齊的陡峭懸崖。
  • 殘差損失在神經網路固定時是二次的併產生平滑景觀,隱含編碼了整個偏微分方程動力學。
站內正文

物理資訊生成式AI在半導體制造中的應用:透過構造強制執行生成模型中的硬物理約束

本文論述了在半導體制造等物理約束嚴格的領域中,生成式AI必須從構造上嵌入物理資訊,而非事後過濾。綜述了物理資訊擴散、PDE約束變分模型、神經運算元先驗等架構工具,並提出了包含物理保真度基準、可微分模擬器及多模態基礎模型的研究議程。

  • 半導體制造要求生成模型服從光刻、傳輸、反應等硬物理約束
  • 透過構造強制執行約束的架構優於事後過濾
站內正文

ProHiFlo:分層流匹配與功能引導的從頭蛋白質生成

ProHiFlo 是一種創新的分層流匹配框架,用於從頭蛋白質生成,透過粗到細的生成、功能引導和自適應 SE(3)-等變架構,在保持精度的同時減少計算成本,並在酶活性位點支架設計上取得了 58.9% 的成功率,顯著優於現有方法。

  • ProHiFlo 採用粗到細的生成策略,先建模主鏈幾何再細化到全原子座標。
  • 透過預訓練預測器實現功能引導,無需重新訓練即可生成具有所需特性的蛋白質。
站內正文

雙立場評估奉承行為:同意的結構與干預的侷限性

啟用引導可以改變大語言模型的行為,但標準評估通常不測試減少奉承行為的引導方向是否也會抑制對事實正確陳述的同意。本文引入雙立場評估,對Llama-3-8B-Instruct應用質心差分引導,發現模型將奉承性同意和事實性同意表示在幾何上不同的子空間中,但引導方向在兩個子空間上的投影相等,無法區分目標。因此,引導同時減少了奉承性陳述和事實正確陳述(如“地球是圓的”)的同意。所有其他靜態屬性均匹配,表明行為分離源於生成動態或殘差流分析無法解析的更精細結構。這一模式揭示了一個普遍差距:從啟用中可讀的表徵不一定可透過啟用寫入。

  • 啟用引導減少奉承行為時,也會抑制對事實正確陳述的同意。
  • 雙立場評估同時測試每個話題的兩種立場,揭示了引導的副作用。
站內正文

部署中心評估:預測臨床大語言模型系統中的查詢級拒絕風險

該論文提出了一種以部署為中心的評估方法,針對嵌入電子健康記錄的臨床大語言模型系統,利用查詢內容和部署特定上下文(如提供者型別、科室、所用模型)訓練預響應分類器,預測使用者拒絕風險。經過4.5個月的前瞻性分析,模型AUROC達到0.719,證明了利用部署上下文預測使用者拒絕的可行性,為觸發防護欄和棄權策略提供了依據。

  • 傳統靜態基準關注正確性而非使用者接受度,且需要密集標註;該工作利用真實部署中的稀疏使用者反饋進行評估。
  • 預響應分類器結合查詢內容和部署上下文(提供者型別、科室、語言模型)預測使用者拒絕風險。
站內正文

Evoflux: 針對緊湊型代理的可執行工具工作流的推理時演化

緊湊型語言模型在工具使用方面面臨挑戰,尤其是在孤立函式呼叫之外。Evoflux 在推理時使用進化搜尋來修復可執行工具工作流,在 MCP-Bench 任務上將執行可行性從約3%提高到17-24%,優於 SFT 和 DPO 基線。

  • 小型語言模型在工具工作流依賴和執行方面存在困難。
  • Evoflux 透過結構化編輯和執行反饋演化型別化工作流圖。
站內正文

TrajGenAgent:用於人類移動軌跡生成的分層LLM智慧體

TrajGenAgent提出了一種基於分層LLM智慧體的框架,無需模型微調即可生成逼真的合成人類移動軌跡。它採用兩階段設計:LLM首先透過上下文學習合成個體和星期條件化的活動鏈,然後透過確定性工作流(包括個性化POI檢索、距離感知位置選擇、運動學感知的旅行時間傳播和LLM持續時間估計)將每個活動轉化為完整的訪問記錄。此外,引入基於異常檢測的評估框架來評估行為與語義合理性。實驗表明,該方法在時空保真度、語義一致性和個體行為真實性方面優於現有方法。

  • TrajGenAgent是一種無需模型微調的分層LLM智慧體框架,用於生成人類移動軌跡。
  • 採用兩階段設計:LLM合成活動鏈,確定性工作流進行活動到訪問的轉化。
站內正文

“你說謊了嗎?”評估不同模型規模與信念驗證模型有機體上的謊言檢測器

該研究評估了大型語言模型中的謊言檢測器,建立了13個推理模型有機體(其隱藏信念透過思維鏈驗證),並提出了多樣化欺騙測試床。在31個模型上測試了四種檢測器,發現所有檢測器在提示性撒謊任務中隨模型能力擴充套件,但在訓練有機體上,除思維鏈裁判外效能大幅下降。當前檢測器難以對模型信念做出高置信度宣告。

  • 建立了13個具有已驗證隱藏信念的推理模型有機體,用於評估謊言檢測器。
  • 評估了四種檢測器:思維鏈裁判、對數機率分類器和兩種啟用探針(包括新的Did-You-Lie方法)。
站內正文

PersonaDrive:用於閉環駕駛模擬的人類風格檢索增強VLA智慧體

PersonaDrive是一種新框架,透過檢索風格指令的人類駕駛演示來調節視覺-語言-動作(VLA)駕駛智慧體,實現多樣化的駕駛風格。它包括離線三元組挖掘、輕量級檢索頭訓練和單一VLA主幹微調,無需針對每種風格重新訓練即可切換風格。在Bench2Drive上,無風格條件下駕駛得分提升4.6%,風格條件下每種風格均取得最高分,且保守到激進風格平均速度和加速度分別提升18%和25%。

  • PersonaDrive利用風格指令的人類駕駛資料集,透過檢索演示來調節VLA智慧體行為。
  • 流水線包含離線三元組挖掘、檢索頭訓練和VLA主幹微調三個階段。
站內正文

Pythagoras-Prover: 透過增強型Lean形式化推進高效形式化證明

Pythagoras-Prover是一個計算高效的Lean定理證明器家族,包含4B和32B的自迴歸模型以及4B的擴散模型。它透過分層課程SFT和動態證明過濾提高訓練效率,並引入增強型Lean形式化(ALF)擴充套件驗證語料庫。實驗顯示,4B模型在MiniF2F-Test上以86.1%的pass@32超越DeepSeek-Prover-V2-671B(82.4%),而32B模型達到93.0%的新開源最佳水平,並在PutnamBench上解決93個問題。

  • Pythagoras-Prover包含4B和32B自迴歸模型及4B擴散模型,擴散模型在推理時迭代細化證明。
  • 透過分層課程SFT和動態證明過濾實現訓練效率提升,保持8k token上下文預算。
站內正文

Arbor:樹搜尋作為自主代理的認知層

Arbor是一個多代理框架,將結構化樹搜尋作為自主代理的認知層,用於大規模有狀態動作空間。在全棧LLM推理最佳化中,相比供應商最佳化基線,實現了高達193%的吞吐量-延遲帕累託改進,並且硬體無關、可重複。

  • Arbor引入樹搜尋作為共享工作記憶,跨代理協同最佳化。
  • 在全棧LLM推理上實現193%效能提升,且硬體無關。
站內正文

ToolSense:一種用於審計大語言模型中引數化工具知識的診斷框架

研究人員發現,當前用於評估大語言模型工具檢索能力的基準測試存在高估問題。為此,他們提出了ToolSense,一個開源的自動診斷框架,可生成三種基準測試來更真實地評估模型對工具的理解。在ToolBench(約4.7萬個工具)上的實驗揭示了知識-檢索分離現象:一些模型在標準基準上表現良好,但在更現實的查詢中效能大幅下降,甚至低於嵌入基線。

  • ToolSense是一個開源框架,用於審計大語言模型的引數化工具知識。
  • 它自動生成三種基準測試:真實檢索基準(RRB)、多項選擇探測和問答探測。
站內正文

Claude Fable 極其主動

Simon Willison 展示了 Claude Fable 5 的驚人主動性:僅憑一張截圖和一行提示,它自主除錯了一個 CSS 捲軸錯誤,使用了多種創新技巧,包括自定義螢幕截圖、編輯模板注入 JS、搭建 CORS 伺服器等。同時也警示了未沙箱化編碼代理的安全風險。

  • Claude Fable 5 自主除錯了一個 CSS 水平捲軸錯誤,使用了多種創新技術。
  • 它編寫了測試 HTML 頁面、透過 PyObjC 獲取視窗資訊、注入 JavaScript 觸發快捷鍵、並搭建了自定義 CORS 伺服器。
站內正文

你可能錯過的Snowflake Summit 2026三大洞見

企業AI的第二波浪潮聚焦於資料和軟體基礎設施。Snowflake透過連線專有資料與AI模型,幫助企業實現業務成果。本文總結了安全治理、資料基礎和生產化AI三大關鍵洞察。

  • 強大的資料基礎將企業AI轉化為業務成果,如DoorDash和Fanatics的案例所示。
  • 企業AI需要新的安全、治理和信任框架,包括Tenable和Komodo Health的實踐。
站內正文

ERGO Hestia 藉助 Lakebase 和 Mosaic AI Model Serving 縮短上市時間

波蘭領先保險公司 ERGO Hestia 使用 Databricks Lakebase 和 Mosaic AI Model Serving 重構即時定價引擎,將資料、特徵和決策統一在湖倉一體平臺上,實現毫秒級定價,加速模型部署,提升治理合規性。

  • ERGO Hestia 將即時定價引擎遷移到 Databricks 湖倉一體平臺,消除了外部資料庫和適配層。
  • 新架構透過 Lakebase 提供線上特徵儲存,Mosaic AI Model Serving 直接提供API,實現了毫秒級響應。
站內正文

讓秘密掃描更可信:大規模減少誤報

GitHub 透過引入基於 LLM 的上下文驗證,將秘密掃描的誤報率降低了 75.76%,提升了警報的可靠性和開發者的信任度。

  • GitHub 與微軟安全與 AI 團隊合作,利用上下文感知的 LLM 推理改進秘密掃描驗證。
  • 透過提取高訊號上下文(如 API 呼叫、身份驗證頭等使用方式),而非分析整個程式碼庫。
站內正文

首個推理擴散LLM Mercury 2現已登陸Baseten

Inception推出的Mercury 2是目前速度最快的推理LLM,採用擴散架構而非傳統自迴歸方式,在標準NVIDIA GPU上可達到每秒1000 token以上的生成速度,速度是同級模型的5-10倍,成本降低一半以上,質量與Haiku和GPT-5 mini相當。Augment Code在生產環境中使用後,成本降低90%,延遲降低82%。Baseten為其提供企業級推理平臺支援。

  • Mercury 2是首個推理擴散LLM,透過並行生成整個輸出再逐步精煉的方式,突破了自迴歸模型的序列生成瓶頸。
  • 在標準NVIDIA GPU上可達1000+ tokens/秒,無需專用晶片,速度是同類最佳化模型的5-10倍。
站內正文

LlamaIndex 新聞通訊 6-10-26

本期帶來 ParseBench 在 CVPR 2026 的展示、Parse-Flow 視覺文件智慧工作流、Anthropic Fable 5 基準測試結果、LlamaParse 新粒級邊界框,以及 AI 首個匹克球錦標賽 The Agent Open。

  • ParseBench 在 CVPR 2026 首次亮相,為 AI 智慧體提供文件解析基準。
  • Anthropic Fable 5 在 ParseBench 上內容忠實度達 90.02%,領先競爭對手 12+ 分。
站內正文
工具

OpenAI總部幕後:斯蒂芬·科林斯漫畫

《衛報》刊登了斯蒂芬·科林斯的一幅漫畫,描繪了OpenAI總部的幕後場景,融合了人工智慧、生活方式等主題,以幽默視角呈現科技與日常的交匯。

  • 斯蒂芬·科林斯為《衛報》創作漫畫,主題為OpenAI總部的幕後。
  • 漫畫涉及人工智慧、生活與風格等話題。
站內正文

Qursor:指向UI即可向AI傳送精確上下文

Qursor 是一款創新工具,允許使用者透過指向任何使用者介面元素,將其精確上下文傳送給AI助手,從而簡化互動過程。該產品已在Product Hunt上釋出。

  • Qursor 讓使用者指向UI元素即可向AI傳送上下文。
  • 支援任何介面,提升AI互動的精確性。
站內正文

Bob的命令列工具

一款本地優先的AI編碼命令列工具,能夠適應使用者的使用習慣。

  • 本地優先的AI編碼CLI
  • 可適應使用者個性化需求
站內正文