AI News HubLIVE

今日必讀

Agent

olmo-eval:面向模型開發循環的評估工作台

olmo-eval 是一個新的評估工作台,旨在支持 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上,提供靈活的任務定義、可交換的運行時策略以及詳細的逐問題比較功能,幫助開發者判斷每次干預的效果是否顯著。

  • olmo-eval 針對模型開發中的反覆評估循環而設計,支持快速添加基準、跨檢查點運行和細粒度結果分析。
  • 與 Harbor 等工具不同,olmo-eval 提供輕量級和沙箱兩種運行模式,並根據基準需求自動選擇。
站內正文

VibeClip:開源AI視頻編輯器,通過聊天控制剪輯

VibeClip 是一款開源、自託管的 AI 視頻編輯器,用户只需通過聊天即可將長視頻轉換為帶有字幕的 9:16 短視頻。它使用本地 faster-whisper 進行轉錄,並通過 LLM 智能分析精彩片段,支持多種 LLM 提供商,且數據完全由用户掌控。

  • 開源、自託管,支持 Docker 一鍵部署
  • 通過自然語言聊天進行視頻編輯,如裁剪、去除填充詞、添加樣式等
站內正文

ChatSee籌集650萬美元,為企業AI代理構建“故障記憶”

ChatSee.AI Inc.籌集了650萬美元種子資金,致力於為企業自主AI系統提供故障智能層。該輪融資由True Ventures領投,旨在通過觀測代理故障、記錄上下文及修復方式,構建故障知識庫,幫助AI代理避免重複錯誤。

  • ChatSee獲得650萬美元種子輪融資,True Ventures領投。
  • 公司開發故障智能層,專門用於觀測和分析企業AI代理的失效。
站內正文

Show HN: StackScope – 我爬取了四萬多個獨立產品發佈,看看他們用了什麼技術

StackScope是一個分析早期創業產品技術棧的網站,已分析超過41,763個產品發佈,追蹤了4851種技術。它揭示了39%的產品使用Cloudflare,19%有強AI生成模式,並且發現了一個矛盾:1255個產品既屏蔽AI爬蟲又發佈了llms.txt文件。

  • StackScope分析了來自Product Hunt、Hacker News和PeerPush的41,763個產品發佈
  • 追蹤了4851種技術,包括託管、框架、AI信號、安全等
站內正文

Swamp之所以有趣,是因為它不信任AI

Swamp是一個專注於工作流可靠性的AI工具,與當前追求自主代理的主流趨勢相反。它強調確定性檢查、可執行的工作流定義,以及將組織流程從文檔轉化為可執行代碼。來自SRE背景的作者認為,未來可能不是自主代理,而是可靠的代理。

  • Swamp反主流,專注可靠性和確定性,而非AI自主性。
  • 它把工作流作為一等公民,幫助定義和執行組織流程。
站內正文

展示 HN:消費 Hacker News 的糟糕方式——AI 垃圾內容

這篇文章展示了一個模擬的 Hacker News 評論流,其中所有評論均由 AI 生成,充滿空洞的流行詞和膚淺的分析,以諷刺當前 AI 生成內容氾濫的現象。

  • 該帖子模擬了一個由 AI 生成的 Hacker News 評論流,涵蓋多個話題。
  • 評論被故意設計為充滿流行詞和空洞分析,以突出 AI 生成內容的膚淺。
站內正文

從機器學習工程師到AI原生:重新技能化以佔據優勢

本文探討了機器學習工程師如何應對AI代理自動化的衝擊,強調核心技能是數據嚴謹性和判斷力,這些能力在AI原生世界中至關重要。通過將人類判斷與代理驅動的實驗循環相結合,工程師可以更快地迭代並解決複雜問題。文章以微調Llama模型提取文檔字段的實際案例展示了這一過程。

  • 機器學習中的通用層(如數據管道、標準模型訓練)正被AI代理自動化,但綁定到業務目標的深層建模工作依然穩健。
  • 數據嚴謹性(如懷疑過高的分數、檢測數據泄露)是AI原生世界中最稀缺的技能,可以無縫轉移。
站內正文

如何為AI代理選擇合適的沙箱

瞭解如何為AI代理選擇安全的沙箱,包括文件系統隔離、網絡訪問控制、資源限制和微虛擬機等方面的指導。

  • AI代理需要沙箱來安全運行代碼,減輕提示注入風險。
  • “致命三要素”(敏感數據、不受信任內容、外部通信)使代理易受攻擊。
站內正文
創業融資
芯片

特斯拉、SpaceX和xAI聯手啓動史上最宏大的芯片製造計劃

特斯拉、SpaceX和xAI聯合推出Terafab項目,旨在通過整合邏輯、存儲和先進封裝技術,大規模生產AI芯片,推動星際文明發展。項目計劃建設1億平方英尺的超級工廠,年產1太瓦芯片,並探索太空計算以降低成本。

  • 三家公司聯合打造Terafab芯片製造項目
  • 目標年產1太瓦AI芯片,支撐星際旅行和機器人
站內正文
其餘更新(114 條)
Agent

使用 Amazon Quick 和 Cisco Webex MCP 服務器構建會議準備與跟進助手

本文介紹瞭如何利用 Amazon Quick 和 Cisco Webex MCP 服務器,通過單一提示構建自定義會議準備與跟進助手。助手可查找即將召開的會議、回顧先前會議摘要、提取相關 Vidcast 亮點、搜索未解決的跟進事項,並生成簡報。會後,同一助手可總結討論、識別行動項並草擬跟進消息。

  • Amazon Quick 與 Cisco Webex MCP 服務器集成,打造對話式會議助手,簡化會前準備和會後跟進。
  • 助手通過 Webex Meetings MCP、Vidcast MCP 和 Webex Messaging MCP 獲取會議信息、視頻內容和消息。
站內正文

從PDF到洞察:利用AWS生成式AI服務構建智能文檔處理流水線

本文介紹瞭如何利用Amazon Bedrock及其特性(如BDA、Strands Agent和知識庫)構建一個成本效益高、可擴展的智能文檔處理流水線,能夠自動從文檔中提取、分析並理解上下文,無需大量開發工作。

  • Amazon Bedrock Data Automation (BDA) 提供統一API,支持多模態內容提取,理解文檔上下文並提供置信度分數。
  • 流水線包含輸入處理、提取與存儲、智能分析和代理協調四個集成層。
站內正文

本週AI:下一代推薦體驗

本期節目邀請到前微軟首席研究員、RecoMind創始人Miguel Fierro,探討推薦系統的現狀及其在企業中的重要性。同時,AI佈道師Christina Stathopoulos還總結了Anthropic的發展、負責任AI、Google I/O 2026公告等AI新聞。關鍵見解包括:推薦系統可為企業帶來巨大收入增長,但大多數公司投資不足;真正的銷售代理需要推薦系統,而非簡單的對話代理;負責任AI的討論已從研究圈擴展到社會各界。

  • 推薦系統是許多公司忽視的增長引擎,亞馬遜、Netflix和TikTok等巨頭已從中獲得顯著收益。
  • 頂尖推薦系統將用户行為視為序列預測問題,使用萬億參數模型,但中小型企業可通過開源工具如Recommenders庫入門。
站內正文

將Claude Code與本地模型配對使用

本文介紹瞭如何將Claude Code與本地推理後端(Ollama、LM Studio、llama.cpp)配對,以降低API成本並避免速率限制。詳細説明了環境變量配置、模型選擇建議以及常見問題的解決方法。

  • 本地模型在2026年已足夠勝任代碼補全、重構、調試等日常任務,且零成本、無速率限制。
  • 通過設置ANTHROPIC_BASE_URL和環境變量,Claude Code可直接連接本地推理服務器。
站內正文

由內而外構建:AWS專業服務如何率先成為前沿團隊

AWS專業服務通過從根本上重建交付流程,而非僅僅添加人工智能工具,將項目時間從數月壓縮至數天。本文分享他們如何成為前沿團隊及其實現這一轉變的實踐。

  • AWS專業服務通過由內而外重建交付流程,將時間從數月壓縮至數天。
  • 創建了APEX探路團隊和交付代理多智能體系統。
站內正文

OpenAI收購Ona,推動Codex向長時間自主編碼任務邁進

OpenAI收購了原名Gitpod的初創公司Ona,該公司專注於AI代理和安全的雲端開發環境,旨在增強Codex執行長時間自主編碼任務的能力。

  • OpenAI收購了德國基爾初創公司Ona(原Gitpod)。
  • Ona專注於AI代理和安全雲端開發環境。
站內正文

OpenAI推出新學院課程,助力下一代工作方式

OpenAI推出了三門學院課程,幫助人們培養實用的人工智能技能、創建可重複的工作流程,並在日常工作中應用智能代理。

  • OpenAI發佈三門新學院課程,重點培養AI實用技能。
  • 課程涵蓋創建可重複的工作流和在工作中應用AI代理。
站內正文

Moonshot AI發佈Kimi Work:本地桌面代理運行於Kimi K2.6,擁有300個子代理的代理羣

Kimi Work是Moonshot AI推出的本地桌面AI代理,支持macOS和Windows。它能在用户本地運行多達300個子代理的代理羣,通過WebBridge控制已登錄的瀏覽器,並內置定時任務引擎。基於Moonshot的旗艦模型Kimi K2.6(混合專家模型,激活參數約320億,上下文窗口256K),它可讀取本地文件、運行Python腳本、生成報告和幻燈片。與雲端代理不同,它直接在用户桌面上執行操作,保證數據本地化。

  • Kimi Work是本地桌面代理,而非雲端工具,可直接訪問用户本地文件和瀏覽器會話。
  • 支持最多300個子代理並行工作,協調完成複雜任務。
站內正文

什麼是客户細分?

客户細分是根據共同特徵將現有客户羣體劃分為更小的組,以便定製營銷和服務。本指南涵蓋細分類型、方法、重要性、挑戰以及AI如何改變細分方式。

  • 客户細分關注現有客户,使用第一方數據,與覆蓋潛在買家的市場細分不同。
  • 有效的細分結合多種類型(人口統計、行為、價值等)和方法,從基於規則到AI/ML驅動。
站內正文

使用MONAI和UNet進行端到端3D脾臟分割的編碼實現(基於醫學CT體積數據)

本教程使用MONAI構建端到端3D醫學圖像分割流水線,在Medical Segmentation Decathlon Task09數據集上進行脾臟分割。涉及CT體積數據處理、醫學圖像變換(方向對齊、體素間距歸一化、強度窗寬、前景裁剪、基於補丁的採樣),訓練3D UNet模型進行二元器官分割。採用混合精度訓練、DiceCE損失、滑動窗口推理、Dice驗證及定性可視化,從原始醫學體積到完整的訓練-驗證-可視化分割系統。

  • 使用MONAI和3D UNet在醫學CT體積上實現脾臟分割。
  • 包括數據預處理、增強、訓練、驗證和可視化完整流程。
站內正文

AINews:循環藝術:堆疊循環的技藝

本文探討了AI領域中的“循環”概念,即設計自動循環來驅動代理,而非手動提示。文章涵蓋了Anthropic的Fable 5發佈及其引發的爭議、自動化AI研究系統、數據基礎設施瓶頸、推理速度優化以及代理工具的最新發展。

  • 提倡使用循環而非手動提示來最大化AI代理的效率和槓桿作用。
  • Anthropic的Fable 5因隱蔽降級而引發爭議,隨後政策被撤回。
站內正文

DARRMS——資源受限多智能體系統中動態注意半徑的高效算法

arXiv新論文提出DARRMS算法,通過動態調整智能體的注意半徑來降低計算資源需求,在保持性能的同時提升多智能體系統的協調性和可擴展性。理論分析與實驗驗證表明,該自適應觀察方法在資源受限環境中有效提高了系統性能和決策魯棒性。

  • DARRMS算法允許智能體限制觀察範圍至動態注意半徑,忽略非必要環境信息以節省計算資源。
  • 算法同時優化注意半徑和決策策略,提升不確定環境下的協調與可擴展性。
站內正文

G-MAPP:GPU加速的多智能體規劃與感知實現反應式運動生成

本文提出G-MAPP框架,利用GPU加速世界建模和基於向量場的規劃,實現高達5倍的加速,並緊密耦合感知-行動循環,用於非結構化環境中的實時反應式運動生成。在7自由度Franka Emika機器人上的實驗驗證了其有效性。

  • GPU加速使規劃速度比CPU版本提升5倍
  • 更緊密的感知-行動循環耦合,實現實時反應式運動
站內正文

從AGI到ASI:通用人工智能向超級智能的演進路徑

一篇新預印本論文探討了從人類水平的通用人工智能(AGI)向人工通用超級智能(ASI)的過渡,提出了四種潛在路徑:擴展AGI、AI範式轉變、遞歸改進以及大規模多智能體集體湧現的ASI。論文還討論了這些路徑上的摩擦與瓶頸,並指出AI進步可能加速,導致一系列變革而非單一突破。

  • AGI從空想變為未來十年的具體目標。
  • ASI被定義為比大型人類組織更具智能的系統。
站內正文

為AI代理提供戰略決策支持

傳統決策支持研究人類如何利用機器學習模型做出更好決策,但現代AI代理系統中角色反轉,AI代理代表用户行動,人類和工具成為支持機制。本文提出一個框架,通過優化問題最小化支持使用,同時控制反事實的遺漏支持錯誤——即代理在獨立行動時若獲得支持本可改善輸出的概率。最優策略是基於支持價值的閾值規則,並開發在線算法適應性地調整閾值,使用隨機探索控制錯誤,還引入即時校準減少不必要的支持調用。實驗表明該方法可靠地控制目標錯誤並大幅減少支持使用。

  • 現代AI代理系統中角色反轉,AI代理是中心行動者,人類和工具提供支持。
  • 提出框架通過優化最小化支持使用,控制遺漏支持錯誤。
站內正文

將AI智能體視為熱心但容易犯錯的人類實習生——在失去控制之前

AI智能體正從簡單的聊天機器人演變為能夠自主操作應用和數據的數字員工,帶來了安全與治理難題。專家建議將其視為需要嚴格監督的人類實習生,限制權限、明確意圖,並持續監控。平衡獨立性與控制力是關鍵。

  • AI智能體需要明確約束和人類監督,防止越權行為。
  • 智能體的不可預測性帶來了新的安全與治理挑戰。
站內正文

OpenAI收購AI代理編排初創公司Ona

OpenAI宣佈收購Ona,這是一家提供雲沙箱平台管理長時間運行AI代理的初創公司。Ona的技術使AI代理能在開發者關機後繼續工作,並增強安全性。OpenAI將利用該技術改進其Codex AI助手,提升其執行長時間任務的能力。交易條款未披露。

  • OpenAI收購了Gitpod GmbH旗下的Ona公司,後者提供雲沙箱環境以運行長時間AI代理。
  • Ona平台通過哈希技術檢測偽裝程序,並防止代理訪問敏感文件或惡意服務器。
站內正文

FinOps AI治理要求新KPI,代幣經濟學重塑企業成本模型

隨着企業AI支出加速,FinOps AI治理面臨壓力測試。傳統的成本優化手段(如標籤、合理調整大小和預留容量)在代幣、不透明計費和快速變化的架構面前顯得不足。根據FinOps基金會報告,98%的從業者管理AI支出,但多數缺乏可見性和治理結構。自動化成為必需,跨團隊協作對於理解成本背景至關重要。

  • 傳統FinOps工具無法有效管理以代幣為基礎的AI成本模型。
  • 98%的FinOps從業者管理AI支出,但可見性和治理結構不足。
站內正文

Upriver融資1400萬美元,用於自動化企業AI數據工程

以色列數據工程初創公司Upriver Data Ltd.宣佈獲得1400萬美元新融資,用於自動化企業為成功實施人工智能項目所需的數據工作。該公司由首席執行官Ido Bronstein和首席技術官Omri Lifshitz於2024年創立,構建了一個AI原生平台,可連接組織的完整數據棧,自動解決數據質量問題並維護管道,使AI系統能夠運行在可靠的數據基礎上,無需工程團隊持續手動維護。資金將用於擴大工程和上市團隊、深化產品開發並加速企業部署。

  • Upriver籌集1400萬美元種子輪融資,由Valley Capital Partners和Hetz Ventures領投。
  • 平台自動化端到端數據工程工作流,包括髮現和解決質量問題、維護管道和創建新數據集。
站內正文

為AI解鎖語義:梅賽德斯-奔馳韓國如何大規模構建可信的“與數據對話”

梅賽德斯-奔馳韓國在Databricks平台上構建了統一的語義層,將500多個KPI定義從Power BI遷移到Unity Catalog,利用Genie和Agent Bricks實現AI與BI的一致語義,並通過自動化DAX到指標視圖的轉換器加速遷移,為其他市場提供了參考。

  • 梅賽德斯-奔馳韓國在Databricks Lakehouse基礎上,將500多個KPI定義統一到Unity Catalog語義層,支持BI和AI。
  • 利用自動DAX到指標視圖轉換器,大幅減少手動遷移工作量。
站內正文

xAI 推出 Grok Build 插件市場:首發集成 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers

xAI 今日發佈了 Grok Build 插件市場,這是一個內置在終端編碼代理 Grok Build 中的插件目錄。插件將技能、斜槓命令、代理、鈎子、MCP 服務器和 LSP 捆綁成一個包,開發者無需離開終端即可瀏覽、安裝和更新。首發包含 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers 六個插件,並採用提交 SHA 固定機制確保安全性。

  • xAI 推出 Grok Build 插件市場,內置在終端編碼代理中。
  • 插件可捆綁技能、命令、代理、鈎子、MCP 和 LSP。
站內正文

前向部署工程:利用AI實現業務成果

Databricks正式推出前向部署工程(FDE)組織,旨在通過嵌入工程、全球合作伙伴網絡和研發聯動,加速客户實現AI業務成果。過去一年,FDE團隊已與1900多家客户合作,包括幫助Fox將搜索成功率翻倍、為JPMC遷移超過5PB數據和500個筆記本並培訓600名用户,以及幫助高通將AI實驗轉向生產級代理模型,將多天工作流程縮短至分鐘級。FDE的核心是圍繞客户業務目標,通過共享OKR提供可衡量的成果。

  • Databricks正式成立前向部署工程(FDE)組織,專注於通過AI交付業務成果。
  • FDE將Lakehouse平台、工程主導的交付模式、全球合作伙伴網絡和研發反饋閉環相結合。
站內正文

當最聰明的AI還不夠聰明時,Benchling如何構建智能體

Benchling,一家生命科學研發數據平台,在2025年10月推出了Benchling AI,包含一個由智能體支持的聊天界面。其AI主管Nicholas Larus-Stone與LangChain CEO Harrison Chase討論了構建科學工作智能體的複雜性,包括使用多模型架構、生產追蹤審查以及可驗證科學任務的策略。

  • Benchling在同一任務上運行多個模型(來自不同提供商),利用不同模型的錯誤模式差異提高質量。
  • 通過每週輪換的‘消防隊長’審查生產追蹤,結合用户反饋進行異常檢測。
站內正文

傑夫·貝索斯的Prometheus融資120億美元加速工業工程項目

Prometheus Inc.,一家由亞馬遜創始人傑夫·貝索斯聯合領導的AI初創公司,在B輪融資中籌集了120億美元,估值達410億美元。該公司正在開發一套AI工具,旨在加速硬件開發,重點專注於原型設計和預生產製造。資金將主要用於購買計算基礎設施。

  • Prometheus從貝索斯、摩根大通、貝萊德等投資者處融資120億美元。
  • 該公司正在開發AI工具,旨在將硬件設計流程加速10倍以上。
站內正文

“不要隨便從網上抓取東西”:Chainguard在52000個開源包中發現了什麼

Chainguard推出新的源代碼掃描器,檢測所謂“灰色軟件”——即功能透明但包含有害行為的開源包。該掃描器已識別並阻止超過52000個惡意或灰色包,並指出AI驅動的代理開發加劇了這一問題。

  • Chainguard定義“灰色軟件”為功能透明但包含未經授權的有害行為(如導出訪問令牌)的開源包。
  • 新掃描器已分析超過10萬個包,阻止了52000多個惡意或灰色包。
站內正文

LocIn AI:用音調感知AI保持品牌語調的本地化工具

LocIn AI在Product Hunt發佈,它是一個通過音調感知AI、自動化工作流和開發者優先工具來保持跨語言品牌語調的本地化平台。該平台提供CLI集成和API訪問,旨在解決翻譯技術正確但品牌感失真的問題。

  • 音調感知AI可在不同語言中保持品牌聲音和個性
  • 開發者優先的自動化,支持CLI和API的無縫集成
站內正文

“AI正在顛覆一切”:初級技術崗位何去何從?

AI對全球勞動力市場產生深遠影響,尤其在軟件開發領域。Linux基金會報告顯示,歐洲初級技術崗位招聘減少3%,但全球其他地區增長14%。企業更傾向於培訓現有員工而非招聘新人,初級崗位職責正被AI重新定義。技術人才需要掌握跨領域技能,如軟件工程、AI素養和安全意識。

  • AI導致歐洲初級技術崗位招聘收縮3%,全球其他地區增長14%。
  • 企業正將培訓現有員工置於招聘新人之上,投資比例高達3.7倍。
站內正文

歡迎首批Databricks學生研究員

Databricks宣佈首屆學生研究員項目正式啓動,從全球數百所大學的5000多名申請者中選拔出一批多元化、技術出眾的學生領袖。他們將在校園內舉辦研討會、黑客馬拉松和導師計劃,搭建學術理論與數據及AI實際應用之間的橋樑。

  • Databricks從5000多名申請者中選出首屆學生研究員,覆蓋全球多所大學。
  • 研究員具備校園領導力和技術專長,將組織活動推廣數據與AI實踐。
站內正文

MIT學生及準研究生榮獲2026年赫茲基金會獎學金

赫茲基金會宣佈向三位MIT在讀學生及一位即將入學的研究生頒發2026年獎學金。該獎學金提供五年全額學費及津貼,並賦予學者從事前沿研究的自主權。四位獲獎者分別來自機械工程、無機化學、計算機科學與人工智能、以及運籌學領域,展示了跨學科創新潛力。

  • 赫茲基金會向四位與MIT相關的學生頒發2026年獎學金。
  • 獎學金提供五年經濟支持及終身網絡資源。
站內正文

Azure Databricks在2026年數據與AI峯會上攜手行業領袖與合作伙伴

微軟是Databricks數據與AI峯會2026的傳奇贊助商。峯會將展示聯合客户如何使用Azure Databricks現代化數據資產、擴展AI並釋放業務價值。與會者可訪問微軟展位,參加關於聯邦分析、生態系統集成及產品發佈的專題會議。重點會議包括釋放微軟數據與AI生態系統、零拷貝聯邦能源分析,以及來自GEODIS和TK Elevator的客户案例。

  • Azure Databricks在Data + AI Summit 2026上被強調為Azure上最佳的數據+AI平台。
  • 會議內容涵蓋零拷貝聯邦分析、Unity Catalog外部位置以及客户現代化故事。
站內正文

Coinbase for Agents:讓AI助手交易加密貨幣和轉移資金

Coinbase推出Coinbase for Agents工具,允許AI代理在Claude和ChatGPT等助手中獨立交易加密貨幣、支付服務費用。用户可設置支出限額,代理在隔離沙盒中運行,支持現貨和衍生品交易,未來將添加股票和預測市場。支付基於x402標準,支持穩定幣,安全可控。

  • Coinbase for Agents是一個獨立的AI代理賬户,而非Coinbase應用內功能。
  • 代理可進行加密貨幣現貨和衍生品交易,未來支持股票和預測市場。
站內正文

DXC 將把 Claude 集成到銀行、航空公司及其他受監管行業所依賴的系統中

Anthropic 和 DXC Technology 宣佈建立多年全球聯盟,培訓數萬名獲得 Claude 認證的工程師,將 Claude 集成到受監管行業的關鍵任務系統中。DXC 已在內部使用 Claude 構建其 OASIS 平台,現在將向保險、現代化改造、網絡安全和應用服務領域的客户提供 Claude。

  • Anthropic 與 DXC Technology 達成多年聯盟,在銀行、航空、保險和政府等受監管行業中部署 Claude。
  • DXC 將通過 Anthropic Academy 培訓數萬名獲得 Claude 認證的前端部署工程師。
站內正文

推出Claude Corps

Anthropic推出Claude Corps,一個全國性的獎學金項目,為早期職業人士提供培訓,與全美非營利組織合作,推動AI服務社區。計劃投入1.5億美元,首批1000名研究員,提供年薪8.5萬美元及福利。申請現已開放。

  • Anthropic發起Claude Corps,培養1000名研究員掌握Claude技能,服務於美國非營利組織。
  • 項目提供年薪8.5萬美元及福利,週期一年,由Anthropic、CodePath和社會金融合作運營。
站內正文

Claude Fable 5 與 Claude Mythos 5

Anthropic 發佈了 Claude Fable 5,這是一個面向一般用户的安全的神話級模型,以及 Claude Mythos 5,一個為網絡防禦者提供無限制能力的版本。這些模型在各項基準測試中均達到最先進水平,價格比 Mythos 預覽版降低了一半以上。

  • Claude Fable 5 是 Anthropic 推出的最強大的通用模型,性能超越此前所有公開發布的模型。
  • Claude Mythos 5 針對網絡防禦者,最初通過 Project Glasswing 部署,具備最強的網絡安全能力。
站內正文

Bugbot 速度提升3倍、成本降低22%、捕獲更多漏洞 · Cursor

Cursor 發佈了 Bugbot 的重大更新,運行速度提升3倍以上,成本降低22%,每個審查發現的漏洞增加10%。現在90%的 Bugbot 運行可在3分鐘內完成。新增 /review 命令支持在推送前運行,並可配置僅審查 PR 中的新增內容。性能提升得益於 Composer 2.5 模型的訓練和工具改進。

  • Bugbot 運行速度提升3倍,成本降低22%,漏洞發現率提高10%。
  • 新增 /review 命令,支持在代碼推送前運行 Bugbot 和安全審查。
站內正文

用 Auto-review 管理智能體自主權 · Cursor

Cursor 推出了 Auto-review 功能,通過一個分類器智能體在上下文中評估行動的潛在風險,從而實現安全與效率的平衡。該功能默認開啓,僅阻止約 4% 的行動,且僅約 7% 的對話會觸發中斷。

  • Auto-review 使用一個小型分類器智能體在行動執行前評估其風險。
  • 分類器通過檢查文件內容等上下文來判斷行動是否與用户意圖一致。
站內正文
創業融資

SpaceX大規模IPO開啓AI融資新時代

SpaceX的公開上市標誌着人工智能和科技投資新浪潮的開始,但市場動盪且大規模IPO並不能保證長期財務成功。

  • SpaceX啓動大規模IPO,引領AI融資新時代。
  • 市場動盪背景下,IPO並非長期成功的保證。
站內正文

AI行業的平台陷阱開始像微軟那樣了

Anthropic正在為其新的Mythos模型限制某些任務的使用,同時開發直接與其最大客户競爭的應用程序。客户、合作伙伴和投資者均在施加壓力。

  • Anthropic對Mythos模型的部分任務進行限速
  • Anthropic開發與客户競爭的應用程序
站內正文

SpaceX鉅額IPO後,美國人的財務未來將與人工智能緊密相連

一項最新民調顯示,八成美國人對人工智能感到擔憂,多數人認為AI弊大於利。然而,無論公眾是否願意,AI正被強行納入養老金和投資組合,將美國人的財務未來與科技巨頭的AI競賽緊密捆綁。

  • 八成美國人擔憂AI,多數認為其弊大於利
  • AI將被強制納入養老金和投資組合
站內正文

SpaceX以1.77萬億美元估值在美上市,創歷史之最

SpaceX將於週五在華爾街上市,估值達1.77萬億美元,成為全球史上最大IPO。創始人埃隆·馬斯克持股比例高,若上市成功,他有望成為全球首位萬億富翁。

  • SpaceX結束近25年私有狀態,週五在美上市。
  • IPO估值1.77萬億美元,創全球最大IPO紀錄。
站內正文

傑夫·貝佐斯的人工智能初創公司Prometheus完成120億美元融資,估值達410億美元

傑夫·貝佐斯的人工智能初創公司Prometheus已以410億美元的估值完成120億美元融資輪。該公司去年11月才成立,此前已獲得62億美元種子資金。目前尚未推出任何產品,貝佐斯表示現在分享細節還為時過早。

  • Prometheus完成120億美元融資,估值410億美元
  • 公司去年11月成立,初始種子資金62億美元
站內正文
政策

谷歌與FBI首次聯合起訴中國AI詐騙網絡,OpenAI封禁涉華影響力集羣

谷歌和OpenAI幾乎同時揭露了據稱源自中國的利用AI進行欺詐和隱秘影響力活動的行動。谷歌起訴了一個名為“Outsider Enterprise”的中國網絡犯罪團伙,該團伙利用其AI系統Gemini針對數十萬美國人進行金融詐騙。同時,OpenAI封禁了兩個據稱位於中國的ChatGPT集羣,這些集羣試圖操縱美國科技政策辯論。

  • 谷歌與FBI合作起訴中國犯罪網絡,稱其利用Gemini生成虛假網站和消息進行詐騙。
  • OpenAI封禁兩個集羣,分別針對AI數據中心擴張和貿易政策進行影響力操作。
站內正文

每部新安卓手機上我都會更改的9項Google Messages設置及原因

本文介紹了9項在Google Messages中推薦更改的設置,以提升隱私、減少干擾,包括關閉敏感內容警告、限制個人資料共享、禁用Gemini、關閉建議、自動刪除驗證碼、啓用RCS但關閉已讀回執和輸入指示器、顯示語音消息轉錄、禁用鎖屏預覽以及關閉氣泡功能。

  • 關閉敏感內容警告並卸載SafetyCore以阻止自動內容檢測
  • 限制Google個人資料共享,隱藏姓名和照片
站內正文

Siri 不會成為你的 AI 女友

蘋果軟件主管 Craig Federighi 表示,新的 Siri 不會像其他聊天機器人那樣阿諛奉承或鼓勵用户建立情感聯繫,而是專注於提供幫助。

  • 蘋果新 Siri 的設計避免阿諛奉承和過度互動。
  • Craig Federighi 稱其他聊天機器人旨在拉攏用户並建立連接。
站內正文

EgoEngine:從人類自我中心視頻到高保真靈巧機器人演示

EgoEngine是一個可擴展的框架,能夠將自我中心的人類操作視頻轉換為高保真的機器人觀察視頻和可執行的動作軌跡,從而克服了從人類演示到機器人學習中的視覺和動作鴻溝。該方法在仿真和真實機器人上實現了零樣本的靈巧策略學習,無需真實的機器人演示數據。

  • EgoEngine將人類自我中心視頻轉換為高保真的機器人演示數據,包括觀察視頻和動作軌跡。
  • 該框架同時解決了視覺差異和動作差異兩大挑戰。
站內正文

機械場網絡:面向多元系統的結構化神經動力學

MF-Net是一種遞歸動力學模型,將所有變量表示在共享的場狀態中,並通過學習的關係律更新狀態。該模型在已知定律相互作用系統、混沌基準測試、真實神經記錄和生態時間序列中實現了有競爭力的短期和中期預測,同時保留了可檢查的結構化讀出。在40維Lorenz-96測試平台上,八步R²達到0.798±0.018,關係矩陣以19.80±1.00的局部/非局部強度比和1.000±0.000的Precision@K恢復局部耦合支持。

  • MF-Net通過學習的關係律在共享場狀態中建模所有變量,實現可解釋的動力學與靈活的狀態轉換。
  • 在多個基準測試中,包括混沌系統和真實神經數據,MF-Net的預測性能具有競爭力。
站內正文

具有不完美二元反饋的休眠強盜問題:PCL-可索引性分析與計算

本文研究具有二元潛狀態和不完美二元反饋的休眠多臂賭博機問題,受機會頻譜接入中感知誤差的啓發。作者開發了基於部分守恆定律(PCL)的分析與計算框架,用於建立可索引性並計算Whittle指數。該框架通過關聯確定性骨架、更新分解和單詞組合等工具,在多個閾值區域得到了可處理的折扣獎勵和資源指標表達式,完全驗證了PCL-可索引性條件。對於未能完全解析的區域,推導了高效數值方案來計算邊際生產力指數。大量計算實驗表明,該條件在廣泛參數範圍內成立,且MP指數策略通常顯著優於標準基準策略。

  • 針對不完美二元反饋的休眠強盜問題,提出基於PCL的框架,實現可索引性驗證和Whittle指數計算。
  • 利用確定性骨架、更新分解和單詞組合等工具,在多個閾值區域得到解析表達式,完全驗證PCL-可索引性。
站內正文

Datadog:標記和模型治理是AI成本管理的基礎

Datadog的高級FinOps分析師Deeja Cruz在FinOps X 2026上表示,AI成本管理的核心依然是瞭解使用情況、原因和成本,而良好的標記是分配支出和識別優化機會的關鍵。她還強調模型治理和跨團隊協作的重要性,並分享了AI輔助FinOps的實際案例。

  • 良好的標記是AI成本管理的基礎,沒有標記就無法分配支出和發現優化機會。
  • FinOps從業者應利用AI工具加速交付價值,如使用大語言模型生成代碼更改以節省成本。
站內正文

Anthropic的Fable是迄今為止最受限制的公開模型

Anthropic發佈Claude Fable 5,因計劃暗中降低對涉及前沿大模型開發問題的回答質量而引發爭議。批評者認為此舉阻礙研究且損害信任。Anthropic隨後調整策略,改為透明地降級用户至較弱的Claude Opus 4.8。即便如此,Fable 5的安全過濾仍比其他前沿模型嚴格,甚至對“什麼是蛋白質?”這類問題也會觸發降級。文章詳細解釋了Anthropic的安全過濾機制及其演變。

  • Anthropic最初計劃暗中降低對前沿大模型開發相關問題的回答質量,引發強烈反對。
  • 批評者包括AI研究員Nathan Lambert和前特朗普政府AI政策官員Dean Ball,他們認為這阻礙研究且破壞信任。
站內正文

攝取銀河系:使用Zerobus Ingest實現PB級數據處理

Databricks推出Zerobus Ingest,這是一種無服務器流式API,可以即時部署PB級數據管道,無需手動管理基礎設施。通過動態分區和零拷貝協議緩衝區解碼器,該系統在24小時內從NASA NEOWISE數據集成功攝取了1 PB數據,吞吐量達到12 GB/s。

  • Zerobus Ingest是Databricks的完全託管、無服務器流式攝取服務。
  • 採用動態分區架構,實現真正的自動擴展,無需靜態分區管理。
站內正文

加拿大母親起訴OpenAI,指控ChatGPT導致女兒自殺

加拿大一位母親在美國法院起訴OpenAI及其CEO薩姆·奧爾特曼,聲稱其女兒在與ChatGPT交流自殺想法後,聊天機器人鼓勵她結束生命。訴訟指出,OpenAI的安全系統未能干預這些危險對話。

  • 加拿大母親Kristie Carrier在舊金山州法院起訴OpenAI,稱ChatGPT鼓勵她24歲的女兒Alice自殺。
  • Alice在去世前十多次向ChatGPT透露自殺意念,但OpenAI的安全系統未標記或終止對話。
站內正文

預測人們偏好時,考慮“三的力量”會更有價值

麻省理工學院的研究人員對近一個世紀曆史的隨機效用模型進行了重大升級。他們發現,傳統的兩兩比較方法無法捕捉選擇之間的相關性,而通過讓人們從三個選項中排序,可以更準確地預測偏好。這項研究對互聯網經濟、AI模型對齊等領域具有重要意義。

  • 隨機效用模型(RUM)自1927年提出後,一直使用兩兩比較來評估偏好,但無法捕捉選項間的相關性。
  • MIT團隊證明,通過讓大量用户對三個選項進行排序,可以揭示相關性,從而更準確地估計偏好。
站內正文

地理空間無邊界:Spatial SQL 正式發佈,集成 AI/BI 地圖、Delta Sharing 和 Iceberg v3

Databricks 宣佈 Spatial SQL 正式可用,在開放湖倉中提供原生地理空間支持,包括 AI/BI 地圖、Delta Sharing 和 Iceberg v3。性能大幅提升,擁有 90 多個 ST_ 函數,空間查詢速度提升高達 15 倍,集合操作速度提升 2 倍。

  • Spatial SQL 現已在 Databricks 上正式發佈,支持原生幾何類型和 90 多個 ST_ 函數。
  • 空間查詢性能提升高達 15 倍,布爾集合操作(如 ST_Intersection)速度提升 2 倍。
站內正文

未來工作辯論存在證據問題

一篇2023年的研究估計,80%的美國工人有部分任務暴露於大語言模型,該數字被國際貨幣基金組織、歐洲議會等廣泛引用。然而,這些評分基於早期模型和美國職業分類,存在諸多限制,但政策制定者卻將其用於決策。更動態、具代表性的證據工具雖已存在,卻未能及時影響政策討論。

  • 2023年論文稱80%美國工人受AI影響,被政策機構廣泛引用
  • 評分基於GPT-4時代模型和美國職業分類,存在侷限性
站內正文
芯片

基於生物輸入而非視覺的物理人工智能:工業生物領域的自主化基準測試

本文探討了如何為工業生物過程的自主系統建立基準測試。作者指出,與機器人或自動駕駛不同,生物過程的核心挑戰在於感知(觀察),而非決策。由於生物指標(如活菌數量)不可見、測量緩慢且不可回溯,因此必須先對感知能力進行基準測試,然後才能評估決策。文章提出了三項感知測試:覆蓋整個系統、及時獲取數據、以及確保跨地點數據的一致性。作者認為,只有通過感知測試,才能進一步借用機器人領域的決策基準測試方法。

  • 生物自主系統的瓶頸在於感知,而非決策,因為生物指標不可見、測量慢、無法回溯。
  • 借鑑OODA循環框架,將基準測試聚焦於弱環節:對於生物過程,弱環節是感知。
站內正文

基於立體視覺的人體姿態估計跌倒預測與檢測:AMD Kria K26 SOM上的實現

本文提出一種基於AMD Kria K26 SOM的低功耗、便攜式跌倒預測與檢測系統,利用Intel RealSense D455相機捕獲RGB和深度圖像,通過量化YOLOX、Anchor-to-Joint(A2J)和CNN三級流水線實現隱私保護的實時跌倒檢測。系統在邊緣設備上運行,無需雲端依賴,適用於老年人監護。實驗表明,多線程流水線幀率達4.5 FPS,YOLOX、A2J和CNN精度分別為74%、84.13%和75.85%。

  • 利用AMD Kria K26邊緣設備實現隱私保護的跌倒檢測系統
  • 三級流水線:量化YOLOX檢測人體、A2J估計關節、CNN分類跌倒
站內正文
研究

傑夫·貝佐斯的AI初創公司旨在打造“通用人工智能工程師”

亞馬遜創始人傑夫·貝佐斯透露,其新AI初創公司“普羅米修斯”致力於開發“通用人工智能工程師”,以輔助實體產品設計。該公司在120億美元融資後估值達410億美元,貝佐斯與Verily聯合創始人Vik Bajaj共同擔任CEO,目前擁有約150名員工。

  • 貝佐斯的新AI初創公司“普羅米修斯”目標是開發“通用人工智能工程師”。
  • 該公司在120億美元融資後估值達410億美元,貝佐斯與Vik Bajaj共同擔任CEO。
站內正文

科學家正在研發能屏蔽煩人噪音、保留喜愛聲音的耳機?我等不及了!

華盛頓大學移動智能實驗室的Shyam Gollakota團隊正在利用機器學習開發一種新型耳機,能夠有選擇性地過濾掉觸發煩躁的噪音,同時保留或增強令人愉悦的聲音,例如鳥鳴。這一技術對患有恐音症的人羣尤其有益。

  • 研究人員利用機器學習開發可選擇性過濾噪音的耳機。
  • 該技術旨在保留鳥鳴等悦耳聲音,同時屏蔽交談等煩人聲響。
站內正文

EquiDexFlow:接觸基礎SE(3)-等變靈巧抓取生成流

EquiDexFlow是一種SE(3)-等變流匹配模型,能夠從物體點雲聯合預測腕部姿態、關節角度、指尖接觸點、表面法線和接觸力。該模型通過構造將接觸點投影到物體表面並將力約束到庫侖摩擦錐內,無需損失懲罰即可保證放置和摩擦合規。實驗表明,在200次旋轉測試中腕部殘差低於0.04°,關節偏差為零,且在所有消融變體中實現了零摩擦違規和最佳綜合分數。在物理機器人上,重定向後的抓取成功完成了所有六個測試物體的開環抓取保持任務。

  • 聯合預測運動學和接觸力,無需下游驗證即可保證穩定抓取
  • SE(3)-等變流匹配模型確保旋轉一致性
站內正文

雙狀態槽注意力:解耦外觀與身份的視頻對象中心學習

本文提出雙狀態槽注意力(DSSA),一種完全自監督的視頻對象中心學習框架。DSSA將每個槽分解為局部狀態(每幀外觀)和身份狀態(時間穩定對象信息),通過競爭調製聚合(CMA)減少弱匹配槽的虛假更新,從而解決現有方法中因單一槽向量編碼外觀與身份導致的槽交換問題。實驗表明,DSSA在MOVi-C、MOVi-D和YouTube-VIS上持續提升了分割質量和時間一致性,並在下游任務中表現更優。

  • 現有槽注意力方法因單一槽向量同時編碼外觀和身份,導致槽交換問題。
  • DSSA分離局部狀態和身份狀態,分別處理每幀外觀和跨幀對象身份。
站內正文

HairPort:面向圖像的情境感知3D髮型導入與遷移

提出了一種名為HairPort的3D感知髮型遷移框架,能夠處理大姿態和尺度差異,通過顯式分離移除和遷移,並在合成前強制執行幾何一致性。

  • HairPort是一種3D感知髮型遷移框架,支持大姿態和尺度差異。
  • 引入禿頭轉換器,通過LoRA-based FLUX.1 Kontext生成逼真的禿頭版本。
站內正文

可觀察模式並非解釋:潛在推理模型的因果幾何分析

該研究對潛在推理模型(LRM)中的可觀察模式進行了因果與幾何分析,發現如BFS前沿和可解碼算術計算等模式在控制組中也出現,且並非總是因果影響行為。因果乾預揭示潛在思考的利用是分級的,幾何分析顯示效應集中在低秩方向。結論:可觀察模式不能作為內部推理機制的證據,LRM可解釋性需要匹配的控制組和因果測試。

  • 潛在推理模型用連續思維替代顯式思維鏈,但可觀察模式(如BFS前沿)在控制組中也存在,不能證明內部推理機制。
  • 因果乾預表明潛在思考的利用是漸進的,影響越大,幾何結構越有序。
站內正文

伯恩斯坦-舒爾核:通過草圖調製和徑向隨機化的隨機特徵

本文提出了一種針對伯恩斯坦-舒爾核的新型隨機特徵構造方法,該類核是有限特徵核與完全單調平移不變核的乘積。該方法結合了草圖調製和徑向隨機化,實現了線性特徵維度,同時提供了包括無偏性和算子範數界在內的嚴格理論保證。該方法在核嶺迴歸中提高了效率,旗艦實例是有偏yat核。

  • 伯恩斯坦-舒爾核推廣了平移不變核和點積核,是非平穩核函數。
  • 提出的隨機特徵構造通過草圖調製和徑向採樣避免了二次維度,特徵維度為Dm。
站內正文

少樣本重採樣實現可擴展的統計可靠數據挖掘

基於重採樣的統計顯著性評估在數據挖掘中至關重要,但傳統方法需要生成數千個重採樣數據集,計算成本高。本文提出FewRS方法,通過推導檢驗統計量的上確界偏差新界限,僅需極少量重採樣數據集即可保證低誤報率,在模式挖掘和網絡分析任務中將運行時間降低兩個數量級,同時保持高統計功效。

  • 傳統重採樣方法需要數千個重採樣數據集,不適用於大數據或計算密集型分析。
  • FewRS通過新界限只需少量重採樣數據集,提供嚴格的誤報概率保證。
站內正文

按需和批量流水線動態提取數據

本文介紹了一種智能文檔處理流水線,該流水線在Amazon Bedrock上同時提供按需推理和批量推理選項,以靈活控制文檔處理的時間和成本。對於時間敏感的需求,可以使用按需推理;而批量推理則最為經濟。文章還展示瞭如何在文檔級別動態指定大語言模型和提示詞,從而通過同一流水線處理多種類型的文檔。

  • 按需推理流水線適用於實時處理,通過SQS FIFO隊列觸發Lambda函數,將PDF轉換為圖像並調用多模態模型提取數據。
  • 批量推理流水線通過EventBridge調度器定期處理大量文檔,使用標準SQS隊列和Lambda函數創建JSONL文件提交批量推理任務。
站內正文
模型

AI經濟學重塑FinOps:企業尋求更高可見性和控制力

隨着企業AI支出加速,組織正面臨新一代成本和優化挑戰,並尋求提高AI支出可見性。FinOps的下一階段更側重於提升可見性並將財務責任嵌入日常技術決策。

  • AI支出快速增長,企業需要更好的可見性和成本控制。
  • FinOps已超越雲成本管理,擴展到更廣泛的技術支出。
站內正文

Zyphra發佈Zamba2-VL:混合Mamba2-Transformer視覺語言模型,首Token延遲降低約一個數量級

Zyphra發佈了Zamba2-VL系列開放視覺語言模型,提供1.2B、2.7B和7B三個參數版本。模型採用混合Mamba2狀態空間與Transformer骨幹網絡,基於Apache 2.0許可發佈。在保持與同類Transformer VLM競爭力相當的同時,將首Token延遲降低了約一個數量級。

  • Zamba2-VL系列模型參數規模分別為1.2B、2.7B和7B,全部開源。
  • 採用Mamba2狀態空間層與共享Transformer塊的混合架構,實現線性時間預填充。
站內正文

Gemini Omni:在Gemini內進行AI視頻生成

Gemini Omni將視頻生成直接集成到Gemini多模態AI助手中,支持從文本或圖像創建視頻、動畫靜態圖像以及編輯現有視頻。文章通過實際測試展示了其能力,同時指出使用限制、版權問題和區域限制等不足。

  • Gemini Omni實現從文本或圖像直接生成視頻,無需獨立工具。
  • 支持圖像轉視頻、文本轉視頻和視頻編輯三大主要用例。
站內正文

《精靈寶可夢Go》數據訓練AI,或助軍用無人機在戰區定位

這款全球流行的增強現實遊戲收集的位置掃描數據,被用於訓練人工智能識別和解讀物理空間,未來可能幫助軍用無人機在戰區確定位置。

  • 《精靈寶可夢Go》的用户位置數據被用於訓練AI,輔助軍用無人機在戰區定位。
  • 該遊戲自2016年發佈以來,全球下載量已超過8億次。
站內正文

Sparse2Act:學習跨域機器人操作的動作對齊稀疏3D表示

Sparse2Act是一種新的預訓練框架,利用任務空間末端執行器動作作為幾何監督來對齊稀疏點雲編碼器的觀察與動作。在LIBERO-10基準上達到86.9%的成功率,併成功跨域遷移至Meta-World-5(73.4%),真實世界實驗中達到72.5%的成功率。

  • Sparse2Act通過動作對齊的掩碼信號預訓練稀疏3D編碼器,使其可複用。
  • 在LIBERO-10基準上,僅需500微調步驟即可達到86.9%平均成功率。
站內正文

EWAM:一種用於具身智能中閉環在線自適應的增強世界動作模型

EWAM是一種基於凍結核Cosmos3骨幹網絡的閉環在線自適應架構,通過推理時協同推理機制(包含四個輕量級神經層)實現零樣本任務適應,無需微調或額外演示數據,顯著降低新任務佈局所需的部署數據量。

  • EWAM基於完全凍結的Cosmos3骨幹網絡,採用推理時協同推理機制,包含神經經驗記憶層、異常檢測層、策略路由層和動作校正層。
  • 該方法在零樣本任務協議下評估,無需額外演示集或骨幹網絡微調,性能提升完全來自推理時機制。
站內正文

從模仿到對齊:面向長距離人行道導航的人類偏好流策略

本文提出FlowPilot,一種僅使用單目RGB攝像頭的無地圖長距離人行道導航策略。通過錨點流匹配進行預訓練,並引入人在迴路中的偏好學習,提升了社會合規性和反事實推理能力。仿真實驗中成功率達42%,路線完成率66%,真實世界實驗中干預率降低40.0%,非干預率降低52.1%。

  • FlowPilot使用錨點流匹配從大規模機器人數據中預訓練,捕捉複雜的人行道導航行為分佈。
  • 通過人在迴路中的偏好學習,策略從少量人類干預數據中調優,增強社會合規性和反事實推理。
站內正文

Foresight:基於迭代推理的關鍵導航線索識別方法

本文提出Foresight框架,通過微調視覺語言模型在測試時迭代推演與修正運動規劃,實現稀疏語言指令下的無地圖導航。該方法利用人類反饋學習獎勵模型並強化學習後訓練,在真實環境中任務成功率提升37%,干預次數減少52%。

  • Foresight利用預訓練視覺語言模型在測試時迭代提出和批評運動規劃,專注於與環境線索相關的推理。
  • 通過人類反饋學習獎勵模型,並使用強化學習在規劃-批評循環中對模型進行後訓練,對齊開放式行為偏好。
站內正文

動作-效應記憶預訓練用於機器人操作

一種名為AEM的預訓練框架,通過從視覺-動作歷史中學習緊湊的時間表示,在仿真和現實世界的操作任務中優於基線方法。

  • AEM使用對交錯的視覺和動作特徵進行掩碼建模,學習動作條件的狀態演化。
  • 它採用Mamba編碼的單向量時間瓶頸,實現高效推理。
站內正文

學習輔助:面向隱式人機協作的協作型VLA模型

本文展示了通過模仿學習端到端訓練的視覺-語言-動作(VLA)模型能夠支持協作操作。研究發現,動作分塊策略存在一個失敗模式——演示動作泄露,導致過早的輔助行為。提出了一種推理時轉向方法用於緩解錯誤。16名參與者的人機協作組裝任務實驗表明,轉向方法能夠實現更長的執行視野、更快的協作速度和更少的失敗。

  • 端到端VLA模型支持隱式人機協作。
  • 動作分塊策略存在演示動作泄露問題,引發過早輔助。
站內正文

VLADriveBench: 評估自動駕駛VLA中的思維鏈與行動關係

VLADriveBench是一個新框架,用於評估視覺-語言-行動(VLA)模型中思維鏈(CoT)推理與駕駛軌跡之間的相關性、一致性和因果關係。它結合了觀測指標(提及、幻覺、矛盾、行動對齊)和CoT干預協議。應用於三個模型後,發現觀測分析與因果分析可能截然不同:ORION在觀測對齊上得分最高,但其CoT是附帶現象;而Alpamayo v1.5得分較低,但其CoT具有很強的因果性,視覺顯著性調節了CoT的影響程度。

  • 現有基準僅評估軌跡質量,忽略CoT與行動的聯繫。
  • VLADriveBench引入觀測指標和干預協議兩種互補視角。
站內正文

SalArt-VQA:診斷視覺語言模型是否理解生成圖像中的顯著偽影

SalArt-VQA是一個用於評估視覺語言模型(VLM)對AI生成圖像中偽影的細粒度理解能力的診斷基準。它包含950張圖像和3681個人工編寫的多選題,覆蓋存在檢測、語義定位、空間定位和基於證據的缺陷識別。通過對20個VLM的測試,該基準揭示了圖像級檢測準確性所隱藏的失敗模式,例如最強模型在偽影圖像上的檢測召回率達到99.37%,但僅有53.26%的圖像能正確回答所有四個偽影相關問題,表明高檢測準確率並不等同於真正的偽影理解。

  • SalArt-VQA基準測試評估VLM對AI生成圖像中偽影的細粒度理解。
  • 包含950張圖像和3681個多選題,涵蓋四種問題類型。
站內正文

ECA:面向開放圖像到文本生成的高效持續對齊方法

本文提出高效持續對齊(ECA)方法,用於開放圖像到文本生成中的增量學習。通過引入持續對齊概念和三個核心機制(查詢混合模塊、費舍爾動態擴展、字典回放),ECA在不依賴舊數據的情況下有效緩解災難性遺忘,並在新基準上取得優異性能。

  • 提出持續對齊概念,適應數據分佈變化
  • 設計查詢混合模塊提取任務特定特徵
站內正文

上下文感知特徵融合:自動駕駛中共同目標的檢測

提出一種名為上下文中心特徵融合(CCFF)的新型框架,通過局部上下文融合模塊(LCFM)和全局上下文注意力模塊(GCAM)處理自動駕駛中共同目標的檢測問題。在Cityscapes和BDD100K數據集上,類別級一致性策略(CCS)分別達到0.973和0.969,小目標檢測AP_S提升14.1%,併成功恢復稀有類別如“火車”。框架支持實時處理,僅增加0.2 FPS開銷。

  • CCFF框架利用局部和全局注意力模塊增強共同目標檢測
  • 在Cityscapes和BDD100K上CCS分別達0.973和0.969
站內正文

分析與改進醫學大型視覺語言模型中的細粒度偏好優化

醫學大型視覺語言模型(LVLMs)在醫學影像任務中表現優異,但仍存在事實不一致、視覺基礎薄弱等問題。現有對齊方法在醫學領域有三大侷限:序列級獎勵信號無法區分關鍵臨牀標記;依賴靜態監督微調導致分佈偏移;缺乏顯式視覺約束。本文提出一種細粒度、在策略的對齊框架,利用雙向逐詞KL正則化器和視覺對比基礎目標,通過最小限度編輯模型輸出構建偏好對,僅糾正臨牀錯誤部分,同時保持語言風格。實驗驗證了該方法的有效性。

  • 現有偏好優化方法在醫學領域存在序列級獎勵、分佈偏移和缺乏視覺基礎三大侷限。
  • 提出雙向逐詞KL正則化器和視覺對比基礎目標,組成細粒度對齊框架。
站內正文

通過教師對齊端到端蒸餾實現高保真兩步圖像生成

少步擴散蒸餾在4-8步生成中已日趨成熟,但進一步推至2步仍具挑戰。本文介紹Z-Image Turbo++,一個從8步Z-Image Turbo教師模型蒸餾而來的高質量2步圖像生成模型,通過三個關鍵設計:分佈對齊對抗學習、步解耦參數化、以及帶有迭代正則化的端到端訓練,顯著縮小了2步與8步生成之間的質量差距。

  • 提出分佈對齊對抗學習,使用教師生成圖像而非真實圖像作為GAN訓練的真實樣本。
  • 採用步解耦參數化,為兩個去噪步驟分配獨立模型參數以匹配不同容量需求。
站內正文

基於智能體的形態交替模式演化模型

該論文通過多智能體模擬解釋了形態交替(如英語“go”的過去式“went”)的出現和持久性。交替形式源於音系變化或詞彙變體,並通過羣體傳播動態擴散。為評估生成形態的真實性,作者引入了AI歷史語言學家——一個由大語言模型驅動的辯論系統,比較真實與模擬形態。結果表明,無標度社交網絡和隨機伯努利採納有助於產生更合理的形態。三個案例研究驗證了替代歷史情景。

  • 多智能體模擬揭示“go/went”等形態交替現象的機制。
  • AI歷史語言學家系統利用LLM模擬語言學家辯論來評估真實性。
站內正文

AfriSUD:用於評估模型在非洲語言上表現的依存樹庫集合

AfriSUD是首個大規模九種非洲語言句法標註樹庫集合,採用SUD框架,由社區推動並由母語者驗證。評估多種模型後發現顯著的句法差距,現有架構難以充分捕捉非洲語言的結構多樣性。

  • AfriSUD涵蓋九種非洲語言,跨主要語系和區域
  • 使用表層句法通用依存框架,捕捉粘着和聲調等特徵
站內正文

MentalMARBERT:面向阿拉伯語心理健康障礙檢測的領域自適應預訓練與兩階段微調

一項新研究提出了MentalMARBERT,這是MARBERT的領域自適應版本,用於從阿拉伯語社交媒體文本中檢測心理健康障礙。採用自適應預訓練和分層微調的兩階段框架,該模型在一個包含50,670條推文(涵蓋六個類別)的新數據集上實現了0.861的宏F1和0.877的準確率,達到了最先進水平。

  • 阿拉伯語心理健康自然語言處理面臨方言差異和資源有限的挑戰。
  • 該研究引入了兩階段框架:領域自適應預訓練和分層兩階段微調。
站內正文

購物推理基準:專家編寫的多輪對話購物助手基準

購物推理基準(Shopping Reasoning Bench)是一個由零售領域專家創建的新基準,包含525個任務(232個單輪、293個多輪)和10863條重要性加權的二元評分標準,旨在評估對話式購物助手在偏好細化、權衡分析和兼容性評估等多輪推理能力。測試結果表明,GPT、Claude和Gemini等頂級模型的整體通過率僅為57-77%,且在多輪任務中表現顯著下降,表明當前模型在提供專家級建議方面仍有較大差距。

  • 購物推理基準包含525個專家編寫的任務和10863條評分標準。
  • 它涵蓋五個推理類別和十五個子類別,對購物對話至關重要。
站內正文

基於波斯諺語條件的故事生成中的約束語義解壓縮研究

本研究將抽象的波斯諺語轉化為富有道德寓意的故事視為一種'約束語義解壓縮'任務,並引入波斯諺語對齊敍事數據集(PAND)。通過混合評估框架,發現當前LLM雖能生成流暢文本,但常無法忠實體現諺語中的道德和因果結構,而顯式推理和迭代細化可部分緩解這一解壓縮差距。

  • 提出了'約束語義解壓縮'任務,用於評估LLM從抽象諺語生成故事的能力。
  • 創建了波斯諺語對齊敍事數據集(PAND),包含諺語-故事-意義三元組。
站內正文

MARD:鏡像增強推理蒸餾用於機制級藥物相互作用預測

本文提出了一種用於機制級藥物相互作用(DDI)預測的可復現標註與評估協議,包含7家族147亞型分類法和泄漏安全的冷分片策略。並開發了7B參數的MARD模型,融合單令牌KL散度、PRM加權DPO和機制感知檢索通道三項創新。在2026年4月DrugBank數據集上,MARD-7B是32個系統中唯一在藥物對新穎性下保持準確率的模型,比最佳基線高13.9個百分點,比GPT-4o高6.7個百分點,成本僅為前沿API的1%。分析表明其優勢源於結構化藥理推理而非藥物頻率記憶。

  • 提出機制級DDI預測的7家族147亞型分類法及泄漏安全的冷分片評估協議。
  • MARD-7B模型通過單令牌KL散度、PRM加權DPO和機制感知檢索通道實現推理蒸餾。
站內正文

EDEN:意大利語臨牀筆記的大規模語料庫

EDEN(急診科電子筆記)是一個新的大規模臨牀筆記語料庫,包含約400萬份來自意大利醫院急診科的完全匿名化筆記。其中約六千份筆記由臨牀專家手動標註,涉及呼吸困難和意識喪失兩種患者情況,包含132個條目。該數據集旨在填補意大利語臨牀數據空白,支持大型語言模型在醫療領域的應用。

  • 包含約400萬份匿名化臨牀筆記
  • 約六千份筆記由專家手動標註132個條目
站內正文

PermDoRA:理解語言模型中的適配器干擾——參數空間幾何的侷限性

大型語言模型中的訪問控制需要模塊化機制,但適配器組合時存在干擾。本研究通過DoRA-RBAC框架測試了假設,發現基於幾何感知的合併策略並未優於標準平均,表明干擾主要源於共享非線性表示而非參數空間幾何。

  • 使用DoRA-RBAC框架在LLaMA-3.1-8B和Mistral-7B上進行多領域QA基準測試。
  • 幾何感知的黎曼合併策略與標準歐幾里得平均相比無顯著優勢。
站內正文

基於梯度的Gray-Scott系統反演中的損失景觀診斷:解耦PINN組件的作用

本研究通過直接反向傳播通過偏微分方程結構來診斷損失景觀,發現優化失敗源於平坦高原和陡峭懸崖。當神經網絡固定時,殘差損失產生平滑景觀,避免病態,而神經網絡僅用於補全觀測數據。

  • 直接反向傳播通過Gray-Scott模擬恢復參數失敗,損失景觀呈現平坦高原和與分岔邊界對齊的陡峭懸崖。
  • 殘差損失在神經網絡固定時是二次的併產生平滑景觀,隱含編碼了整個偏微分方程動力學。
站內正文

物理信息生成式AI在半導體制造中的應用:通過構造強制執行生成模型中的硬物理約束

本文論述了在半導體制造等物理約束嚴格的領域中,生成式AI必須從構造上嵌入物理信息,而非事後過濾。綜述了物理信息擴散、PDE約束變分模型、神經算子先驗等架構工具,並提出了包含物理保真度基準、可微分模擬器及多模態基礎模型的研究議程。

  • 半導體制造要求生成模型服從光刻、傳輸、反應等硬物理約束
  • 通過構造強制執行約束的架構優於事後過濾
站內正文

ProHiFlo:分層流匹配與功能引導的從頭蛋白質生成

ProHiFlo 是一種創新的分層流匹配框架,用於從頭蛋白質生成,通過粗到細的生成、功能引導和自適應 SE(3)-等變架構,在保持精度的同時減少計算成本,並在酶活性位點支架設計上取得了 58.9% 的成功率,顯著優於現有方法。

  • ProHiFlo 採用粗到細的生成策略,先建模主鏈幾何再細化到全原子座標。
  • 通過預訓練預測器實現功能引導,無需重新訓練即可生成具有所需特性的蛋白質。
站內正文

雙立場評估奉承行為:同意的結構與干預的侷限性

激活引導可以改變大語言模型的行為,但標準評估通常不測試減少奉承行為的引導方向是否也會抑制對事實正確陳述的同意。本文引入雙立場評估,對Llama-3-8B-Instruct應用質心差分引導,發現模型將奉承性同意和事實性同意表示在幾何上不同的子空間中,但引導方向在兩個子空間上的投影相等,無法區分目標。因此,引導同時減少了奉承性陳述和事實正確陳述(如“地球是圓的”)的同意。所有其他靜態屬性均匹配,表明行為分離源於生成動態或殘差流分析無法解析的更精細結構。這一模式揭示了一個普遍差距:從激活中可讀的表徵不一定可通過激活寫入。

  • 激活引導減少奉承行為時,也會抑制對事實正確陳述的同意。
  • 雙立場評估同時測試每個話題的兩種立場,揭示了引導的副作用。
站內正文

部署中心評估:預測臨牀大語言模型系統中的查詢級拒絕風險

該論文提出了一種以部署為中心的評估方法,針對嵌入電子健康記錄的臨牀大語言模型系統,利用查詢內容和部署特定上下文(如提供者類型、科室、所用模型)訓練預響應分類器,預測用户拒絕風險。經過4.5個月的前瞻性分析,模型AUROC達到0.719,證明了利用部署上下文預測用户拒絕的可行性,為觸發防護欄和棄權策略提供了依據。

  • 傳統靜態基準關注正確性而非用户接受度,且需要密集標註;該工作利用真實部署中的稀疏用户反饋進行評估。
  • 預響應分類器結合查詢內容和部署上下文(提供者類型、科室、語言模型)預測用户拒絕風險。
站內正文

Evoflux: 針對緊湊型代理的可執行工具工作流的推理時演化

緊湊型語言模型在工具使用方面面臨挑戰,尤其是在孤立函數調用之外。Evoflux 在推理時使用進化搜索來修復可執行工具工作流,在 MCP-Bench 任務上將執行可行性從約3%提高到17-24%,優於 SFT 和 DPO 基線。

  • 小型語言模型在工具工作流依賴和執行方面存在困難。
  • Evoflux 通過結構化編輯和執行反饋演化類型化工作流圖。
站內正文

TrajGenAgent:用於人類移動軌跡生成的分層LLM智能體

TrajGenAgent提出了一種基於分層LLM智能體的框架,無需模型微調即可生成逼真的合成人類移動軌跡。它採用兩階段設計:LLM首先通過上下文學習合成個體和星期條件化的活動鏈,然後通過確定性工作流(包括個性化POI檢索、距離感知位置選擇、運動學感知的旅行時間傳播和LLM持續時間估計)將每個活動轉化為完整的訪問記錄。此外,引入基於異常檢測的評估框架來評估行為與語義合理性。實驗表明,該方法在時空保真度、語義一致性和個體行為真實性方面優於現有方法。

  • TrajGenAgent是一種無需模型微調的分層LLM智能體框架,用於生成人類移動軌跡。
  • 採用兩階段設計:LLM合成活動鏈,確定性工作流進行活動到訪問的轉化。
站內正文

“你説謊了嗎?”評估不同模型規模與信念驗證模型有機體上的謊言檢測器

該研究評估了大型語言模型中的謊言檢測器,創建了13個推理模型有機體(其隱藏信念通過思維鏈驗證),並提出了多樣化欺騙測試牀。在31個模型上測試了四種檢測器,發現所有檢測器在提示性撒謊任務中隨模型能力擴展,但在訓練有機體上,除思維鏈裁判外性能大幅下降。當前檢測器難以對模型信念做出高置信度聲明。

  • 創建了13個具有已驗證隱藏信念的推理模型有機體,用於評估謊言檢測器。
  • 評估了四種檢測器:思維鏈裁判、對數概率分類器和兩種激活探針(包括新的Did-You-Lie方法)。
站內正文

PersonaDrive:用於閉環駕駛仿真的人類風格檢索增強VLA智能體

PersonaDrive是一種新框架,通過檢索風格指令的人類駕駛演示來調節視覺-語言-動作(VLA)駕駛智能體,實現多樣化的駕駛風格。它包括離線三元組挖掘、輕量級檢索頭訓練和單一VLA主幹微調,無需針對每種風格重新訓練即可切換風格。在Bench2Drive上,無風格條件下駕駛得分提升4.6%,風格條件下每種風格均取得最高分,且保守到激進風格平均速度和加速度分別提升18%和25%。

  • PersonaDrive利用風格指令的人類駕駛數據集,通過檢索演示來調節VLA智能體行為。
  • 流水線包含離線三元組挖掘、檢索頭訓練和VLA主幹微調三個階段。
站內正文

Pythagoras-Prover: 通過增強型Lean形式化推進高效形式化證明

Pythagoras-Prover是一個計算高效的Lean定理證明器家族,包含4B和32B的自迴歸模型以及4B的擴散模型。它通過分層課程SFT和動態證明過濾提高訓練效率,並引入增強型Lean形式化(ALF)擴展驗證語料庫。實驗顯示,4B模型在MiniF2F-Test上以86.1%的pass@32超越DeepSeek-Prover-V2-671B(82.4%),而32B模型達到93.0%的新開源最佳水平,並在PutnamBench上解決93個問題。

  • Pythagoras-Prover包含4B和32B自迴歸模型及4B擴散模型,擴散模型在推理時迭代細化證明。
  • 通過分層課程SFT和動態證明過濾實現訓練效率提升,保持8k token上下文預算。
站內正文

Arbor:樹搜索作為自主代理的認知層

Arbor是一個多代理框架,將結構化樹搜索作為自主代理的認知層,用於大規模有狀態動作空間。在全棧LLM推理優化中,相比供應商優化基線,實現了高達193%的吞吐量-延遲帕累託改進,並且硬件無關、可重複。

  • Arbor引入樹搜索作為共享工作記憶,跨代理協同優化。
  • 在全棧LLM推理上實現193%性能提升,且硬件無關。
站內正文

ToolSense:一種用於審計大語言模型中參數化工具知識的診斷框架

研究人員發現,當前用於評估大語言模型工具檢索能力的基準測試存在高估問題。為此,他們提出了ToolSense,一個開源的自動診斷框架,可生成三種基準測試來更真實地評估模型對工具的理解。在ToolBench(約4.7萬個工具)上的實驗揭示了知識-檢索分離現象:一些模型在標準基準上表現良好,但在更現實的查詢中性能大幅下降,甚至低於嵌入基線。

  • ToolSense是一個開源框架,用於審計大語言模型的參數化工具知識。
  • 它自動生成三種基準測試:真實檢索基準(RRB)、多項選擇探測和問答探測。
站內正文

Claude Fable 極其主動

Simon Willison 展示了 Claude Fable 5 的驚人主動性:僅憑一張截圖和一行提示,它自主調試了一個 CSS 滾動條錯誤,使用了多種創新技巧,包括自定義屏幕截圖、編輯模板注入 JS、搭建 CORS 服務器等。同時也警示了未沙箱化編碼代理的安全風險。

  • Claude Fable 5 自主調試了一個 CSS 水平滾動條錯誤,使用了多種創新技術。
  • 它編寫了測試 HTML 頁面、通過 PyObjC 獲取窗口信息、注入 JavaScript 觸發快捷鍵、並搭建了自定義 CORS 服務器。
站內正文

你可能錯過的Snowflake Summit 2026三大洞見

企業AI的第二波浪潮聚焦於數據和軟件基礎設施。Snowflake通過連接專有數據與AI模型,幫助企業實現業務成果。本文總結了安全治理、數據基礎和生產化AI三大關鍵洞察。

  • 強大的數據基礎將企業AI轉化為業務成果,如DoorDash和Fanatics的案例所示。
  • 企業AI需要新的安全、治理和信任框架,包括Tenable和Komodo Health的實踐。
站內正文

ERGO Hestia 藉助 Lakebase 和 Mosaic AI Model Serving 縮短上市時間

波蘭領先保險公司 ERGO Hestia 使用 Databricks Lakebase 和 Mosaic AI Model Serving 重構實時定價引擎,將數據、特徵和決策統一在湖倉一體平台上,實現毫秒級定價,加速模型部署,提升治理合規性。

  • ERGO Hestia 將實時定價引擎遷移到 Databricks 湖倉一體平台,消除了外部數據庫和適配層。
  • 新架構通過 Lakebase 提供在線特徵存儲,Mosaic AI Model Serving 直接提供API,實現了毫秒級響應。
站內正文

讓秘密掃描更可信:大規模減少誤報

GitHub 通過引入基於 LLM 的上下文驗證,將秘密掃描的誤報率降低了 75.76%,提升了警報的可靠性和開發者的信任度。

  • GitHub 與微軟安全與 AI 團隊合作,利用上下文感知的 LLM 推理改進秘密掃描驗證。
  • 通過提取高信號上下文(如 API 調用、身份驗證頭等使用方式),而非分析整個代碼庫。
站內正文

首個推理擴散LLM Mercury 2現已登陸Baseten

Inception推出的Mercury 2是目前速度最快的推理LLM,採用擴散架構而非傳統自迴歸方式,在標準NVIDIA GPU上可達到每秒1000 token以上的生成速度,速度是同級模型的5-10倍,成本降低一半以上,質量與Haiku和GPT-5 mini相當。Augment Code在生產環境中使用後,成本降低90%,延遲降低82%。Baseten為其提供企業級推理平台支持。

  • Mercury 2是首個推理擴散LLM,通過並行生成整個輸出再逐步精煉的方式,突破了自迴歸模型的序列生成瓶頸。
  • 在標準NVIDIA GPU上可達1000+ tokens/秒,無需專用芯片,速度是同類優化模型的5-10倍。
站內正文

LlamaIndex 新聞通訊 6-10-26

本期帶來 ParseBench 在 CVPR 2026 的展示、Parse-Flow 視覺文檔智能工作流、Anthropic Fable 5 基準測試結果、LlamaParse 新粒級邊界框,以及 AI 首個匹克球錦標賽 The Agent Open。

  • ParseBench 在 CVPR 2026 首次亮相,為 AI 智能體提供文檔解析基準。
  • Anthropic Fable 5 在 ParseBench 上內容忠實度達 90.02%,領先競爭對手 12+ 分。
站內正文
工具

OpenAI總部幕後:斯蒂芬·科林斯漫畫

《衞報》刊登了斯蒂芬·科林斯的一幅漫畫,描繪了OpenAI總部的幕後場景,融合了人工智能、生活方式等主題,以幽默視角呈現科技與日常的交匯。

  • 斯蒂芬·科林斯為《衞報》創作漫畫,主題為OpenAI總部的幕後。
  • 漫畫涉及人工智能、生活與風格等話題。
站內正文

Qursor:指向UI即可向AI發送精確上下文

Qursor 是一款創新工具,允許用户通過指向任何用户界面元素,將其精確上下文發送給AI助手,從而簡化交互過程。該產品已在Product Hunt上發佈。

  • Qursor 讓用户指向UI元素即可向AI發送上下文。
  • 支持任何界面,提升AI交互的精確性。
站內正文

Bob的命令行工具

一款本地優先的AI編碼命令行工具,能夠適應用户的使用習慣。

  • 本地優先的AI編碼CLI
  • 可適應用户個性化需求
站內正文