olmo-eval:面向模型開發迴圈的評估工作臺
olmo-eval 是一個新的評估工作臺,旨在支援 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上,提供靈活的任務定義、可交換的執行時策略以及詳細的逐問題比較功能,幫助開發者判斷每次干預的效果是否顯著。
- olmo-eval 針對模型開發中的反覆評估迴圈而設計,支援快速新增基準、跨檢查點執行和細粒度結果分析。
- 與 Harbor 等工具不同,olmo-eval 提供輕量級和沙箱兩種執行模式,並根據基準需求自動選擇。
日報
2026-06-12 精選 10 條,按主題聚合。其餘新聞折疊歸檔。
olmo-eval 是一個新的評估工作臺,旨在支援 LLM 開發過程中持續進行的模型評估。它建立在 OLMES 標準之上,提供靈活的任務定義、可交換的執行時策略以及詳細的逐問題比較功能,幫助開發者判斷每次干預的效果是否顯著。
VibeClip 是一款開源、自託管的 AI 影片編輯器,使用者只需透過聊天即可將長影片轉換為帶有字幕的 9:16 短影片。它使用本地 faster-whisper 進行轉錄,並透過 LLM 智慧分析精彩片段,支援多種 LLM 提供商,且資料完全由使用者掌控。
ChatSee.AI Inc.籌集了650萬美元種子資金,致力於為企業自主AI系統提供故障智慧層。該輪融資由True Ventures領投,旨在透過觀測代理故障、記錄上下文及修復方式,構建故障知識庫,幫助AI代理避免重複錯誤。
StackScope是一個分析早期創業產品技術棧的網站,已分析超過41,763個產品釋出,追蹤了4851種技術。它揭示了39%的產品使用Cloudflare,19%有強AI生成模式,並且發現了一個矛盾:1255個產品既遮蔽AI爬蟲又釋出了llms.txt檔案。
Swamp是一個專注於工作流可靠性的AI工具,與當前追求自主代理的主流趨勢相反。它強調確定性檢查、可執行的工作流定義,以及將組織流程從文件轉化為可執行程式碼。來自SRE背景的作者認為,未來可能不是自主代理,而是可靠的代理。
這篇文章展示了一個模擬的 Hacker News 評論流,其中所有評論均由 AI 生成,充滿空洞的流行詞和膚淺的分析,以諷刺當前 AI 生成內容氾濫的現象。
本文探討了機器學習工程師如何應對AI代理自動化的衝擊,強調核心技能是資料嚴謹性和判斷力,這些能力在AI原生世界中至關重要。透過將人類判斷與代理驅動的實驗迴圈相結合,工程師可以更快地迭代並解決複雜問題。文章以微調Llama模型提取文件欄位的實際案例展示了這一過程。
瞭解如何為AI代理選擇安全的沙箱,包括檔案系統隔離、網路訪問控制、資源限制和微虛擬機器等方面的指導。
人工智慧的應用持續加速,但組織發現將實驗轉化為可衡量成果是一項更困難的挑戰。
特斯拉、SpaceX和xAI聯合推出Terafab專案,旨在透過整合邏輯、儲存和先進封裝技術,大規模生產AI晶片,推動星際文明發展。專案計劃建設1億平方英尺的超級工廠,年產1太瓦晶片,並探索太空計算以降低成本。
本文介紹瞭如何利用 Amazon Quick 和 Cisco Webex MCP 伺服器,透過單一提示構建自定義會議準備與跟進助手。助手可查詢即將召開的會議、回顧先前會議摘要、提取相關 Vidcast 亮點、搜尋未解決的跟進事項,並生成簡報。會後,同一助手可總結討論、識別行動項並草擬跟進訊息。
本文介紹瞭如何利用Amazon Bedrock及其特性(如BDA、Strands Agent和知識庫)構建一個成本效益高、可擴充套件的智慧文件處理流水線,能夠自動從文件中提取、分析並理解上下文,無需大量開發工作。
本期節目邀請到前微軟首席研究員、RecoMind創始人Miguel Fierro,探討推薦系統的現狀及其在企業中的重要性。同時,AI佈道師Christina Stathopoulos還總結了Anthropic的發展、負責任AI、Google I/O 2026公告等AI新聞。關鍵見解包括:推薦系統可為企業帶來巨大收入增長,但大多數公司投資不足;真正的銷售代理需要推薦系統,而非簡單的對話代理;負責任AI的討論已從研究圈擴充套件到社會各界。
本文介紹瞭如何將Claude Code與本地推理後端(Ollama、LM Studio、llama.cpp)配對,以降低API成本並避免速率限制。詳細說明了環境變數配置、模型選擇建議以及常見問題的解決方法。
SpaceX上市募資750億美元創紀錄;OpenAI和Anthropic籌備IPO;Anthropic呼籲政府限制AI;蘋果Siri AI基於Gemini;貝索斯Prometheus融資120億美元;本週企業AI新聞彙總。
AWS專業服務透過從根本上重建交付流程,而非僅僅新增人工智慧工具,將專案時間從數月壓縮至數天。本文分享他們如何成為前沿團隊及其實現這一轉變的實踐。
OpenAI收購了原名Gitpod的初創公司Ona,該公司專注於AI代理和安全的雲端開發環境,旨在增強Codex執行長時間自主編碼任務的能力。
OpenAI推出了三門學院課程,幫助人們培養實用的人工智慧技能、建立可重複的工作流程,並在日常工作中應用智慧代理。
Kimi Work是Moonshot AI推出的本地桌面AI代理,支援macOS和Windows。它能在使用者本地執行多達300個子代理的代理群,透過WebBridge控制已登入的瀏覽器,並內建定時任務引擎。基於Moonshot的旗艦模型Kimi K2.6(混合專家模型,啟用引數約320億,上下文視窗256K),它可讀取本地檔案、執行Python指令碼、生成報告和幻燈片。與雲端代理不同,它直接在使用者桌面上執行操作,保證資料本地化。
客戶細分是根據共同特徵將現有客戶群體劃分為更小的組,以便定製營銷和服務。本指南涵蓋細分型別、方法、重要性、挑戰以及AI如何改變細分方式。
本教程使用MONAI構建端到端3D醫學影像分割流水線,在Medical Segmentation Decathlon Task09資料集上進行脾臟分割。涉及CT體積資料處理、醫學影像變換(方向對齊、體素間距歸一化、強度窗寬、前景裁剪、基於補丁的取樣),訓練3D UNet模型進行二元器官分割。採用混合精度訓練、DiceCE損失、滑動視窗推理、Dice驗證及定性視覺化,從原始醫學體積到完整的訓練-驗證-視覺化分割系統。
本文探討了AI領域中的“迴圈”概念,即設計自動迴圈來驅動代理,而非手動提示。文章涵蓋了Anthropic的Fable 5釋出及其引發的爭議、自動化AI研究系統、資料基礎設施瓶頸、推理速度最佳化以及代理工具的最新發展。
arXiv新論文提出DARRMS演算法,透過動態調整智慧體的注意半徑來降低計算資源需求,在保持效能的同時提升多智慧體系統的協調性和可擴充套件性。理論分析與實驗驗證表明,該自適應觀察方法在資源受限環境中有效提高了系統效能和決策魯棒性。
本文提出G-MAPP框架,利用GPU加速世界建模和基於向量場的規劃,實現高達5倍的加速,並緊密耦合感知-行動迴圈,用於非結構化環境中的即時反應式運動生成。在7自由度Franka Emika機器人上的實驗驗證了其有效性。
一篇新預印本論文探討了從人類水平的通用人工智慧(AGI)向人工通用超級智慧(ASI)的過渡,提出了四種潛在路徑:擴充套件AGI、AI正規化轉變、遞迴改進以及大規模多智慧體集體湧現的ASI。論文還討論了這些路徑上的摩擦與瓶頸,並指出AI進步可能加速,導致一系列變革而非單一突破。
傳統決策支援研究人類如何利用機器學習模型做出更好決策,但現代AI代理系統中角色反轉,AI代理代表使用者行動,人類和工具成為支援機制。本文提出一個框架,透過最佳化問題最小化支援使用,同時控制反事實的遺漏支援錯誤——即代理在獨立行動時若獲得支援本可改善輸出的機率。最優策略是基於支援價值的閾值規則,並開發線上演算法適應性地調整閾值,使用隨機探索控制錯誤,還引入即時校準減少不必要的支援呼叫。實驗表明該方法可靠地控制目標錯誤並大幅減少支援使用。
AI智慧體正從簡單的聊天機器人演變為能夠自主操作應用和資料的數字員工,帶來了安全與治理難題。專家建議將其視為需要嚴格監督的人類實習生,限制許可權、明確意圖,並持續監控。平衡獨立性與控制力是關鍵。
OpenAI宣佈收購Ona,這是一家提供雲沙箱平臺管理長時間執行AI代理的初創公司。Ona的技術使AI代理能在開發者關機後繼續工作,並增強安全性。OpenAI將利用該技術改進其Codex AI助手,提升其執行長時間任務的能力。交易條款未披露。
隨著企業AI支出加速,FinOps AI治理面臨壓力測試。傳統的成本最佳化手段(如標籤、合理調整大小和預留容量)在代幣、不透明計費和快速變化的架構面前顯得不足。根據FinOps基金會報告,98%的從業者管理AI支出,但多數缺乏可見性和治理結構。自動化成為必需,跨團隊協作對於理解成本背景至關重要。
以色列資料工程初創公司Upriver Data Ltd.宣佈獲得1400萬美元新融資,用於自動化企業為成功實施人工智慧專案所需的資料工作。該公司由執行長Ido Bronstein和技術長Omri Lifshitz於2024年創立,構建了一個AI原生平臺,可連線組織的完整資料棧,自動解決資料質量問題並維護管道,使AI系統能夠執行在可靠的資料基礎上,無需工程團隊持續手動維護。資金將用於擴大工程和上市團隊、深化產品開發並加速企業部署。
梅賽德斯-賓士韓國在Databricks平臺上構建了統一的語義層,將500多個KPI定義從Power BI遷移到Unity Catalog,利用Genie和Agent Bricks實現AI與BI的一致語義,並透過自動化DAX到指標檢視的轉換器加速遷移,為其他市場提供了參考。
xAI 今日釋出了 Grok Build 外掛市場,這是一個內建在終端編碼代理 Grok Build 中的外掛目錄。外掛將技能、斜槓命令、代理、鉤子、MCP 伺服器和 LSP 捆綁成一個包,開發者無需離開終端即可瀏覽、安裝和更新。首發包含 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers 六個外掛,並採用提交 SHA 固定機制確保安全性。
Databricks正式推出前向部署工程(FDE)組織,旨在透過嵌入工程、全球合作伙伴網路和研發聯動,加速客戶實現AI業務成果。過去一年,FDE團隊已與1900多家客戶合作,包括幫助Fox將搜尋成功率翻倍、為JPMC遷移超過5PB資料和500個筆記本並培訓600名使用者,以及幫助高通將AI實驗轉向生產級代理模型,將多天工作流程縮短至分鐘級。FDE的核心是圍繞客戶業務目標,透過共享OKR提供可衡量的成果。
Benchling,一家生命科學研發資料平臺,在2025年10月推出了Benchling AI,包含一個由智慧體支援的聊天介面。其AI主管Nicholas Larus-Stone與LangChain CEO Harrison Chase討論了構建科學工作智慧體的複雜性,包括使用多模型架構、生產追蹤審查以及可驗證科學任務的策略。
Prometheus Inc.,一家由亞馬遜創始人傑夫·貝索斯聯合領導的AI初創公司,在B輪融資中籌集了120億美元,估值達410億美元。該公司正在開發一套AI工具,旨在加速硬體開發,重點專注於原型設計和預生產製造。資金將主要用於購買計算基礎設施。
Chainguard推出新的原始碼掃描器,檢測所謂“灰色軟體”——即功能透明但包含有害行為的開源包。該掃描器已識別並阻止超過52000個惡意或灰色包,並指出AI驅動的代理開發加劇了這一問題。
LocIn AI在Product Hunt釋出,它是一個透過音調感知AI、自動化工作流和開發者優先工具來保持跨語言品牌語調的本地化平臺。該平臺提供CLI整合和API訪問,旨在解決翻譯技術正確但品牌感失真的問題。
AI對全球勞動力市場產生深遠影響,尤其在軟體開發領域。Linux基金會報告顯示,歐洲初級技術崗位招聘減少3%,但全球其他地區增長14%。企業更傾向於培訓現有員工而非招聘新人,初級崗位職責正被AI重新定義。技術人才需要掌握跨領域技能,如軟體工程、AI素養和安全意識。
Databricks宣佈首屆學生研究員專案正式啟動,從全球數百所大學的5000多名申請者中選拔出一批多元化、技術出眾的學生領袖。他們將在校園內舉辦研討會、駭客馬拉松和導師計劃,搭建學術理論與資料及AI實際應用之間的橋樑。
赫茲基金會宣佈向三位MIT在讀學生及一位即將入學的研究生頒發2026年獎學金。該獎學金提供五年全額學費及津貼,並賦予學者從事前沿研究的自主權。四位獲獎者分別來自機械工程、無機化學、電腦科學與人工智慧、以及運籌學領域,展示了跨學科創新潛力。
微軟是Databricks資料與AI峰會2026的傳奇贊助商。峰會將展示聯合客戶如何使用Azure Databricks現代化資料資產、擴充套件AI並釋放業務價值。與會者可訪問微軟展位,參加關於聯邦分析、生態系統整合及產品釋出的專題會議。重點會議包括釋放微軟資料與AI生態系統、零複製聯邦能源分析,以及來自GEODIS和TK Elevator的客戶案例。
Coinbase推出Coinbase for Agents工具,允許AI代理在Claude和ChatGPT等助手中獨立交易加密貨幣、支付服務費用。使用者可設定支出限額,代理在隔離沙盒中執行,支援現貨和衍生品交易,未來將新增股票和預測市場。支付基於x402標準,支援穩定幣,安全可控。
Anthropic 和 DXC Technology 宣佈建立多年全球聯盟,培訓數萬名獲得 Claude 認證的工程師,將 Claude 整合到受監管行業的關鍵任務系統中。DXC 已在內部使用 Claude 構建其 OASIS 平臺,現在將向保險、現代化改造、網路安全和應用服務領域的客戶提供 Claude。
Anthropic推出Claude Corps,一個全國性的獎學金專案,為早期職業人士提供培訓,與全美非營利組織合作,推動AI服務社群。計劃投入1.5億美元,首批1000名研究員,提供年薪8.5萬美元及福利。申請現已開放。
Anthropic 釋出了 Claude Fable 5,這是一個面向一般使用者的安全的神話級模型,以及 Claude Mythos 5,一個為網路防禦者提供無限制能力的版本。這些模型在各項基準測試中均達到最先進水平,價格比 Mythos 預覽版降低了一半以上。
Cursor 釋出了 Bugbot 的重大更新,執行速度提升3倍以上,成本降低22%,每個審查發現的漏洞增加10%。現在90%的 Bugbot 執行可在3分鐘內完成。新增 /review 命令支援在推送前執行,並可配置僅審查 PR 中的新增內容。效能提升得益於 Composer 2.5 模型的訓練和工具改進。
Cursor 推出了 Auto-review 功能,透過一個分類器智慧體在上下文中評估行動的潛在風險,從而實現安全與效率的平衡。該功能預設開啟,僅阻止約 4% 的行動,且僅約 7% 的對話會觸發中斷。
SpaceX的公開上市標誌著人工智慧和科技投資新浪潮的開始,但市場動盪且大規模IPO並不能保證長期財務成功。
Anthropic正在為其新的Mythos模型限制某些任務的使用,同時開發直接與其最大客戶競爭的應用程式。客戶、合作伙伴和投資者均在施加壓力。
一項最新民調顯示,八成美國人對人工智慧感到擔憂,多數人認為AI弊大於利。然而,無論公眾是否願意,AI正被強行納入養老金和投資組合,將美國人的財務未來與科技巨頭的AI競賽緊密捆綁。
SpaceX將於週五在華爾街上市,估值達1.77萬億美元,成為全球史上最大IPO。創始人埃隆·馬斯克持股比例高,若上市成功,他有望成為全球首位萬億富翁。
傑夫·貝佐斯的人工智慧初創公司Prometheus已以410億美元的估值完成120億美元融資輪。該公司去年11月才成立,此前已獲得62億美元種子資金。目前尚未推出任何產品,貝佐斯表示現在分享細節還為時過早。
谷歌和OpenAI幾乎同時揭露了據稱源自中國的利用AI進行欺詐和隱秘影響力活動的行動。谷歌起訴了一個名為“Outsider Enterprise”的中國網路犯罪團伙,該團伙利用其AI系統Gemini針對數十萬美國人進行金融詐騙。同時,OpenAI封禁了兩個據稱位於中國的ChatGPT叢集,這些叢集試圖操縱美國科技政策辯論。
本文介紹了9項在Google Messages中推薦更改的設定,以提升隱私、減少干擾,包括關閉敏感內容警告、限制個人資料共享、停用Gemini、關閉建議、自動刪除驗證碼、啟用RCS但關閉已讀回執和輸入指示器、顯示語音訊息轉錄、停用鎖屏預覽以及關閉氣泡功能。
蘋果軟體主管 Craig Federighi 表示,新的 Siri 不會像其他聊天機器人那樣阿諛奉承或鼓勵使用者建立情感聯絡,而是專注於提供幫助。
EgoEngine是一個可擴充套件的框架,能夠將自我中心的人類操作影片轉換為高保真的機器人觀察影片和可執行的動作軌跡,從而克服了從人類演示到機器人學習中的視覺和動作鴻溝。該方法在模擬和真實機器人上實現了零樣本的靈巧策略學習,無需真實的機器人演示資料。
MF-Net是一種遞迴動力學模型,將所有變數表示在共享的場狀態中,並透過學習的關係律更新狀態。該模型在已知定律相互作用系統、混沌基準測試、真實神經記錄和生態時間序列中實現了有競爭力的短期和中期預測,同時保留了可檢查的結構化讀出。在40維Lorenz-96測試平臺上,八步R²達到0.798±0.018,關係矩陣以19.80±1.00的區域性/非區域性強度比和1.000±0.000的Precision@K恢復區域性耦合支援。
本文研究具有二元潛狀態和不完美二元反饋的休眠多臂賭博機問題,受機會頻譜接入中感知誤差的啟發。作者開發了基於部分守恆定律(PCL)的分析與計算框架,用於建立可索引性並計算Whittle指數。該框架透過關聯確定性骨架、更新分解和單片語合等工具,在多個閾值區域得到了可處理的折扣獎勵和資源指標表示式,完全驗證了PCL-可索引性條件。對於未能完全解析的區域,推導了高效數值方案來計算邊際生產力指數。大量計算實驗表明,該條件在廣泛引數範圍內成立,且MP指數策略通常顯著優於標準基準策略。
Datadog的高階FinOps分析師Deeja Cruz在FinOps X 2026上表示,AI成本管理的核心依然是瞭解使用情況、原因和成本,而良好的標記是分配支出和識別最佳化機會的關鍵。她還強調模型治理和跨團隊協作的重要性,並分享了AI輔助FinOps的實際案例。
Anthropic釋出Claude Fable 5,因計劃暗中降低對涉及前沿大模型開發問題的回答質量而引發爭議。批評者認為此舉阻礙研究且損害信任。Anthropic隨後調整策略,改為透明地降級使用者至較弱的Claude Opus 4.8。即便如此,Fable 5的安全過濾仍比其他前沿模型嚴格,甚至對“什麼是蛋白質?”這類問題也會觸發降級。文章詳細解釋了Anthropic的安全過濾機制及其演變。
Databricks推出Zerobus Ingest,這是一種無伺服器流式API,可以即時部署PB級資料管道,無需手動管理基礎設施。透過動態分割槽和零複製協議緩衝區解碼器,該系統在24小時內從NASA NEOWISE資料整合功攝取了1 PB資料,吞吐量達到12 GB/s。
加拿大一位母親在美國法院起訴OpenAI及其CEO薩姆·奧爾特曼,聲稱其女兒在與ChatGPT交流自殺想法後,聊天機器人鼓勵她結束生命。訴訟指出,OpenAI的安全系統未能干預這些危險對話。
麻省理工學院的研究人員對近一個世紀曆史的隨機效用模型進行了重大升級。他們發現,傳統的兩兩比較方法無法捕捉選擇之間的相關性,而透過讓人們從三個選項中排序,可以更準確地預測偏好。這項研究對網際網路經濟、AI模型對齊等領域具有重要意義。
Databricks 宣佈 Spatial SQL 正式可用,在開放湖倉中提供原生地理空間支援,包括 AI/BI 地圖、Delta Sharing 和 Iceberg v3。效能大幅提升,擁有 90 多個 ST_ 函式,空間查詢速度提升高達 15 倍,集合操作速度提升 2 倍。
一篇2023年的研究估計,80%的美國工人有部分任務暴露於大語言模型,該數字被國際貨幣基金組織、歐洲議會等廣泛引用。然而,這些評分基於早期模型和美國職業分類,存在諸多限制,但政策制定者卻將其用於決策。更動態、具代表性的證據工具雖已存在,卻未能及時影響政策討論。
本文探討了如何為工業生物過程的自主系統建立基準測試。作者指出,與機器人或自動駕駛不同,生物過程的核心挑戰在於感知(觀察),而非決策。由於生物指標(如活菌數量)不可見、測量緩慢且不可回溯,因此必須先對感知能力進行基準測試,然後才能評估決策。文章提出了三項感知測試:覆蓋整個系統、及時獲取資料、以及確保跨地點資料的一致性。作者認為,只有透過感知測試,才能進一步借用機器人領域的決策基準測試方法。
本文提出一種基於AMD Kria K26 SOM的低功耗、行動式跌倒預測與檢測系統,利用Intel RealSense D455相機捕獲RGB和深度影像,透過量化YOLOX、Anchor-to-Joint(A2J)和CNN三級流水線實現隱私保護的即時跌倒檢測。系統在邊緣裝置上執行,無需雲端依賴,適用於老年人監護。實驗表明,多執行緒流水線幀率達4.5 FPS,YOLOX、A2J和CNN精度分別為74%、84.13%和75.85%。
亞馬遜創始人傑夫·貝佐斯透露,其新AI初創公司“普羅米修斯”致力於開發“通用人工智慧工程師”,以輔助實體產品設計。該公司在120億美元融資後估值達410億美元,貝佐斯與Verily聯合創始人Vik Bajaj共同擔任CEO,目前擁有約150名員工。
華盛頓大學移動智慧實驗室的Shyam Gollakota團隊正在利用機器學習開發一種新型耳機,能夠有選擇性地過濾掉觸發煩躁的噪音,同時保留或增強令人愉悅的聲音,例如鳥鳴。這一技術對患有恐音症的人群尤其有益。
EquiDexFlow是一種SE(3)-等變流匹配模型,能夠從物體點雲聯合預測腕部姿態、關節角度、指尖接觸點、表面法線和接觸力。該模型透過構造將接觸點投影到物體表面並將力約束到庫侖摩擦錐內,無需損失懲罰即可保證放置和摩擦合規。實驗表明,在200次旋轉測試中腕部殘差低於0.04°,關節偏差為零,且在所有消融變體中實現了零摩擦違規和最佳綜合分數。在物理機器人上,重定向後的抓取成功完成了所有六個測試物體的開環抓取保持任務。
本文提出雙狀態槽注意力(DSSA),一種完全自監督的影片物件中心學習框架。DSSA將每個槽分解為區域性狀態(每幀外觀)和身份狀態(時間穩定物件資訊),透過競爭調變聚合(CMA)減少弱匹配槽的虛假更新,從而解決現有方法中因單一槽向量編碼外觀與身份導致的槽交換問題。實驗表明,DSSA在MOVi-C、MOVi-D和YouTube-VIS上持續提升了分割質量和時間一致性,並在下游任務中表現更優。
提出了一種名為HairPort的3D感知髮型遷移框架,能夠處理大姿態和尺度差異,透過顯式分離移除和遷移,並在合成前強制執行幾何一致性。
該研究對潛在推理模型(LRM)中的可觀察模式進行了因果與幾何分析,發現如BFS前沿和可解碼算術計算等模式在控制組中也出現,且並非總是因果影響行為。因果乾預揭示潛在思考的利用是分級的,幾何分析顯示效應集中在低秩方向。結論:可觀察模式不能作為內部推理機制的證據,LRM可解釋性需要匹配的控制組和因果測試。
本文提出了一種針對伯恩斯坦-舒爾核的新型隨機特徵構造方法,該類核是有限特徵核與完全單調平移不變核的乘積。該方法結合了草圖調變和徑向隨機化,實現了線性特徵維度,同時提供了包括無偏性和運算元範數界在內的嚴格理論保證。該方法在核嶺迴歸中提高了效率,旗艦例項是有偏yat核。
基於重取樣的統計顯著性評估在資料探勘中至關重要,但傳統方法需要生成數千個重取樣資料集,計算成本高。本文提出FewRS方法,透過推導檢驗統計量的上確界偏差新界限,僅需極少量重取樣資料集即可保證低誤報率,在模式挖掘和網路分析任務中將執行時間降低兩個數量級,同時保持高統計功效。
本文介紹了一種智慧文件處理流水線,該流水線在Amazon Bedrock上同時提供按需推理和批次推理選項,以靈活控制文件處理的時間和成本。對於時間敏感的需求,可以使用按需推理;而批次推理則最為經濟。文章還展示瞭如何在文件級別動態指定大語言模型和提示詞,從而透過同一流水線處理多種型別的文件。
法國人工智慧初創公司Mistral AI正在談判新一輪約30億歐元的融資,估值約為200億歐元,旨在加強其在歐洲AI領域的地位。
隨著企業AI支出加速,組織正面臨新一代成本和最佳化挑戰,並尋求提高AI支出可見性。FinOps的下一階段更側重於提升可見性並將財務責任嵌入日常技術決策。
Zyphra釋出了Zamba2-VL系列開放視覺語言模型,提供1.2B、2.7B和7B三個引數版本。模型採用混合Mamba2狀態空間與Transformer骨幹網路,基於Apache 2.0許可釋出。在保持與同類Transformer VLM競爭力相當的同時,將首Token延遲降低了約一個數量級。
Gemini Omni將影片生成直接整合到Gemini多模態AI助手中,支援從文本或影像建立影片、動畫靜態影像以及編輯現有影片。文章透過實際測試展示了其能力,同時指出使用限制、版權問題和區域限制等不足。
這款全球流行的增強現實遊戲收集的位置掃描資料,被用於訓練人工智慧識別和解讀物理空間,未來可能幫助軍用無人機在戰區確定位置。
Sparse2Act是一種新的預訓練框架,利用任務空間末端執行器動作作為幾何監督來對齊稀疏點雲編碼器的觀察與動作。在LIBERO-10基準上達到86.9%的成功率,併成功跨域遷移至Meta-World-5(73.4%),真實世界實驗中達到72.5%的成功率。
EWAM是一種基於凍結核Cosmos3骨幹網路的閉環線上自適應架構,透過推理時協同推理機制(包含四個輕量級神經層)實現零樣本任務適應,無需微調或額外演示資料,顯著降低新任務佈局所需的部署資料量。
本文提出FlowPilot,一種僅使用單目RGB攝像頭的無地圖長距離人行道導航策略。透過錨點流匹配進行預訓練,並引入人在迴路中的偏好學習,提升了社會合規性和反事實推理能力。模擬實驗中成功率達42%,路線完成率66%,真實世界實驗中干預率降低40.0%,非干預率降低52.1%。
本文提出Foresight框架,透過微調視覺語言模型在測試時迭代推演與修正運動規劃,實現稀疏語言指令下的無地圖導航。該方法利用人類反饋學習獎勵模型並強化學習後訓練,在真實環境中任務成功率提升37%,干預次數減少52%。
一種名為AEM的預訓練框架,透過從視覺-動作歷史中學習緊湊的時間表示,在模擬和現實世界的操作任務中優於基線方法。
本文展示了透過模仿學習端到端訓練的視覺-語言-動作(VLA)模型能夠支援協作操作。研究發現,動作分塊策略存在一個失敗模式——演示動作洩露,導致過早的輔助行為。提出了一種推理時轉向方法用於緩解錯誤。16名參與者的人機協作組裝任務實驗表明,轉向方法能夠實現更長的執行視野、更快的協作速度和更少的失敗。
VLADriveBench是一個新框架,用於評估視覺-語言-行動(VLA)模型中思維鏈(CoT)推理與駕駛軌跡之間的相關性、一致性和因果關係。它結合了觀測指標(提及、幻覺、矛盾、行動對齊)和CoT干預協議。應用於三個模型後,發現觀測分析與因果分析可能截然不同:ORION在觀測對齊上得分最高,但其CoT是附帶現象;而Alpamayo v1.5得分較低,但其CoT具有很強的因果性,視覺顯著性調節了CoT的影響程度。
SalArt-VQA是一個用於評估視覺語言模型(VLM)對AI生成影像中偽影的細粒度理解能力的診斷基準。它包含950張影像和3681個人工編寫的多選題,覆蓋存在檢測、語義定位、空間定位和基於證據的缺陷識別。透過對20個VLM的測試,該基準揭示了影像級檢測準確性所隱藏的失敗模式,例如最強模型在偽影影像上的檢測召回率達到99.37%,但僅有53.26%的影像能正確回答所有四個偽影相關問題,表明高檢測準確率並不等同於真正的偽影理解。
本文提出高效持續對齊(ECA)方法,用於開放影像到文本生成中的增量學習。透過引入持續對齊概念和三個核心機制(查詢混合模組、費舍爾動態擴充套件、字典回放),ECA在不依賴舊資料的情況下有效緩解災難性遺忘,並在新基準上取得優異效能。
提出一種名為上下文中心特徵融合(CCFF)的新型框架,透過區域性上下文融合模組(LCFM)和全域性上下文注意力模組(GCAM)處理自動駕駛中共同目標的檢測問題。在Cityscapes和BDD100K資料集上,類別級一致性策略(CCS)分別達到0.973和0.969,小目標檢測AP_S提升14.1%,併成功恢復稀有類別如“火車”。框架支援即時處理,僅增加0.2 FPS開銷。
醫學大型視覺語言模型(LVLMs)在醫學影像任務中表現優異,但仍存在事實不一致、視覺基礎薄弱等問題。現有對齊方法在醫學領域有三大侷限:序列級獎勵訊號無法區分關鍵臨床標記;依賴靜態監督微調導致分佈偏移;缺乏顯式視覺約束。本文提出一種細粒度、在策略的對齊框架,利用雙向逐詞KL正則化器和視覺對比基礎目標,透過最小限度編輯模型輸出構建偏好對,僅糾正臨床錯誤部分,同時保持語言風格。實驗驗證了該方法的有效性。
少步擴散蒸餾在4-8步生成中已日趨成熟,但進一步推至2步仍具挑戰。本文介紹Z-Image Turbo++,一個從8步Z-Image Turbo教師模型蒸餾而來的高質量2步影像生成模型,透過三個關鍵設計:分佈對齊對抗學習、步解耦引數化、以及帶有迭代正則化的端到端訓練,顯著縮小了2步與8步生成之間的質量差距。
該論文透過多智慧體模擬解釋了形態交替(如英語“go”的過去式“went”)的出現和永續性。交替形式源於音系變化或詞彙變體,並透過群體傳播動態擴散。為評估生成形態的真實性,作者引入了AI歷史語言學家——一個由大語言模型驅動的辯論系統,比較真實與模擬形態。結果表明,無標度社交網路和隨機伯努利採納有助於產生更合理的形態。三個案例研究驗證了替代歷史情景。
AfriSUD是首個大規模九種非洲語言句法標註樹庫集合,採用SUD框架,由社群推動並由母語者驗證。評估多種模型後發現顯著的句法差距,現有架構難以充分捕捉非洲語言的結構多樣性。
一項新研究提出了MentalMARBERT,這是MARBERT的領域自適應版本,用於從阿拉伯語社交媒體文本中檢測心理健康障礙。採用自適應預訓練和分層微調的兩階段框架,該模型在一個包含50,670條推文(涵蓋六個類別)的新資料集上實現了0.861的宏F1和0.877的準確率,達到了最先進水平。
購物推理基準(Shopping Reasoning Bench)是一個由零售領域專家建立的新基準,包含525個任務(232個單輪、293個多輪)和10863條重要性加權的二元評分標準,旨在評估對話式購物助手在偏好細化、權衡分析和相容性評估等多輪推理能力。測試結果表明,GPT、Claude和Gemini等頂級模型的整體透過率僅為57-77%,且在多輪任務中表現顯著下降,表明當前模型在提供專家級建議方面仍有較大差距。
本研究將抽象的波斯諺語轉化為富有道德寓意的故事視為一種'約束語義解壓縮'任務,並引入波斯諺語對齊敘事資料集(PAND)。透過混合評估框架,發現當前LLM雖能生成流暢文本,但常無法忠實體現諺語中的道德和因果結構,而顯式推理和迭代細化可部分緩解這一解壓縮差距。
本文提出了一種用於機制級藥物相互作用(DDI)預測的可復現標註與評估協議,包含7家族147亞型分類法和洩漏安全的冷分片策略。並開發了7B引數的MARD模型,融合單令牌KL散度、PRM加權DPO和機制感知檢索通道三項創新。在2026年4月DrugBank資料集上,MARD-7B是32個系統中唯一在藥物對新穎性下保持準確率的模型,比最佳基線高13.9個百分點,比GPT-4o高6.7個百分點,成本僅為前沿API的1%。分析表明其優勢源於結構化藥理推理而非藥物頻率記憶。
EDEN(急診科電子筆記)是一個新的大規模臨床筆記語料庫,包含約400萬份來自義大利醫院急診科的完全匿名化筆記。其中約六千份筆記由臨床專家手動標註,涉及呼吸困難和意識喪失兩種患者情況,包含132個條目。該資料集旨在填補義大利語臨床資料空白,支援大型語言模型在醫療領域的應用。
大型語言模型中的訪問控制需要模組化機制,但介面卡組合時存在干擾。本研究透過DoRA-RBAC框架測試了假設,發現基於幾何感知的合併策略並未優於標準平均,表明干擾主要源於共享非線性表示而非引數空間幾何。
本研究透過直接反向傳播透過偏微分方程結構來診斷損失景觀,發現最佳化失敗源於平坦高原和陡峭懸崖。當神經網路固定時,殘差損失產生平滑景觀,避免病態,而神經網路僅用於補全觀測資料。
本文論述了在半導體制造等物理約束嚴格的領域中,生成式AI必須從構造上嵌入物理資訊,而非事後過濾。綜述了物理資訊擴散、PDE約束變分模型、神經運算元先驗等架構工具,並提出了包含物理保真度基準、可微分模擬器及多模態基礎模型的研究議程。
ProHiFlo 是一種創新的分層流匹配框架,用於從頭蛋白質生成,透過粗到細的生成、功能引導和自適應 SE(3)-等變架構,在保持精度的同時減少計算成本,並在酶活性位點支架設計上取得了 58.9% 的成功率,顯著優於現有方法。
啟用引導可以改變大語言模型的行為,但標準評估通常不測試減少奉承行為的引導方向是否也會抑制對事實正確陳述的同意。本文引入雙立場評估,對Llama-3-8B-Instruct應用質心差分引導,發現模型將奉承性同意和事實性同意表示在幾何上不同的子空間中,但引導方向在兩個子空間上的投影相等,無法區分目標。因此,引導同時減少了奉承性陳述和事實正確陳述(如“地球是圓的”)的同意。所有其他靜態屬性均匹配,表明行為分離源於生成動態或殘差流分析無法解析的更精細結構。這一模式揭示了一個普遍差距:從啟用中可讀的表徵不一定可透過啟用寫入。
該論文提出了一種以部署為中心的評估方法,針對嵌入電子健康記錄的臨床大語言模型系統,利用查詢內容和部署特定上下文(如提供者型別、科室、所用模型)訓練預響應分類器,預測使用者拒絕風險。經過4.5個月的前瞻性分析,模型AUROC達到0.719,證明了利用部署上下文預測使用者拒絕的可行性,為觸發防護欄和棄權策略提供了依據。
緊湊型語言模型在工具使用方面面臨挑戰,尤其是在孤立函式呼叫之外。Evoflux 在推理時使用進化搜尋來修復可執行工具工作流,在 MCP-Bench 任務上將執行可行性從約3%提高到17-24%,優於 SFT 和 DPO 基線。
TrajGenAgent提出了一種基於分層LLM智慧體的框架,無需模型微調即可生成逼真的合成人類移動軌跡。它採用兩階段設計:LLM首先透過上下文學習合成個體和星期條件化的活動鏈,然後透過確定性工作流(包括個性化POI檢索、距離感知位置選擇、運動學感知的旅行時間傳播和LLM持續時間估計)將每個活動轉化為完整的訪問記錄。此外,引入基於異常檢測的評估框架來評估行為與語義合理性。實驗表明,該方法在時空保真度、語義一致性和個體行為真實性方面優於現有方法。
該研究評估了大型語言模型中的謊言檢測器,建立了13個推理模型有機體(其隱藏信念透過思維鏈驗證),並提出了多樣化欺騙測試床。在31個模型上測試了四種檢測器,發現所有檢測器在提示性撒謊任務中隨模型能力擴充套件,但在訓練有機體上,除思維鏈裁判外效能大幅下降。當前檢測器難以對模型信念做出高置信度宣告。
PersonaDrive是一種新框架,透過檢索風格指令的人類駕駛演示來調節視覺-語言-動作(VLA)駕駛智慧體,實現多樣化的駕駛風格。它包括離線三元組挖掘、輕量級檢索頭訓練和單一VLA主幹微調,無需針對每種風格重新訓練即可切換風格。在Bench2Drive上,無風格條件下駕駛得分提升4.6%,風格條件下每種風格均取得最高分,且保守到激進風格平均速度和加速度分別提升18%和25%。
Pythagoras-Prover是一個計算高效的Lean定理證明器家族,包含4B和32B的自迴歸模型以及4B的擴散模型。它透過分層課程SFT和動態證明過濾提高訓練效率,並引入增強型Lean形式化(ALF)擴充套件驗證語料庫。實驗顯示,4B模型在MiniF2F-Test上以86.1%的pass@32超越DeepSeek-Prover-V2-671B(82.4%),而32B模型達到93.0%的新開源最佳水平,並在PutnamBench上解決93個問題。
Arbor是一個多代理框架,將結構化樹搜尋作為自主代理的認知層,用於大規模有狀態動作空間。在全棧LLM推理最佳化中,相比供應商最佳化基線,實現了高達193%的吞吐量-延遲帕累託改進,並且硬體無關、可重複。
研究人員發現,當前用於評估大語言模型工具檢索能力的基準測試存在高估問題。為此,他們提出了ToolSense,一個開源的自動診斷框架,可生成三種基準測試來更真實地評估模型對工具的理解。在ToolBench(約4.7萬個工具)上的實驗揭示了知識-檢索分離現象:一些模型在標準基準上表現良好,但在更現實的查詢中效能大幅下降,甚至低於嵌入基線。
Simon Willison 展示了 Claude Fable 5 的驚人主動性:僅憑一張截圖和一行提示,它自主除錯了一個 CSS 捲軸錯誤,使用了多種創新技巧,包括自定義螢幕截圖、編輯模板注入 JS、搭建 CORS 伺服器等。同時也警示了未沙箱化編碼代理的安全風險。
企業AI的第二波浪潮聚焦於資料和軟體基礎設施。Snowflake透過連線專有資料與AI模型,幫助企業實現業務成果。本文總結了安全治理、資料基礎和生產化AI三大關鍵洞察。
波蘭領先保險公司 ERGO Hestia 使用 Databricks Lakebase 和 Mosaic AI Model Serving 重構即時定價引擎,將資料、特徵和決策統一在湖倉一體平臺上,實現毫秒級定價,加速模型部署,提升治理合規性。
GitHub 透過引入基於 LLM 的上下文驗證,將秘密掃描的誤報率降低了 75.76%,提升了警報的可靠性和開發者的信任度。
Inception推出的Mercury 2是目前速度最快的推理LLM,採用擴散架構而非傳統自迴歸方式,在標準NVIDIA GPU上可達到每秒1000 token以上的生成速度,速度是同級模型的5-10倍,成本降低一半以上,質量與Haiku和GPT-5 mini相當。Augment Code在生產環境中使用後,成本降低90%,延遲降低82%。Baseten為其提供企業級推理平臺支援。
本期帶來 ParseBench 在 CVPR 2026 的展示、Parse-Flow 視覺文件智慧工作流、Anthropic Fable 5 基準測試結果、LlamaParse 新粒級邊界框,以及 AI 首個匹克球錦標賽 The Agent Open。
《衛報》刊登了斯蒂芬·科林斯的一幅漫畫,描繪了OpenAI總部的幕後場景,融合了人工智慧、生活方式等主題,以幽默視角呈現科技與日常的交匯。
Qursor 是一款創新工具,允許使用者透過指向任何使用者介面元素,將其精確上下文傳送給AI助手,從而簡化互動過程。該產品已在Product Hunt上釋出。
一款本地優先的AI編碼命令列工具,能夠適應使用者的使用習慣。
Preply利用OpenAI技術推出AI生成的課程總結,提供個性化反饋和語言學習練習。
Deezer推出了一款免費的AI音樂檢測工具,允許主要流媒體平臺的使用者識別播放列表中的AI生成歌曲。