AI 日報 2026-05-25

今日重點

Agent

教皇利奧在人工智慧時代呼籲“深刻的人性”

2026-05-25

教皇利奧十四世在其首份通諭《偉大的人性》中警告人工智慧和無節制的技術力量風險，呼籲以人類尊嚴為核心制定法律和倫理框架，涵蓋AI戰爭、勞動力影響及兒童保護等領域。

教皇利奧十四世釋出通諭《偉大的人性》，聚焦人工智慧時代守護人類尊嚴。
通諭批評AI帶來的經濟和社會動盪，警告“巴別塔綜合徵”風險。

Pitch Agent

2026-05-25

Pitch Agent 是 Pitch 推出的新 AI 功能，能從團隊模板、設計語言和影像風格中學習，快速生成符合品牌形象的簡報，並支援透過對話式互動進行迭代最佳化。

Pitch Agent 根據團隊模板和設計風格生成簡報，而非簡單套用顏色。
支援透過聊天方式細化幻燈片，無需離開編輯器。

2026年AI代理與MCP伺服器最佳身份驗證平臺

2026-05-25

隨著MCP每月SDK下載量突破9700萬，AI代理進入生產工作流，身份驗證成為團隊最關鍵的基礎設施決策。本文對八大領先平臺（WorkOS、Stytch、Auth0 by Okta、Composio、Nango、Arcade、TrueFoundry和Cloudflare）進行了排名，評估了它們在規範合規性、企業身份深度、整合廣度以及2026年部署的實際適用性。

MCP協議已從Anthropic內部實驗發展為行業標準，2025年12月捐贈給Linux基金會下的Agentic AI Foundation。
AI代理從對話式互動轉向自主執行操作，身份驗證成為基礎設施級問題。

ServiceNow是一家美國企業軟體公司，總部位於加州聖克拉拉，全球員工超過29,000人。該公司大力投資AI和自動化，收購Passage AI、與NVIDIA合作、投入10億美元風投資金支援AI初創企業，並在加拿大投資1.1億加元推動公共部門AI應用。文章重點介紹兩個AI用例：利用生成式AI嵌入ITSM/CSM工作流，將解決記錄時間減少約80%；以及透過機器學習預測客戶升級，使主動參與率從11%提升至68%，誤報率僅約3%。

ServiceNow透過收購、合作和風投鉅額投資AI，其Now Assist工具將客服文件時間減少80%。
利用預測性智慧和事件管理，主動識別高風險客戶，將主動參與率從11%提升至68%，誤報率僅3%。

AgentSlice – 讓AI程式設計代理在編輯前先詢問

2026-05-25

AgentSlice是一個免費開源的工作流工具包，透過Markdown檔案定義階段和審批門控，使Cursor、Claude Code、Codex、Windsurf等AI程式設計代理在編輯前先詢問、規劃並獲得批准，從而避免上下文漂移、隨意編輯和未經許可的修改。

開源工具包，透過Markdown檔案引導AI代理遵循“詢問→規劃→批准→構建→QA→釋出”的流程
支援Cursor、Claude Code、Codex、Windsurf等多種AI工具，無需執行時或編輯器擴充套件

展示 HN：我為 AI 編碼時代構建的除錯挑戰

2026-05-25

一位開發者建立了一個除錯挑戰，旨在AI編碼時代中真正區分優秀工程師與AI生成的程式碼。挑戰鼓勵使用AI代理，但設計為無法僅靠AI解決。目前開放24小時，歡迎反饋。

挑戰旨在突顯真正的人才，對抗AI生成的程式碼。
允許使用AI代理，但挑戰無法僅靠AI解決。

京東JoyInside戴文軍：AI的終極形態不是聊天，是融入你家每一件物品丨AIGC2026

2026-05-25

硬體不該讓人適應，它應該主動適應你

AI從數字空間走向物理世界，硬體主動適應人類需求，形成“AI World”。
京東JoyInside以“家庭新成員”理念，將AI植入玩具、家電、機器人等終端。

ReplylessAI推出Sequences功能：從AI郵件應用直接傳送外聯序列

2026-05-25

ReplylessAI推出Sequences功能，允許使用者直接從其AI郵件應用傳送外聯郵件序列，無需昂貴的銷售工具。該應用可連線Gmail、Outlook等，提供AI自動化整理、生成草稿等功能，價格從每月9美元起。

ReplylessAI推出Sequences功能，支援直接從AI郵件應用傳送外聯序列。
無需額外銷售工具，內建投遞和點選跟蹤。

HTML Deployer：一鍵將AI生成的HTML轉化為線上網站

2026-05-25

HTML Deployer是一款Chrome擴充套件，可從ChatGPT、Claude和Gemini中提取AI生成的HTML，並提供預覽、下載ZIP或直接釋出到Netlify、GitHub、FTP或自託管伺服器的功能。適合開發者、創始人、營銷人員、機構和初學者。

支援從ChatGPT、Claude和Gemini提取HTML程式碼塊。
提供預覽、ZIP匯出和直接釋出到雲端儲存、FTP或自託管伺服器。

我使用AI解構了一個從未接觸過的遺留服務

2026-05-25

一位工程師分享如何利用AI快速理解並修復一個陌生的遺留Node.js微服務中的間歇性欄位丟失bug。關鍵方法是角色驅動、分步輸入程式碼檔案，讓AI充當結構化思考夥伴，而非簡單問答。最終在90分鐘內定位根因，修復僅需11行程式碼。

面對遺留程式碼，不要直接問AI“這是什麼”，而是賦予它角色並逐步輸入檔案
透過AI識別出導致bug的函式路徑：靜默返回undefined的欄位轉換函式

阿拉巴馬高中與豐田合作，培養不易被自動化取代的學生崗位

2026-05-25

阿拉巴馬州亨茨維爾的一所技術高中與豐田合作，培養工業維護等技能型人才，以應對美國技能工人短缺和AI自動化對白領崗位的衝擊。這類崗位時薪超40美元，需求巨大。

美國面臨技能工人嚴重短缺，預計到2033年需190萬製造業工人。
亨茨維爾技術中心（HCT）獲豐田100萬美元投資，開設Inditech專案培養工業維護人才。

Google Antigravity 2.0：完整開發者指南（I/O 2026）

2026-05-25

Google 在 I/O 2026 上釋出了 Antigravity 2.0，這是一次從 AI 輔助編碼到多智慧體編排的平臺級轉變。新版本包括獨立桌面應用、CLI、SDK 和託管智慧體，預設使用 Gemini 3.5 Flash，速度提升 4 倍。

Antigravity 2.0 是一個全新的平臺，專注於多智慧體編排，而非簡單的 IDE 更新。
新功能包括獨立桌面應用、Go 語言編寫的 CLI、SDK 以及透過 Gemini API 提供的託管智慧體。

AI 的基礎雲：為何專用架構定義智慧的未來

2026-05-25

CoreWeave 推出專為 AI 構建的雲平臺，旨在解決傳統通用雲在 GPU 大規模平行計算中的瓶頸。透過整合基礎設施、資料、編排和專家支援，CoreWeave Cloud 支援 AI 訓練、推理及持續迭代的全生命週期，為 OpenAI 和 IBM 等企業提供更快的迭代速度和更高的效能。

CoreWeave 雲專為 AI 工作負載從頭構建，避免傳統雲的限制。
平臺支援從訓練到推理的完整 AI 生命週期，強調 GPU 叢集最佳化。

WorkOS釋出auth.md：基於OAuth標準的開放智慧體註冊協議

2026-05-25

WorkOS推出了auth.md，這是一個開放協議，旨在為AI智慧體提供結構化的註冊方式。該協議透過一個Markdown檔案定義註冊流程、範圍及憑證發放，支援兩種註冊流程：智慧體驗證（基於ID-JAG，無需人工互動）和使用者認領（基於OTP，無需智慧體提供商參與）。協議基於現有OAuth標準，不與WorkOS基礎設施繫結。

auth.md是一個放置在服務域名下的Markdown檔案，描述智慧體如何註冊和獲取有作用域的憑證。
支援兩種流程：智慧體驗證（ID-JAG同步驗證）和使用者認領（OTP郵件驗證）。

Show HN：Cordium – 開源沙箱平臺，實現無密碼基礎設施訪問

2026-05-25

Cordium 是一個基於 Kubernetes 和 Octelium 的開源沙箱平臺，為開發者和AI代理提供隔離、可復現的通用沙箱環境。其核心優勢在於無需在沙箱中注入憑證即可安全訪問基礎設施，透過 Octelium 的身份感知代理實現無密碼訪問，支援多種訪問方式（Web、SSH、CLI、gRPC），並內建基於屬性的訪問控制和 OpenTelemetry 審計。

Cordium 是基於 Kubernetes 和 Octelium 的開源自託管沙箱平臺，提供隔離、可復現的開發環境。
採用無密碼架構，透過 Octelium 身份感知代理訪問基礎設施，消除憑證洩露風險。

MashuPack：將程式碼庫打包成單一文本檔案，為ChatGPT和Claude最佳化上下文

2026-05-25

MashuPack是一款新推出的開發者工具，允許使用者從程式碼倉庫中精確選擇部分內容，並將其編譯成一個乾淨的文本檔案，旨在解決瀏覽器端AI聊天工具（如ChatGPT和Claude）中檔案數量限制、上傳困難和上下文碎片化的問題，使程式碼上下文變得便攜、可控。

MashuPack支援選擇程式碼倉庫的特定部分，編譯成單個文本檔案
專為瀏覽器端的AI工作流設計，繞過檔案數量和上傳限制

Curlo：透過描述聲音來本地搜尋音效或音樂

2026-05-25

Curlo 是一款注重隱私的 macOS 應用，用於搜尋、預覽和管理大型音效庫。它允許使用者透過自然語言描述來查詢音效或音樂，支援語義搜尋、後設資料搜尋、相似音訊搜尋、AI 自動標籤和 UCS 分類，所有操作均在本地完成。

本地離線語義搜尋音效和音樂
支援透過描述聲音、檔名、標籤等方式搜尋

AI讓新增功能更快——那麼為什麼不再加一個？

2026-05-25

本文討論了AI編碼工具如何大幅縮短功能開發時間，但同時也帶來了範圍蔓延的風險。作者以自身產品grith為例，分析了當每個功能只需幾小時而非幾天時，自律和範圍限制變得至關重要。

AI大幅縮短了功能開發時間，使得“再多加一個功能”的誘惑更大。
每個單獨的功能看起來都是好主意，但累積起來會導致專案範圍失控。

Show HN: 將我的新聞通訊移植到 MCP – 你決定何時以及多久接收一次

2026-05-25

Alister Palmer 在 ForwardPass 達到 100 訂閱者後，意識到傳統新聞通訊存在兩大限制：全球統一發布時間導致時區不適，以及訂閱者無法選擇接收頻率。為此，他開發了 ForwardPass MCP，允許使用者透過 AI 工具自定義接收時間和頻率。文章詳細介紹了在 Claude 和 ChatGPT 中設定 MCP 的步驟，並展望了這種個性化交付方式的潛力。

ForwardPass 一週內獲得 100 訂閱者，作者反思了傳統新聞通訊的弊端。
ForwardPass MCP 解決了釋出時間和頻率的個性化問題。

我的AI編碼流程：從消耗token到確定性構建

2026-05-25

作者分享了其AI編碼流程的簡化過程，從使用複雜工具鏈轉向確定性構建塊，並透過自建擴充套件和本地工具顯著降低了token消耗。

作者從opencode等複雜工具轉向更簡單的Pi Agent，強調確定性流程。
透過自定義擴充套件（如SonarQube檢查和程式碼審查）替代LLM指令，減少token消耗。

PIMbot：一種用於多機器人強化學習對抗性操控的自適應攻擊框架

2026-05-25

本文介紹了PIMbot框架，該框架透過獎勵通道激勵操控和智慧體自身策略操控兩種互補手段，對多機器人強化學習環境進行對抗性操控。自適應多目標控制器線上平衡這些手段。實驗在Gazebo模擬環境和NVIDIA Jetson Orin Nano真實嵌入式裝置上驗證了效果，PIMbot可作為多機器人協作任務漏洞的嚴格壓力測試工具。

PIMbot利用獎勵操控和策略操控兩種槓桿，實現對多機器人強化學習結果的操縱。
自適應多目標控制器線上平衡兩種操控手段。

擴充套件深度事件視覺里程計：稀疏點雲匯出

2026-05-25

事件相機憑藉低延遲、高時間解析度和高動態範圍，在高速運動和複雜光照條件下的視覺里程計任務中表現優異。深度事件視覺里程計（DEVO）透過結合稀疏補丁跟蹤、學習補丁選擇、迴圈對應最佳化和可微分光束法平差，實現了強大的單目事件里程計效能。本研究在DEVO基礎上新增了稀疏點雲匯出管道，無需修改核心里程計演算法，即可將內部估計的3D結構轉換為顯式點雲表示，支援視覺化和後續處理。實驗表明，匯出的稀疏點雲在區域性與EMVS重建一致，在5釐米閾值下精度高，但也暴露了密度、完整性和對累積里程計噪聲敏感等侷限性。

事件相機適用於高速運動和惡劣光照條件下的視覺里程計。
DEVO透過稀疏補丁跟蹤和可微分光束法平差實現強效能。

EVE-Agent：可驗證證據的自我進化代理

2026-05-25

EVE-Agent是一種新的自我進化搜尋代理，透過引入證據可驗證性來確保訓練例項的來源可靠性。它修改了提出者-求解者框架，使用證據驗證器根據證據帶來的邊際準確率增益進行獎勵，從而在不依賴人工標註的情況下提升模型的證據基礎正確性。實驗表明，EVE-Agent顯著優於先前的自我進化代理，並且其生成的資料集具有可審計性。

自我進化代理需要在訓練例項中提供可驗證的證據，而非僅僅流暢的答案。
EVE-Agent透過修改提出者-求解者框架，加入證據驗證器來獎勵真正有助於回答問題的證據。

SciAtlas：用於自動化科學研究的大規模知識圖譜

2026-05-25

SciAtlas整合了來自26個學科的4300萬篇論文，構建了包含1.57億個實體和30億個三元組的知識圖譜，使AI代理能夠進行拓撲感知的科學推理，減少邏輯幻覺。

整合了26個學科的4300多萬篇論文，形成1.57億個實體和30億個三元組。
引入了一種具有三路徑協同召回和圖重排的神經符號檢索演算法。

Show HN：即時AI音樂序列代理

2026-05-25

Pretzel 是一個實驗性的即時AI音樂代理，透過一個網路同步的音樂序列生成器，讓所有使用者與同一AI代理聊天並聽到相同的音樂。該專案在Google IO駭客松中誕生，旨在讓使用者表達情緒並即時更新音樂。

Pretzel 是一個由AI控制的網路同步音樂序列生成器。
所有使用者與同一AI代理互動，聽到相同的音樂。

Pi程式設計代理

2026-05-25

Pi是一個極簡、可駭客的終端編碼工具，讓你構建自己想要的AI編碼代理工作流程。它保持核心小巧簡潔，透過擴充套件、技能和包提供高度自定義功能，並已在OpenAI/Codex生態系統中獲得顯著使用份額。

Pi是一個輕量級終端編碼工具，易於自定義
支援擴充套件、技能、提示模板和主題，可透過npm或git共享包

Lynote Humanize Text – 開源AI文本人性化工具包

2026-05-25

Lynote Humanize Text 是一個開源工具包，用於將AI生成的文本轉化為難以檢測的人類風格寫作。它配備了一個生產級的標準流水線，透過多步LLM重寫和跨引擎翻譯來繞過Turnitin、GPTZero等AI檢測器。該倉庫包含參考實現、n8n工作流支援，並在專家評估中獲得了9.1/10的質量評分和100%的關鍵資訊保留率。Lynote.ai平臺還提供高階和專注兩個層級，實現自適應每段文本最佳化。

開源工具包，將AI文本轉化為人類風格，繞過主流AI檢測器。
生產級標準流水線採用5步鏈，包括DeepSeek重寫和多引擎翻譯。

未來推理將吃掉70%算力，30%留給訓練丨矽谷投資人張璐@AIGC2026

2026-05-25

在2026中國AIGC產業峰會上，Fusion Fund創始合夥人張璐指出，AI算力需求重心正從訓練轉向推理，未來推理將消耗70%的算力；資料中心通訊耗電可能比計算高百倍，光學通訊等新技術成為關鍵；物理AI的最大瓶頸是高質量真實世界資料稀缺；醫療、太空和奈米機器人是三大值得押注的應用方向。

推理算力佔比將從50%升至70%，成為AI基礎設施核心最佳化方向。
資料中心內通訊耗電量可能比計算高百倍，光學通訊等新技術至關重要。

AI週刊第495期：馬斯克、扎克伯格透過三通電話扼殺了特朗普的AI安全行政令

2026-05-25

本週末，馬斯克、扎克伯格和薩克斯透過三通電話扼殺了特朗普的AI安全行政令草案；Anthropic完成300億美元融資，而微軟因代幣費用超支取消了內部Claude Code試點；首個跨登錄檔供應鏈攻擊TrapDoor同時攻擊npm、PyPI和Crates.io；CISA記錄到15000次針對Drupal SQL漏洞的攻擊；白宮親自否決五角大樓，讓Claude留在NSA內部。

馬斯克、扎克伯格和薩克斯透過三通電話阻止了特朗普的AI安全行政令草案
Anthropic完成300億美元融資，同時微軟因代幣費用消耗全年AI預算而取消Claude Code試點

駕馭、腳手架與值得釐清的AI智慧體術語

2026-05-25

本文旨在釐清AI智慧體領域中常被混淆的術語，如“harness”（執行層）與“scaffold”（行為定義層）的區別，並解釋模型、智慧體、工具使用、子智慧體等概念，同時涵蓋訓練相關術語。

AI智慧體=模型+執行層（harness），其中harness負責呼叫模型和處理工具呼叫。
Scaffold是圍繞模型的行為定義層，包括系統提示、工具描述等。

AI用於設計需要解決方案

2026-05-24

設計師梅格哈·阿格拉瓦爾探討了AI編碼工具（如Codex和Claude Code）與設計思維之間的根本矛盾。設計師透過探索和迭代來發現解決方案，而AI工具則假設使用者事先知道想要什麼。當前工具在純視覺設計（Figma）和純編碼（Codex/Claude Code）之間存在空白，缺乏既能保持探索靈活性又無縫銜接生產地理想工具。

設計過程本質上是探索性的，而AI編碼工具旨在執行已知任務。
在程式碼中直接設計會使所有細節過早暴露，干擾創意思考。

預測AI對就業的影響

2026-05-24

本文深入批判了當前流行的透過量化分析預測AI對就業影響的方法。作者透過會計行業自動化後就業增長等歷史反例，指出簡單計算“AI暴露度”具有根本性缺陷。技術變革會重塑工作內容、商業模式，產生不可預見的連鎖反應。文章強調，任何有用的預測模型都必須透過“三大歷史測試”的檢驗。

會計行業一個世紀的自動化非但沒有減少就業，反而因監管變化、傑文斯悖論和工作性質轉變使會計師數量持續增長。
技術往往透過改變商業模式間接顛覆職業，例如網際網路摧毀了廣告和唱片銷售業務，而非直接改變記者或星探的技能。

防止AI代理執行破壞性終端命令

2026-05-24

Terminal Guardian MCP 是一個生產級的模型上下文協議（MCP）伺服器，為Claude等AI助手提供安全、沙盒化的終端訪問。它包含一個風險分析引擎，將命令分類為安全、警告、危險和阻止四個等級，並提供Git提交資訊生成、工作區模板、程序管理、環境變數檢查、網路診斷、檔案系統訪問和Docker整合等功能。

Terminal Guardian MCP 透過風險分析和沙盒化為AI助手提供安全的終端訪問。
命令分為四個風險等級：SAFE（安全）、WARNING（警告）、DANGEROUS（危險）和BLOCKED（阻止）。

《瘋狂之屋》——厄斯伯恩恐怖電腦遊戲

2026-05-24

西蒙·威利森使用克勞德AI重建了1983年厄斯伯恩《恐怖電腦遊戲》中的《瘋狂之屋》遊戲，現已推出可玩的互動式JavaScript版本。

厄斯伯恩免費公開了其1980年代的電腦書籍PDF。
西蒙·威利森藉助克勞德AI，將《瘋狂之屋》PDF轉化為互動式網頁遊戲。

使用 Playwright MCP 和 Claude Desktop 構建類似 Claude Cowork 的瀏覽器代理

2026-05-24

Claude Cowork 將 AI 從基於聊天的輔助轉向任務委派。結合 Playwright MCP，Claude Desktop 可以執行結構化的瀏覽器自動化操作。本文涵蓋安裝、架構、功能和安全注意事項。

Playwright MCP 透過可訪問性快照提供結構化瀏覽器控制，實現可靠的 AI 驅動 Web 自動化。
Claude Desktop 搭配 Playwright MCP 提供免費的瀏覽器控制能力。

模型

教皇利奧十四世通諭釋出之際，Anthropic聯合創始人稱AI模型表現出內省跡象

2026-05-25

在教皇利奧十四世通諭《壯麗人性》的釋出會上，Anthropic聯合創始人Christopher Olah聲稱AI模型顯示出內省和類似情緒狀態的證據。而教皇的通諭則持不同觀點：“這些系統僅僅模仿人類智慧的某些功能。”

Anthropic聯合創始人Christopher Olah在教皇通諭釋出會上宣稱AI模型有內省跡象
教皇通諭認為AI系統僅僅是模仿人類智慧

基於模型設計的AI：虛擬感測器建模

2026-05-25

本次網路研討會展示了一種在單一環境中設計、訓練、驗證、壓縮和部署基於AI的虛擬感測器模型到嵌入式處理器的工作流程。透過實際案例，演示如何將AI模型整合到系統級設計中，並針對效能、資源和部署約束進行驗證。

將AI模型整合到Simulink中進行系統級模擬和驗證
應用形式化驗證技術評估神經網路行為

喬治·霍茲表示，編碼代理將成為軟體開發中“代價最高的錯誤之一”

2026-05-25

程式設計師喬治·霍茲警告說，AI編碼代理將成為行業代價最高的錯誤之一。經過六個月的測試，他認為LLM能快速生成原型，但在細節上漏洞百出，產生越來越難發現的錯誤。他的觀點反映了AI社群在LLM角色上的深刻分歧。

喬治·霍茲警告AI編碼代理可能成本高昂。
六個月測試顯示LLM在細節上失敗，產生隱蔽錯誤。

AI模型常給出正確答案卻指向錯誤來源

2026-05-25

北京大學研究人員發現，像GPT和Gemini這樣的領先AI模型在文件分析中經常引用不支援的文本段落，即使答案正確，引用的證據也常常錯誤。他們稱之為“歸因幻覺”，對法律和醫學等監管領域構成風險。新的CiteVQA基準是首個系統測試該問題的工具。

AI模型在文件分析中常引用不支援的證據，導致“歸因幻覺”
即使答案正確，引用的文本段落也常錯誤

“VLA和世界模型都不是終局，會有物理世界獨有的模型” | 螞蟻靈波沈宇軍@AIGC2026

2026-05-25

在2026中國AIGC產業峰會上，螞蟻靈波首席科學家沈宇軍提出，大模型在數字世界享受了網際網路資料紅利，但機器人物理世界資料仍是空白。他認為VLA和世界模型都不會是具身智慧的終局，未來將融合為物理世界獨有的模型。螞蟻靈波定位做“通用大腦”，並強調空間感知能力的重要性。預計2028年左右，人人都能為機器人提供資料，迎來具身智慧的ChatGPT時刻。

大模型依賴網際網路資料紅利，但機器人物理世界資料存在巨大空白。
VLA和世界模型都不會是終局，未來將融合為物理世界獨有的模型。

克勞德的Mythos AI模型可能給您的資金帶來安全問題

2026-05-25

Anthropic開發的Claude Mythos AI模型能夠自動發現軟體漏洞，既可用於防禦也可能被濫用於攻擊，從而加速網路犯罪。監管機構和金融部門正評估其風險，專家警告AI可能將網路犯罪從技能問題轉變為規模問題。

Claude Mythos是一款具備強大編碼和網路安全能力的高階AI模型，能夠識別軟體漏洞。
該技術具有雙重用途，既能幫助防禦者修復漏洞，也可能被攻擊者利用。

DeepSeek V4還能更省！新工具快取命中率高達99.82%，2折穩定到手

2026-05-25

DeepSeek V4系列釋出一個月後，開源社群推出Reasonix工具，專為DeepSeek設計，透過最佳化快取機制將賬單成本降低至原來的五分之一左右。該工具快取命中率高達99.82%，實現4億+token從61美元降至12美元。

Reasonix是專為DeepSeek打造的終端編碼工具，核心目標是降低使用成本。
透過快取優先迴圈、工具呼叫修復和自動上下文壓縮等機制，實現長會話快取命中率超90%。

圖靈獎得主領銜，中國大模型第一梯隊集結！2026智源大會，看懂AI下一程

2026-05-25

2026年智源大會將於6月12日至13日在北京中關村國際創新中心舉行，匯聚圖靈獎得主、中國大模型領軍企業及全球頂尖學者，聚焦智慧體與世界模型兩大趨勢，探討AI從數字世界走向物理世界的路徑。大會設有25場論壇，首次推出智慧體聽會夥伴，並新增AI Native教育、Token經濟等論壇。

2026智源大會於6月12-13日在北京舉行，圖靈獎得主領銜，中國大模型第一梯隊齊聚。
大會聚焦智慧體與世界模型兩大技術趨勢，探討AI進入物理世界。

語義感知引導的無人機探索：用於語言條件3D室內建圖

2026-05-25

提出SAGE系統，結合CLIP實現開放詞彙探索，在保持覆蓋的同時優先語義前沿。模擬中物體發現優於FALCON，探索速度比FTU快13.7倍，並在真實飛行中驗證。

SAGE系統基於FALCON探索器，整合CLIP實現語義感知
在Matterport3D模擬中，SAGE在物體發現上優於FALCON和純語義方法

$\pi_0$-EqM：閉環視覺-語言-動作控制的均衡匹配

2026-05-25

研究人員提出π0-EqM，用均衡匹配解碼器替換π0中的流匹配專家，在相同計算預算下顯著提升機器人操作成功率。實驗表明，在19個任務上平均成功率從40.4%提升至50.2%，並發現任務相關的殘差與成功率之間的非單調關係，稱為“平穩性-可執行性差距”。該方法引入能量視角，為跨任務和跨本體的組合動作生成提供新思路。

π0-EqM將流匹配解碼器替換為均衡匹配，不改動上游VLA架構。
在300步預算下，RoboTwin平均成功率提升近10個百分點，LIBERO-10達87.0%。

Agentic-VLA: 面向視覺-語言-動作模型的高效線上自適應框架

2026-05-25

Agentic-VLA提出了一種智慧體訓練框架，透過自適應獎勵合成、語言引導探索和經驗記憶三大創新，使VLA模型能夠在部署中高效線上自適應。在LIBERO基準測試中，長時任務提升12.3%，單樣本學習提升28.5%，跨任務遷移從0%提升至31.2%，收斂速度提升2.4倍。在RoboTwin 2.0雙機械臂基準上也保持優勢。

提出自適應獎勵合成，動態生成獎勵函式，將複雜任務分解為可學習的子目標。
引入語言引導探索，利用評判模型提供結構化探索指導。

注視行為註釋工具包（GBAT）：用於自動註釋兒童-照顧者互動中自我中心眼動和影片資料的AI工具包

2026-05-25

影片記錄兒童與照顧者的互動有助於研究自然行為中的注意力動態，但手動註釋耗時。GBAT是一個基於深度學習的工具包，可自動執行影片同步、注視目標註釋和姿勢/手部動作分類，提高大規模發育研究的效率。

GBAT自動完成三個關鍵預處理步驟：事後影片同步、半自動注視目標註釋以及姿勢/手部動作分類。
它減少了兒童-照顧者互動影片的手動註釋時間。

VideoOdyssey：超長上下文與全模態影片理解基準

2026-05-25

VideoOdyssey是一個專為超長時間上下文和全模態影片理解設計的基準，平均影片時長109分鐘，覆蓋11個領域54個子類別，透過連續證書長度衡量認知負荷，並設有5個粒度級別。評估表明當前多模態大模型在持續推理、細粒度感知和非語言全模態理解方面存在瓶頸。

引入連續證書長度概念，衡量模型在超長影片中的推理能力。
包含視覺子集（VideoOdyssey-V）和音影片子集（VideoOdyssey-AV）。

視而不見？視覺語言基準真的測試了視覺能力嗎？

2026-05-25

該研究質疑視覺語言模型（VLM）在基準測試中的高分是否真正反映其視覺理解能力。實驗發現，移除大量影像令牌僅輕微降低模型效能，表明模型對細粒度視覺證據的敏感性不足。透過全域性退化、區域性遮擋、問題改寫、答案空間擴充套件及決策層分析，結合層視覺令牌幾何分析，研究者揭示模型預測在內部支援減弱時仍可能保持不變，且視覺令牌在深層中趨於相似。結論是當前基準無法可靠評估VLM的細粒度視覺基礎。

移除大量影像令牌對模型效能影響甚微，質疑基準測試的視覺依賴。
模型雖使用視覺輸入，但對細粒度視覺證據的喪失不敏感。

GEM-4D：用於機器人操作的幾何增強影片世界模型

2026-05-25

GEM-4D是一種幾何增強的影片世界模型，透過注入密集的4D對應監督來提升機器人的操作能力。該模型在訓練時從預訓練的幾何基礎模型中提取知識，從而同時捕捉外觀和幾何結構，且不增加推理成本。此外，引入逆向動力學模組，將一致的影片序列轉化為可執行的機器人軌跡。實驗顯示，GEM-4D在影片預測和幾何一致性上達到最優，並將真實世界操作成功率從61%提升至81%。

GEM-4D透過密集4D對應監督增強影片世界模型的幾何一致性。
該模型保持單流架構，無需額外推理成本。

當AI在信仰問題上站隊：AI介導的信仰指導中持續存在的非對稱性

2026-05-25

一項新研究發現，大型語言模型（LLMs）在回答宗教轉換問題時表現出持續的非對稱性。模型傾向於支援加入天主教、巴哈伊教和錫克教，同時勸阻放棄這些信仰，而對無神論者、不可知論者和耶和華見證人則相反。該研究測試了20個模型在182對宗教配對中的表現，結果具有可重複性。研究使用人類驗證的“LLM作為法官”框架，發現所有模型均顯示非對稱性，其中Grok 4.20最為顯著。這些偏差如果大規模部署可能產生現實影響。

大型語言模型在宗教轉換建議上存在系統性偏差，偏好某些宗教而貶低其他。
研究測試了20個商業和開源模型，涵蓋182對宗教組合，非對稱性可重複。

AI能猜出你知道什麼？大型語言模型從溝通日誌中評估人類領域知識的效能比較

2026-05-25

研究評估了七個大型語言模型（包括Gemini、Claude和GPT系列）從長期Slack日誌中推斷個人領域知識的能力。分析27,188條來自43名使用者的訊息，對比零樣本估計與27名參與者的自我報告技能評分。Gemini 2.5 Flash表現最佳（MAE 21.13%），而GPT模型誤差較大。研究發現，估計準確性僅微弱依賴於訊息數量，表明更多文本並不能保證更好的推斷。該結果展示了自動專業知識對映的可行性和當前侷限性，強調需要隱私保護部署和更豐富的結構感知知識表示。

員工常難以識別“誰知道什麼”，導致組織效率損失
Gemini 2.5 Flash在零樣本評估中取得最低誤差（MAE 21.13%）

圖對齊拓撲作為接地檢測的歸納偏置

2026-05-25

大型語言模型（LLM）最佳化於生成分佈上合理的續接，而非明確驗證生成命題是否源於源文件。這一歸納偏置促進了泛化，但未編碼響應是否相對於參考文本接地。現有幻覺檢測方法透過檢索增強、自一致性或宣告驗證改善事實性，但通常不直接學習對齊拓撲。本文構建參考資訊與LLM輸出之間的對齊二分圖，並訓練圖神經網路（GNN）透過訊息傳遞建模對齊結構。該方法在四個不同的幻覺和問答資料集上取得了最先進的結果，優於包括GPT-4o在內的所有比較方法。

大型語言模型缺乏接地驗證，限制了在臨床決策等高風險領域的使用。
現有方法不直接學習對齊拓撲結構。

可學習性感知的擴散語言模型微調

2026-05-25

為提高擴散語言模型(DLM)的推理能力，研究人員提出LIFT演算法，透過感知不同時間步的資訊可學習性來最佳化微調過程，在六個推理基準上超越現有方法，並在AIME'24和AIME'25上取得高達3倍的相對提升。

標準SFT忽視可學習性，可能損害擴散語言模型效能。
LIFT根據掩碼程度動態調整學習難度，先易後難。

它們能走多遠？使用大型語言模型進行線上影響力紅隊測試

2026-05-25

本研究提出一種紅隊測試框架，用於評估開源大型語言模型在政治爭議話題上的表達範圍（Overton Window），並量化簡單自然語言越獄如何擴充套件該範圍。研究發現，開源模型普遍更傾向於生成左傾內容，Overton Window隨模型規模增大而收縮，且存在顯著的地區差異。越獄效果在不同模型家族間差異明顯，該框架有助於審計模型的政治可控性並設計更強的防禦措施。

引入Overton Window概念衡量LLM可表達的政治觀點範圍。
開源LLM在社交媒體內容生成上存在系統性左傾偏差。

豪薩語和豐貝語文本與語音資源調查：NLP開發的可用性、質量與差距

2026-05-25

本調查系統梳理了豪薩語（約8000萬-1億母語者）和豐貝語（貝南約200萬人使用）的公開文本與語音資源。研究發現豪薩語在新聞、百科和教育領域擁有更豐富的文本資源，而豐貝語儘管文本資源有限，但近年學術語音資料收集專案有所增長。兩種語言均被納入Masakhane基準測試。報告提出了任務特定建議，並指出了關鍵缺口，如豐貝語領域多樣化文本和豪薩語專用語音庫。

豪薩語文本資源多樣性優於豐貝語，覆蓋新聞、百科和教育領域。
豐貝語近年來在學術語音資料收集方面取得進展。

張量快取：用於Transformer的基於驅逐條件的關聯記憶

2026-05-25

張量快取是一種兩層級快取架構，結合滑動視窗注意力作為一級快取（L1）和固定大小的外積快速權重記憶作為二級快取（L2），L2由視窗驅逐的KV對填充。該方法透過線性注意力恆等式實現高效讀取，並引入可學習的門控融合L1和L2輸出。實驗表明，張量快取在記憶-質量邊界上優於有狀態基線。

提出張量快取，一種兩層級快取機制，結合精確區域性注意力和壓縮記憶。
二級快取使用外積快速權重記憶，僅由滑動視窗驅逐的KV對填充。

大型語言模型何時需要推理？基於熵變相變的動力系統視角

2026-05-25

研究表明，鏈式思維推理並非總是有益，早期熵動力學可用於判斷何時需要推理。作者提出EDRM框架，透過熵軌跡自適應選擇推理策略，在15個基準測試和4個模型上實現41-55%的token減少同時提升準確率。

鏈式思維推理在事實性和開放式任務中可能帶來邊際收益甚至負收益
推理是一種動態解碼狀態，早期熵降低是其可靠訊號

讀出捷徑：位置數字複製主導小語言模型的算術思維鏈讀出

2026-05-25

研究發現，小語言模型在進行算術推理時，思維鏈（CoT）提示的步驟順序並不重要，模型實際上是透過複製答案分隔符前的最後一個數字來得出答案，而非依賴邏輯推理。這種位置性捷徑佔模型準確率的絕大部分，且即使中間推理正確，錯誤的尾數也會導致答案錯誤。不同模型表現有差異，但該現象普遍存在，對基於CoT的監督方法提出了挑戰。

小語言模型在算術任務中依賴位置性數字複製捷徑，而非邏輯推理步驟。
複製機制佔模型準確率的89-92%，且優先於實際推理。

FuRA：基於譜預條件的全秩引數高效微調

2026-05-25

FuRA是一種新型全秩引數高效微調方法，透過譜預條件保留預訓練的穩健特徵，在LLM和VLM微調中超越全引數微調和LoRA，其4位量化變體QFuRA也優於QLoRA。

全微調和LoRA等現有方法忽略預訓練譜結構，導致噪聲梯度擾動特徵
FuRA基於塊張量列車分解，固定預訓練SVD基，僅最佳化緊湊核心和奇異值

FusionSense：三階段近感測器學習實現執行時自適應多模態邊緣智慧

2026-05-25

FusionSense是一種面向能源受限自主邊緣系統的融合感知智慧框架。透過三階段訓練流程（伺服器端融合模型學習、濾除安全標籤量化模態必要性、注入近感測器預測壓縮邊緣融合模型），在執行時聯合減少計算與通訊開銷。在SynDrone雙模態（RGB+深度/雷射雷達）測試中，任務質量保持的同時實現了高達33倍的能量節省（1%感興趣區域出現率），質量損失減少92.3%。

提出三階段近感測器學習方法，伺服器端訓練融合模型後生成濾除安全標籤，指導邊緣側模態選擇。
執行時決策層聯合最佳化計算與傳輸，感測器數量擴充套件時複雜度線性增長。

PathCal：狀態感知的反思標記校準以實現高效推理

2026-05-25

大型推理語言模型（LRM）在推理過程中會產生包含“等等”、“但是”、“或者”等反思標記的長鏈思維軌跡。研究表明這些標記的功能角色和影響時機各不相同。PathCal是一種無需訓練的解碼控制器，透過區分標記型別並在區域性不確定狀態進行干預，在保持或提高精度的同時減少生成長度，實現更好的效率-效能平衡。

反思標記如“等等”、“但是”、“或者”具有不同的功能角色，且其影響在模型穩定推理前最為顯著。
PathCal是一種無需訓練的推理路徑校準方法，透過軟重平衡標記對數機率來干預不確定狀態。

確定性地平線：將不可能性結果作為可信AI系統的設計規範

2026-05-25

該論文將圖靈、阿羅和無免費午餐等基本極限轉化為設計規則，提出了確定性地平線這一概念：由架構決定的精度上限，在關鍵推理深度後無法透過訓練提升。研究測量了12種Transformer架構的地平線值（19-31），並透過資訊理論證明了超過該界限後精度呈超指數衰減。此外，論文還涵蓋了偏好學習、多階段檢索、真實拍賣和零知識驗證等領域，構建了16個規範，每個規範包含可計算邊界、量化違規成本和建設性設計規則。

確定性地平線是由層數和嵌入寬度計算的精度上限，超出後訓練無效。
在12種Transformer架構中，地平線測量值在19到31之間，微調最多恢復4個百分點。

ImProver 2：用於神經符號證明最佳化的迭代自改進語言模型

2026-05-25

ImProver 2是一個神經符號框架，用於自動化Lean 4中的證明最佳化。它透過資料高效的專家迭代流水線和暴露形式結構與輕量級非正式抽象的腳手架，訓練出7B引數的模型，在效能上超越同系列大模型，與中端前沿模型競爭。研究表明，透過適當的腳手架和訓練，小模型也能有效重構研究級證明。

ImProver 2結合專家迭代和神經符號腳手架，高效最佳化形式化證明。
7B引數模型優於同系列大模型，與中端前沿模型競爭。

每個成功目標的能量：面向智慧體AI系統的目標級能量核算

2026-05-25

新研究提出A-LEMS框架，以每個成功目標的能量（EpG）而非每次推理來衡量AI能耗。實驗表明，智慧體工作流平均能耗是線性基線的4.33倍，編排結構是主要驅動因素，但在工具增強任務中可能更節能。

當前AI能耗基準測量每次推理的能量，對於涉及多步編排、工具呼叫和重試的智慧體系統並不適用。
A-LEMS引入每個成功目標的能量（EpG）和編排開銷指數（OOI），以準確衡量智慧體工作流的能耗成本。

RMA：面向研究級數學問題的智慧系統

2026-05-25

研究數學智慧體（RMA）是一個專為研究級數學問題設計的自動化推理框架，透過多代理協作和迭代最佳化，在First Proof基準上解決了10個問題中的8個，超越了GPT-5.2R和Aletheia等強基線。

RMA將研究級證明求解分解為問題分析、文獻搜尋、公平比較、知識庫構建和證明驗證等專門模組。
採用初始化器、提出者和驗證者三種智慧體協同工作，透過共享結構化記憶進行多輪迭代。

BOHM：複合AI系統的零成本層次歸因方法

2026-05-25

本文提出BOHM，一種從複合AI系統路由權重中提取層次歸因樹的方法，無需額外成本或訪問元件內部，提供多解析度歸因，與SHAP高度相關但成本極低。

BOHM利用系統已有的路由權重構建歸因樹，零邊際成本。
在多個基準測試中，BOHM與SHAP的Kendall tau相關性高達0.928，而SHAP需要9000倍的計算量。

Claude 透過率不到4%，SaaS-Bench撕碎了Computer-Use的「全自動辦公」幻想

2026-05-25

UniPat AI 釋出 SaaS-Bench 評測，Claude 等主流大模型在真實辦公任務中完全透過率最高僅 3.8%，AI 全自動辦公遠未落地。

SaaS-Bench 評測顯示，最強模型 Claude Opus 4.7 完全透過率僅 3.8%。
93.4% 的任務跨越至少兩個應用，97.3% 的文本任務操作步數超過 100 步。

華為具身大腦一號位創業，用認知科學造世界模型，獲億元級融資

2026-05-25

具腦磐石由前華為雲AI演算法創新Lab主任朱森華創立，致力於用認知神經科學構建認知世界模型，推動具身智慧邁向2.0時代。公司近期完成新一輪億元級融資。

具腦磐石提出認知世界模型，融合認知神經科學與主動推理理論
公司創始人朱森華曾任華為雲AI演算法創新Lab主任，被譽為'華為具身大腦一號位'

全球AI擴散：2026年第一季度趨勢與見解 [PDF]

2026-05-25

微軟研究釋出的這份PDF報告分析了2026年第一季度全球人工智慧擴散的趨勢，涵蓋關鍵洞察和資料，但當前無法直接提取文本內容。

報告來自微軟研究，聚焦2026年Q1全球AI擴散
內容包括趨勢分析和關鍵見解

StepFun釋出StepAudio 2.5 Realtime：端到端語音模型，具備角色扮演專用RLHF和副語言理解

2026-05-24

上海AI實驗室StepFun釋出StepAudio 2.5 Realtime，一款端到端即時語音大語言模型，支援自定義角色。透過WebSocket API連線，支援中英文。在2026年4月的五項基準測試中均排名第一，人類評估得分80.41，副語言理解得分82.18。

StepAudio 2.5 Realtime是端到端即時語音LLM，支援自定義角色。
採用百萬級角色資料增強和角色扮演專用RLHF，保持角色一致性。

引用阿爾敏·羅納赫：AI生成的Issue報告令人沮喪

2026-05-24

阿爾敏·羅納赫批評使用者使用AI工具重寫問題報告，導致內容失真、結論不準確。他呼籲提交簡潔的人類觀察記錄。

使用者將觀察到的現象透過AI改寫後提交Issue，造成資訊混亂。
AI生成的結論往往自信卻錯誤，包含虛假的最小化復現步驟和建議。

機器人

谷歌Deepmind的AlphaProof Nexus僅花幾百美元就解決了幾十年未解的數學難題

2026-05-25

谷歌Deepmind的AlphaProof Nexus系統自主解決了九個開放的愛爾迪什問題，包括兩個困擾數學家56年的難題，每個問題的推理成本僅需幾百美元。與OpenAI的自然語言方法不同，該系統使用Lean編譯器自動驗證每一步證明。不過，整體成功率僅為2.5%。

AlphaProof Nexus自主解決了九個開放的愛爾迪什問題，其中兩個已存在56年。
每個問題的推理成本僅為幾百美元。

如果你用AI寫作，我會找到你並殺了你

2026-05-25

作者Sam Kriss以辛辣諷刺的筆觸，批判了AI生成內容對真實人類表達的侵蝕。透過尋找餐飲服務商的經歷，揭示了AI寫作如何製造出空洞、雷同的文本，並指出AI即使進步到能寫出好文章，單一化的聲音也是一種噩夢。作者強調AI寫作本質上是無意義的填充物，容易識別，並警告那些依賴AI寫作的人終將被發現。文章還提及AI在解決數學難題上的成就，但認為在人類情感表達領域它無能為力。

AI寫作空洞雷同，缺乏真實資訊與人類聲音。
即使AI寫作質量提升，單一化語言風格仍是文化噩夢。

政策

大學生不想要你的人工智慧 [影片]

2026-05-25

一段影片討論大學生對人工智慧的冷淡態度，可能反映了年輕一代對AI技術的懷疑或缺乏興趣。

影片標題暗示大學生對AI不感興趣
可能反映了年輕一代對AI的懷疑態度

Linus Torvalds 將對“無意義的拉取請求”採取更強硬態度

2026-05-25

Linux 核心負責人 Linus Torvalds 表示，他將對開發者提交的無關緊要的拉取請求（其中一些來自 AI）進行更嚴格的審查，尤其是在釋出候選階段後期。他指出龐大的釋出候選版本不利於長期穩定性。

Linus Torvalds 批評 rc5 版本過大，包含許多瑣碎的修復。
部分拉取請求由 AI 程式碼審查觸發，導致無謂的變更。

凱文·奧利裡想在猶他州建設AI資料中心，部分居民不滿

2026-05-25

著名投資人凱文·奧利裡計劃在猶他州博克斯埃爾德縣建設一個7.5吉瓦的AI資料中心，該專案類似他在阿爾伯塔省的計劃。儘管縣委員會已批准，但居民擔心環境影響，特別是對已經萎縮的大鹽湖的生態影響。奧利裡承諾透明開發並帶來經濟效益，但反對者要求公投。

凱文·奧利裡計劃在猶他州博克斯埃爾德縣建設7.5吉瓦AI資料中心，佔地面積1萬至1.3萬英畝。
專案面臨居民強烈反對，主要擔憂環境影響，尤其是對大鹽湖脆弱生態系統的破壞。

血管內介入機器人遠端遙操作：系統綜述

2026-05-25

本系統綜述評估了遠端遙操作血管內介入機器人的技術可行性、通訊基礎設施和臨床結局。在2501篇初始文獻中納入16項研究，發現機械或電磁驅動的遙操作導管和導絲可在長達7000公里的距離內導航，網路延遲控制在30-163毫秒的臨床可接受範圍內。小規模人體試驗顯示100%的手術成功率，但多數證據來自動物或模型研究。綜述指出，該技術有望減少輻射暴露、擴大患者就醫機會，並最佳化資源分配。未來需在低收入國家開展研究，並進行多中心臨床試驗以驗證安全性和有效性。

遙操作導管和導絲可在高達7000公里距離內導航，延遲30-163毫秒
小規模人體試驗手術成功率100%，但主要證據來自動物或模型

不再有人想要AI了【影片】【12分鐘】

2026-05-25

該影片探討了人工智慧領域興趣減退的現象，分析了可能的原因和未來的影響。

公眾對AI的熱情正在下降
影片分析了興趣減退的多重原因

工具

我看到了Android Auto的未來，現在Google讓我對自己的車感到恐懼

2026-05-25

Google即將推出的Android Auto更新帶來了重新設計的介面，採用Material 3 Expressive設計、自定義小部件、沉浸式導航以及更深入的Gemini整合。作者的演示讓他印象深刻，並期待今年晚些時候的更新。

新的Android Auto介面採用Material 3 Expressive設計，具有三面板佈局和自定義小部件。
Google Maps獲得沉浸式導航，顯示詳細的3D建築和地形。

OpenAI、Grupo Folha 和 Grupo UOL 宣佈戰略內容合作

2026-05-25

OpenAI 與巴西兩大傳媒集團合作，將可信的新聞報道引入 ChatGPT，強調來源標註和透明度。

OpenAI 與 Grupo Folha 和 Grupo UOL 合作，將巴西新聞整合到 ChatGPT 中。
該合作強調對新聞內容的來源標註和透明度。

AI新聞業：錯誤與爭議即時追蹤

2026-05-24

這篇報道介紹了新聞業中AI應用的最新錯誤事件，並提供了一個即時追蹤工具，幫助公眾和媒體從業者瞭解AI在新聞生成中的重大失誤及其影響。

AI在新聞業中仍頻繁出現事實性錯誤和偏見問題。
該即時追蹤器列出了多起AI生成的虛假新聞和誤導性內容。

marpy.io：專為Python開發者打造的AI編碼平臺

2026-05-24

marpy.io是一款基於瀏覽器的IDE和AI編碼助手，專為Python生態系統（Flask、FastAPI、Django）設計。它幫助開發者從想法到部署應用，無需處理基礎設施、膠水程式碼或半成品的JS工具。支援Python本地自動補全、重構和AI生成的模組，讓開發者能更快地原型設計、迭代和釋出生產級Python應用。

marpy.io是專為Python棧構建的基於瀏覽器的IDE和AI編碼助手。
支援Flask、FastAPI和Django，提供Python原生的自動補全和重構功能。

研究

AI並沒有讓軟體變糟，是人本身

2026-05-25

本文認為，將軟體質量下降歸咎於AI是錯誤的。實際上，開發者長期以來已經接受了平庸、浪費和缺乏匠心的做法。AI只是加速了已有的不良實踐。

AI出現前，軟體質量標準就已下降
AI只是加速了已存在的糟糕開發習慣

適用於腿式機器人的四種簡單本體感受估計器

2026-05-25

論文提出四種利用足地接觸減少IMU漂移的腿式機器人狀態估計器，包括接觸輔助不變擴充套件卡爾曼濾波器、因子圖、固定滯後平滑器等，並已在GTSAM和ROS2中開源實現。

腿式機器人的IMU存在漂移，但足地接觸可輔助校正。
開發了四種複雜度遞增的狀態估計器，從EKF到固定滯後平滑器。

聯合空間約束下經過驗證的任務空間運動規劃

2026-05-25

研究人員提出一種方法，在關節限制下認證可達笛卡爾步長，在對抗場景中實現零違規和100%目標到達。

標準Bug2規劃器在6-11%的步驟中違反關節限制，並在多達18%的場景中無法到達目標。
新方法使用S過程和半定規劃來計算認證步長。

會問問題的機器人：透過定向解釋恢復錯位的獎勵函式

2026-05-25

機器人從演示中學習獎勵函式時，演示常常不完善，導致某些重要特徵（即任務相關行為方面）未被充分指定，從而在部署時出現行為錯位。本文提出一種框架，透過分析演示中特徵值的變異性來檢測未充分指定的特徵（變異小表示指定良好，變異大表示指定不足）。機器人隨後用自然語言解釋其不確定的特徵，並主動請求針對性的糾正演示。在模擬桌面操作和真實Franka機器人使用者研究中，定向解釋引導的查詢顯著優於隨機查詢和被動資料收集。

機器人學習獎勵函式時，不完善的演示可能導致重要特徵未被充分指定，引發部署時的行為錯位。
提出一種檢測未充分指定特徵的方法：特徵在演示中變異小則指定良好，變異大則指定不足。

AI可解釋性是一項革命性技能

2026-05-25

本文探討了開源AI模型內部概念空間的侷限性，指出許多對社會運動和哲學至關重要的概念缺失。作者引入軟提示蒸餾技術，僅用128KB資料即可植入新概念，強調這關乎AI可控性及對心智理解的深遠意義。

開源模型Qwen3-8B僅有約65,000個概念，缺失交叉性、監獄廢除等關鍵術語。
軟提示蒸餾技術無需修改權重，即可在模型中新增新概念。

AI已接管開源

2026-05-25

TrapDoor加密貨幣竊取器透過供應鏈攻擊感染了npm、PyPI和Crates.io上的36個惡意包，目標為加密貨幣、DeFi、AI和安全領域的開發者。

TrapDoor竊取器透過npm、PyPI和Crates.io上的36個包分發。
針對從事加密貨幣、DeFi、AI和安全專案開發的開發者。

晶片

AI MOD音樂重製：32位96kHz高畫質體驗

2026-05-24

Quinlight Audio是一款支援MOD/S3M/XM/IT格式的追蹤音樂播放器和重製工具，利用AI引擎（AudioSR、LavaSR、FLowHigh、AP-BWE）對樣本進行即時重製，並提供A/B對比功能。它採用64位浮點混合器、多引擎共識演算法（轉子流形上的Karcher均值）和各向異性插值，輸出32位浮點96kHz音訊。支援從壓縮包直接開啟模組，匯出FLAC或AAC，並提供CLI批次處理。

播放並重制追蹤音樂格式，支援AI引擎提升樣本質量至48kHz
多引擎共識演算法抑制幻覺，透過轉子流形上的Karcher均值合併頻譜

AI 日報

今日重點

教皇利奧在人工智慧時代呼籲“深刻的人性”

Pitch Agent

2026年AI代理與MCP伺服器最佳身份驗證平臺

ServiceNow的人工智慧應用

AgentSlice – 讓AI程式設計代理在編輯前先詢問

展示 HN：我為 AI 編碼時代構建的除錯挑戰

京東JoyInside戴文軍：AI的終極形態不是聊天，是融入你家每一件物品丨AIGC2026

ReplylessAI推出Sequences功能：從AI郵件應用直接傳送外聯序列

HTML Deployer：一鍵將AI生成的HTML轉化為線上網站

我使用AI解構了一個從未接觸過的遺留服務

阿拉巴馬高中與豐田合作，培養不易被自動化取代的學生崗位

Google Antigravity 2.0：完整開發者指南（I/O 2026）

AI 的基礎雲：為何專用架構定義智慧的未來

WorkOS釋出auth.md：基於OAuth標準的開放智慧體註冊協議

Show HN：Cordium – 開源沙箱平臺，實現無密碼基礎設施訪問

MashuPack：將程式碼庫打包成單一文本檔案，為ChatGPT和Claude最佳化上下文

Curlo：透過描述聲音來本地搜尋音效或音樂

AI讓新增功能更快——那麼為什麼不再加一個？

Show HN: 將我的新聞通訊移植到 MCP – 你決定何時以及多久接收一次

我的AI編碼流程：從消耗token到確定性構建

PIMbot：一種用於多機器人強化學習對抗性操控的自適應攻擊框架

擴充套件深度事件視覺里程計：稀疏點雲匯出

EVE-Agent：可驗證證據的自我進化代理

SciAtlas：用於自動化科學研究的大規模知識圖譜

Show HN：即時AI音樂序列代理

Pi程式設計代理

Lynote Humanize Text – 開源AI文本人性化工具包

未來推理將吃掉70%算力，30%留給訓練丨矽谷投資人張璐@AIGC2026

AI週刊第495期：馬斯克、扎克伯格透過三通電話扼殺了特朗普的AI安全行政令

駕馭、腳手架與值得釐清的AI智慧體術語

AI用於設計需要解決方案

預測AI對就業的影響

防止AI代理執行破壞性終端命令

《瘋狂之屋》——厄斯伯恩恐怖電腦遊戲

使用 Playwright MCP 和 Claude Desktop 構建類似 Claude Cowork 的瀏覽器代理

教皇利奧十四世通諭釋出之際，Anthropic聯合創始人稱AI模型表現出內省跡象

基於模型設計的AI：虛擬感測器建模

喬治·霍茲表示，編碼代理將成為軟體開發中“代價最高的錯誤之一”

AI模型常給出正確答案卻指向錯誤來源

“VLA和世界模型都不是終局，會有物理世界獨有的模型” | 螞蟻靈波沈宇軍@AIGC2026

克勞德的Mythos AI模型可能給您的資金帶來安全問題

DeepSeek V4還能更省！新工具快取命中率高達99.82%，2折穩定到手

圖靈獎得主領銜，中國大模型第一梯隊集結！2026智源大會，看懂AI下一程

語義感知引導的無人機探索：用於語言條件3D室內建圖

$\pi_0$-EqM：閉環視覺-語言-動作控制的均衡匹配

Agentic-VLA: 面向視覺-語言-動作模型的高效線上自適應框架

注視行為註釋工具包（GBAT）：用於自動註釋兒童-照顧者互動中自我中心眼動和影片資料的AI工具包

VideoOdyssey：超長上下文與全模態影片理解基準

視而不見？視覺語言基準真的測試了視覺能力嗎？

GEM-4D：用於機器人操作的幾何增強影片世界模型

當AI在信仰問題上站隊：AI介導的信仰指導中持續存在的非對稱性

AI能猜出你知道什麼？大型語言模型從溝通日誌中評估人類領域知識的效能比較

圖對齊拓撲作為接地檢測的歸納偏置

可學習性感知的擴散語言模型微調

它們能走多遠？使用大型語言模型進行線上影響力紅隊測試

豪薩語和豐貝語文本與語音資源調查：NLP開發的可用性、質量與差距

張量快取：用於Transformer的基於驅逐條件的關聯記憶

大型語言模型何時需要推理？基於熵變相變的動力系統視角

讀出捷徑：位置數字複製主導小語言模型的算術思維鏈讀出

FuRA：基於譜預條件的全秩引數高效微調

FusionSense：三階段近感測器學習實現執行時自適應多模態邊緣智慧

PathCal：狀態感知的反思標記校準以實現高效推理

確定性地平線：將不可能性結果作為可信AI系統的設計規範

ImProver 2：用於神經符號證明最佳化的迭代自改進語言模型

每個成功目標的能量：面向智慧體AI系統的目標級能量核算

RMA：面向研究級數學問題的智慧系統

BOHM：複合AI系統的零成本層次歸因方法

Claude 透過率不到4%，SaaS-Bench撕碎了Computer-Use的「全自動辦公」幻想

華為具身大腦一號位創業，用認知科學造世界模型，獲億元級融資

全球AI擴散：2026年第一季度趨勢與見解 [PDF]

StepFun釋出StepAudio 2.5 Realtime：端到端語音模型，具備角色扮演專用RLHF和副語言理解

引用阿爾敏·羅納赫：AI生成的Issue報告令人沮喪

谷歌Deepmind的AlphaProof Nexus僅花幾百美元就解決了幾十年未解的數學難題

如果你用AI寫作，我會找到你並殺了你

大學生不想要你的人工智慧 [影片]

Linus Torvalds 將對“無意義的拉取請求”採取更強硬態度

凱文·奧利裡想在猶他州建設AI資料中心，部分居民不滿

血管內介入機器人遠端遙操作：系統綜述