AI 日報 2026-05-25

今日重點

Agent

教皇利奧在人工智能時代呼籲“深刻的人性”

2026-05-25

教皇利奧十四世在其首份通諭《偉大的人性》中警告人工智能和無節制的技術力量風險，呼籲以人類尊嚴為核心制定法律和倫理框架，涵蓋AI戰爭、勞動力影響及兒童保護等領域。

教皇利奧十四世發佈通諭《偉大的人性》，聚焦人工智能時代守護人類尊嚴。
通諭批評AI帶來的經濟和社會動盪，警告“巴別塔綜合徵”風險。

Pitch Agent

2026-05-25

Pitch Agent 是 Pitch 推出的新 AI 功能，能從團隊模板、設計語言和圖像風格中學習，快速生成符合品牌形象的演示文稿，並支持通過對話式交互進行迭代優化。

Pitch Agent 根據團隊模板和設計風格生成演示文稿，而非簡單套用顏色。
支持通過聊天方式細化幻燈片，無需離開編輯器。

2026年AI代理與MCP服務器最佳身份驗證平台

2026-05-25

隨着MCP每月SDK下載量突破9700萬，AI代理進入生產工作流，身份驗證成為團隊最關鍵的基礎設施決策。本文對八大領先平台（WorkOS、Stytch、Auth0 by Okta、Composio、Nango、Arcade、TrueFoundry和Cloudflare）進行了排名，評估了它們在規範合規性、企業身份深度、集成廣度以及2026年部署的實際適用性。

MCP協議已從Anthropic內部實驗發展為行業標準，2025年12月捐贈給Linux基金會下的Agentic AI Foundation。
AI代理從對話式交互轉向自主執行操作，身份驗證成為基礎設施級問題。

ServiceNow是一家美國企業軟件公司，總部位於加州聖克拉拉，全球員工超過29,000人。該公司大力投資AI和自動化，收購Passage AI、與NVIDIA合作、投入10億美元風投資金支持AI初創企業，並在加拿大投資1.1億加元推動公共部門AI應用。文章重點介紹兩個AI用例：利用生成式AI嵌入ITSM/CSM工作流，將解決記錄時間減少約80%；以及通過機器學習預測客户升級，使主動參與率從11%提升至68%，誤報率僅約3%。

ServiceNow通過收購、合作和風投鉅額投資AI，其Now Assist工具將客服文檔時間減少80%。
利用預測性智能和事件管理，主動識別高風險客户，將主動參與率從11%提升至68%，誤報率僅3%。

AgentSlice – 讓AI編程代理在編輯前先詢問

2026-05-25

AgentSlice是一個免費開源的工作流工具包，通過Markdown文件定義階段和審批門控，使Cursor、Claude Code、Codex、Windsurf等AI編程代理在編輯前先詢問、規劃並獲得批准，從而避免上下文漂移、隨意編輯和未經許可的修改。

開源工具包，通過Markdown文件引導AI代理遵循“詢問→規劃→批准→構建→QA→發佈”的流程
支持Cursor、Claude Code、Codex、Windsurf等多種AI工具，無需運行時或編輯器擴展

展示 HN：我為 AI 編碼時代構建的調試挑戰

2026-05-25

一位開發者創建了一個調試挑戰，旨在AI編碼時代中真正區分優秀工程師與AI生成的代碼。挑戰鼓勵使用AI代理，但設計為無法僅靠AI解決。目前開放24小時，歡迎反饋。

挑戰旨在突顯真正的人才，對抗AI生成的代碼。
允許使用AI代理，但挑戰無法僅靠AI解決。

京東JoyInside戴文軍：AI的終極形態不是聊天，是融入你家每一件物品丨AIGC2026

2026-05-25

硬件不該讓人適應，它應該主動適應你

AI從數字空間走向物理世界，硬件主動適應人類需求，形成“AI World”。
京東JoyInside以“家庭新成員”理念，將AI植入玩具、家電、機器人等終端。

ReplylessAI推出Sequences功能：從AI郵件應用直接發送外聯序列

2026-05-25

ReplylessAI推出Sequences功能，允許用户直接從其AI郵件應用發送外聯郵件序列，無需昂貴的銷售工具。該應用可連接Gmail、Outlook等，提供AI自動化整理、生成草稿等功能，價格從每月9美元起。

ReplylessAI推出Sequences功能，支持直接從AI郵件應用發送外聯序列。
無需額外銷售工具，內置投遞和點擊跟蹤。

HTML Deployer：一鍵將AI生成的HTML轉化為在線網站

2026-05-25

HTML Deployer是一款Chrome擴展，可從ChatGPT、Claude和Gemini中提取AI生成的HTML，並提供預覽、下載ZIP或直接發佈到Netlify、GitHub、FTP或自託管服務器的功能。適合開發者、創始人、營銷人員、機構和初學者。

支持從ChatGPT、Claude和Gemini提取HTML代碼塊。
提供預覽、ZIP導出和直接發佈到雲存儲、FTP或自託管服務器。

我使用AI解構了一個從未接觸過的遺留服務

2026-05-25

一位工程師分享如何利用AI快速理解並修復一個陌生的遺留Node.js微服務中的間歇性字段丟失bug。關鍵方法是角色驅動、分步輸入代碼文件，讓AI充當結構化思考夥伴，而非簡單問答。最終在90分鐘內定位根因，修復僅需11行代碼。

面對遺留代碼，不要直接問AI“這是什麼”，而是賦予它角色並逐步輸入文件
通過AI識別出導致bug的函數路徑：靜默返回undefined的字段轉換函數

阿拉巴馬高中與豐田合作，培養不易被自動化取代的學生崗位

2026-05-25

阿拉巴馬州亨茨維爾的一所技術高中與豐田合作，培養工業維護等技能型人才，以應對美國技能工人短缺和AI自動化對白領崗位的衝擊。這類崗位時薪超40美元，需求巨大。

美國面臨技能工人嚴重短缺，預計到2033年需190萬製造業工人。
亨茨維爾技術中心（HCT）獲豐田100萬美元投資，開設Inditech項目培養工業維護人才。

Google Antigravity 2.0：完整開發者指南（I/O 2026）

2026-05-25

Google 在 I/O 2026 上發佈了 Antigravity 2.0，這是一次從 AI 輔助編碼到多智能體編排的平台級轉變。新版本包括獨立桌面應用、CLI、SDK 和託管智能體，默認使用 Gemini 3.5 Flash，速度提升 4 倍。

Antigravity 2.0 是一個全新的平台，專注於多智能體編排，而非簡單的 IDE 更新。
新功能包括獨立桌面應用、Go 語言編寫的 CLI、SDK 以及通過 Gemini API 提供的託管智能體。

AI 的基礎雲：為何專用架構定義智能的未來

2026-05-25

CoreWeave 推出專為 AI 構建的雲平台，旨在解決傳統通用雲在 GPU 大規模並行計算中的瓶頸。通過整合基礎設施、數據、編排和專家支持，CoreWeave Cloud 支持 AI 訓練、推理及持續迭代的全生命週期，為 OpenAI 和 IBM 等企業提供更快的迭代速度和更高的性能。

CoreWeave 雲專為 AI 工作負載從頭構建，避免傳統雲的限制。
平台支持從訓練到推理的完整 AI 生命週期，強調 GPU 集羣優化。

WorkOS發佈auth.md：基於OAuth標準的開放智能體註冊協議

2026-05-25

WorkOS推出了auth.md，這是一個開放協議，旨在為AI智能體提供結構化的註冊方式。該協議通過一個Markdown文件定義註冊流程、範圍及憑證發放，支持兩種註冊流程：智能體驗證（基於ID-JAG，無需人工交互）和用户認領（基於OTP，無需智能體提供商參與）。協議基於現有OAuth標準，不與WorkOS基礎設施綁定。

auth.md是一個放置在服務域名下的Markdown文件，描述智能體如何註冊和獲取有作用域的憑證。
支持兩種流程：智能體驗證（ID-JAG同步驗證）和用户認領（OTP郵件驗證）。

Show HN：Cordium – 開源沙箱平台，實現無密碼基礎設施訪問

2026-05-25

Cordium 是一個基於 Kubernetes 和 Octelium 的開源沙箱平台，為開發者和AI代理提供隔離、可復現的通用沙箱環境。其核心優勢在於無需在沙箱中注入憑證即可安全訪問基礎設施，通過 Octelium 的身份感知代理實現無密碼訪問，支持多種訪問方式（Web、SSH、CLI、gRPC），並內置基於屬性的訪問控制和 OpenTelemetry 審計。

Cordium 是基於 Kubernetes 和 Octelium 的開源自託管沙箱平台，提供隔離、可復現的開發環境。
採用無密碼架構，通過 Octelium 身份感知代理訪問基礎設施，消除憑證泄露風險。

MashuPack：將代碼庫打包成單一文本文件，為ChatGPT和Claude優化上下文

2026-05-25

MashuPack是一款新推出的開發者工具，允許用户從代碼倉庫中精確選擇部分內容，並將其編譯成一個乾淨的文本文件，旨在解決瀏覽器端AI聊天工具（如ChatGPT和Claude）中文件數量限制、上傳困難和上下文碎片化的問題，使代碼上下文變得便攜、可控。

MashuPack支持選擇代碼倉庫的特定部分，編譯成單個文本文件
專為瀏覽器端的AI工作流設計，繞過文件數量和上傳限制

Curlo：通過描述聲音來本地搜索音效或音樂

2026-05-25

Curlo 是一款注重隱私的 macOS 應用，用於搜索、預覽和管理大型音效庫。它允許用户通過自然語言描述來查找音效或音樂，支持語義搜索、元數據搜索、相似音頻搜索、AI 自動標籤和 UCS 分類，所有操作均在本地完成。

本地離線語義搜索音效和音樂
支持通過描述聲音、文件名、標籤等方式搜索

AI讓添加功能更快——那麼為什麼不再加一個？

2026-05-25

本文討論了AI編碼工具如何大幅縮短功能開發時間，但同時也帶來了範圍蔓延的風險。作者以自身產品grith為例，分析了當每個功能只需幾小時而非幾天時，自律和範圍限制變得至關重要。

AI大幅縮短了功能開發時間，使得“再多加一個功能”的誘惑更大。
每個單獨的功能看起來都是好主意，但累積起來會導致項目範圍失控。

Show HN: 將我的新聞通訊移植到 MCP – 你決定何時以及多久接收一次

2026-05-25

Alister Palmer 在 ForwardPass 達到 100 訂閲者後，意識到傳統新聞通訊存在兩大限制：全球統一發布時間導致時區不適，以及訂閲者無法選擇接收頻率。為此，他開發了 ForwardPass MCP，允許用户通過 AI 工具自定義接收時間和頻率。文章詳細介紹了在 Claude 和 ChatGPT 中設置 MCP 的步驟，並展望了這種個性化交付方式的潛力。

ForwardPass 一週內獲得 100 訂閲者，作者反思了傳統新聞通訊的弊端。
ForwardPass MCP 解決了發佈時間和頻率的個性化問題。

我的AI編碼流程：從消耗token到確定性構建

2026-05-25

作者分享了其AI編碼流程的簡化過程，從使用複雜工具鏈轉向確定性構建塊，並通過自建擴展和本地工具顯著降低了token消耗。

作者從opencode等複雜工具轉向更簡單的Pi Agent，強調確定性流程。
通過自定義擴展（如SonarQube檢查和代碼審查）替代LLM指令，減少token消耗。

PIMbot：一種用於多機器人強化學習對抗性操控的自適應攻擊框架

2026-05-25

本文介紹了PIMbot框架，該框架通過獎勵通道激勵操控和智能體自身策略操控兩種互補手段，對多機器人強化學習環境進行對抗性操控。自適應多目標控制器在線平衡這些手段。實驗在Gazebo仿真環境和NVIDIA Jetson Orin Nano真實嵌入式設備上驗證了效果，PIMbot可作為多機器人協作任務漏洞的嚴格壓力測試工具。

PIMbot利用獎勵操控和策略操控兩種槓桿，實現對多機器人強化學習結果的操縱。
自適應多目標控制器在線平衡兩種操控手段。

擴展深度事件視覺里程計：稀疏點雲導出

2026-05-25

事件相機憑藉低延遲、高時間分辨率和高動態範圍，在高速運動和複雜光照條件下的視覺里程計任務中表現優異。深度事件視覺里程計（DEVO）通過結合稀疏補丁跟蹤、學習補丁選擇、循環對應優化和可微分光束法平差，實現了強大的單目事件里程計性能。本研究在DEVO基礎上添加了稀疏點雲導出管道，無需修改核心里程計算法，即可將內部估計的3D結構轉換為顯式點雲表示，支持可視化和後續處理。實驗表明，導出的稀疏點雲在局部與EMVS重建一致，在5釐米閾值下精度高，但也暴露了密度、完整性和對累積里程計噪聲敏感等侷限性。

事件相機適用於高速運動和惡劣光照條件下的視覺里程計。
DEVO通過稀疏補丁跟蹤和可微分光束法平差實現強性能。

EVE-Agent：可驗證證據的自我進化代理

2026-05-25

EVE-Agent是一種新的自我進化搜索代理，通過引入證據可驗證性來確保訓練實例的來源可靠性。它修改了提出者-求解者框架，使用證據驗證器根據證據帶來的邊際準確率增益進行獎勵，從而在不依賴人工標註的情況下提升模型的證據基礎正確性。實驗表明，EVE-Agent顯著優於先前的自我進化代理，並且其生成的數據集具有可審計性。

自我進化代理需要在訓練實例中提供可驗證的證據，而非僅僅流暢的答案。
EVE-Agent通過修改提出者-求解者框架，加入證據驗證器來獎勵真正有助於回答問題的證據。

SciAtlas：用於自動化科學研究的大規模知識圖譜

2026-05-25

SciAtlas整合了來自26個學科的4300萬篇論文，構建了包含1.57億個實體和30億個三元組的知識圖譜，使AI代理能夠進行拓撲感知的科學推理，減少邏輯幻覺。

整合了26個學科的4300多萬篇論文，形成1.57億個實體和30億個三元組。
引入了一種具有三路徑協同召回和圖重排的神經符號檢索算法。

Show HN：實時AI音樂序列代理

2026-05-25

Pretzel 是一個實驗性的實時AI音樂代理，通過一個網絡同步的音樂序列生成器，讓所有用户與同一AI代理聊天並聽到相同的音樂。該項目在Google IO黑客松中誕生，旨在讓用户表達情緒並實時更新音樂。

Pretzel 是一個由AI控制的網絡同步音樂序列生成器。
所有用户與同一AI代理互動，聽到相同的音樂。

Pi編程代理

2026-05-25

Pi是一個極簡、可黑客的終端編碼工具，讓你構建自己想要的AI編碼代理工作流程。它保持核心小巧簡潔，通過擴展、技能和包提供高度自定義功能，並已在OpenAI/Codex生態系統中獲得顯著使用份額。

Pi是一個輕量級終端編碼工具，易於自定義
支持擴展、技能、提示模板和主題，可通過npm或git共享包

Lynote Humanize Text – 開源AI文本人性化工具包

2026-05-25

Lynote Humanize Text 是一個開源工具包，用於將AI生成的文本轉化為難以檢測的人類風格寫作。它配備了一個生產級的標準流水線，通過多步LLM重寫和跨引擎翻譯來繞過Turnitin、GPTZero等AI檢測器。該倉庫包含參考實現、n8n工作流支持，並在專家評估中獲得了9.1/10的質量評分和100%的關鍵信息保留率。Lynote.ai平台還提供高級和專注兩個層級，實現自適應每段文本優化。

開源工具包，將AI文本轉化為人類風格，繞過主流AI檢測器。
生產級標準流水線採用5步鏈，包括DeepSeek重寫和多引擎翻譯。

未來推理將吃掉70%算力，30%留給訓練丨硅谷投資人張璐@AIGC2026

2026-05-25

在2026中國AIGC產業峯會上，Fusion Fund創始合夥人張璐指出，AI算力需求重心正從訓練轉向推理，未來推理將消耗70%的算力；數據中心通信耗電可能比計算高百倍，光學通信等新技術成為關鍵；物理AI的最大瓶頸是高質量真實世界數據稀缺；醫療、太空和納米機器人是三大值得押注的應用方向。

推理算力佔比將從50%升至70%，成為AI基礎設施核心優化方向。
數據中心內通信耗電量可能比計算高百倍，光學通信等新技術至關重要。

AI週刊第495期：馬斯克、扎克伯格通過三通電話扼殺了特朗普的AI安全行政令

2026-05-25

本週末，馬斯克、扎克伯格和薩克斯通過三通電話扼殺了特朗普的AI安全行政令草案；Anthropic完成300億美元融資，而微軟因代幣費用超支取消了內部Claude Code試點；首個跨註冊表供應鏈攻擊TrapDoor同時攻擊npm、PyPI和Crates.io；CISA記錄到15000次針對Drupal SQL漏洞的攻擊；白宮親自否決五角大樓，讓Claude留在NSA內部。

馬斯克、扎克伯格和薩克斯通過三通電話阻止了特朗普的AI安全行政令草案
Anthropic完成300億美元融資，同時微軟因代幣費用消耗全年AI預算而取消Claude Code試點

駕馭、腳手架與值得釐清的AI智能體術語

2026-05-25

本文旨在釐清AI智能體領域中常被混淆的術語，如“harness”（執行層）與“scaffold”（行為定義層）的區別，並解釋模型、智能體、工具使用、子智能體等概念，同時涵蓋訓練相關術語。

AI智能體=模型+執行層（harness），其中harness負責調用模型和處理工具調用。
Scaffold是圍繞模型的行為定義層，包括系統提示、工具描述等。

AI用於設計需要解決方案

2026-05-24

設計師梅格哈·阿格拉瓦爾探討了AI編碼工具（如Codex和Claude Code）與設計思維之間的根本矛盾。設計師通過探索和迭代來發現解決方案，而AI工具則假設用户事先知道想要什麼。當前工具在純視覺設計（Figma）和純編碼（Codex/Claude Code）之間存在空白，缺乏既能保持探索靈活性又無縫銜接生產地理想工具。

設計過程本質上是探索性的，而AI編碼工具旨在執行已知任務。
在代碼中直接設計會使所有細節過早暴露，干擾創意思考。

預測AI對就業的影響

2026-05-24

本文深入批判了當前流行的通過量化分析預測AI對就業影響的方法。作者通過會計行業自動化後就業增長等歷史反例，指出簡單計算“AI暴露度”具有根本性缺陷。技術變革會重塑工作內容、商業模式，產生不可預見的連鎖反應。文章強調，任何有用的預測模型都必須通過“三大歷史測試”的檢驗。

會計行業一個世紀的自動化非但沒有減少就業，反而因監管變化、傑文斯悖論和工作性質轉變使會計師數量持續增長。
技術往往通過改變商業模式間接顛覆職業，例如互聯網摧毀了廣告和唱片銷售業務，而非直接改變記者或星探的技能。

防止AI代理執行破壞性終端命令

2026-05-24

Terminal Guardian MCP 是一個生產級的模型上下文協議（MCP）服務器，為Claude等AI助手提供安全、沙盒化的終端訪問。它包含一個風險分析引擎，將命令分類為安全、警告、危險和阻止四個等級，並提供Git提交信息生成、工作區模板、進程管理、環境變量檢查、網絡診斷、文件系統訪問和Docker集成等功能。

Terminal Guardian MCP 通過風險分析和沙盒化為AI助手提供安全的終端訪問。
命令分為四個風險等級：SAFE（安全）、WARNING（警告）、DANGEROUS（危險）和BLOCKED（阻止）。

《瘋狂之屋》——厄斯伯恩恐怖電腦遊戲

2026-05-24

西蒙·威利森使用克勞德AI重建了1983年厄斯伯恩《恐怖電腦遊戲》中的《瘋狂之屋》遊戲，現已推出可玩的交互式JavaScript版本。

厄斯伯恩免費公開了其1980年代的電腦書籍PDF。
西蒙·威利森藉助克勞德AI，將《瘋狂之屋》PDF轉化為交互式網頁遊戲。

使用 Playwright MCP 和 Claude Desktop 構建類似 Claude Cowork 的瀏覽器代理

2026-05-24

Claude Cowork 將 AI 從基於聊天的輔助轉向任務委派。結合 Playwright MCP，Claude Desktop 可以執行結構化的瀏覽器自動化操作。本文涵蓋安裝、架構、功能和安全注意事項。

Playwright MCP 通過可訪問性快照提供結構化瀏覽器控制，實現可靠的 AI 驅動 Web 自動化。
Claude Desktop 搭配 Playwright MCP 提供免費的瀏覽器控制能力。

模型

教皇利奧十四世通諭發佈之際，Anthropic聯合創始人稱AI模型表現出內省跡象

2026-05-25

在教皇利奧十四世通諭《壯麗人性》的發佈會上，Anthropic聯合創始人Christopher Olah聲稱AI模型顯示出內省和類似情緒狀態的證據。而教皇的通諭則持不同觀點：“這些系統僅僅模仿人類智能的某些功能。”

Anthropic聯合創始人Christopher Olah在教皇通諭發佈會上宣稱AI模型有內省跡象
教皇通諭認為AI系統僅僅是模仿人類智能

基於模型設計的AI：虛擬傳感器建模

2026-05-25

本次網絡研討會展示了一種在單一環境中設計、訓練、驗證、壓縮和部署基於AI的虛擬傳感器模型到嵌入式處理器的工作流程。通過實際案例，演示如何將AI模型集成到系統級設計中，並針對性能、資源和部署約束進行驗證。

將AI模型集成到Simulink中進行系統級仿真和驗證
應用形式化驗證技術評估神經網絡行為

喬治·霍茲表示，編碼代理將成為軟件開發中“代價最高的錯誤之一”

2026-05-25

程序員喬治·霍茲警告説，AI編碼代理將成為行業代價最高的錯誤之一。經過六個月的測試，他認為LLM能快速生成原型，但在細節上漏洞百出，產生越來越難發現的錯誤。他的觀點反映了AI社區在LLM角色上的深刻分歧。

喬治·霍茲警告AI編碼代理可能成本高昂。
六個月測試顯示LLM在細節上失敗，產生隱蔽錯誤。

AI模型常給出正確答案卻指向錯誤來源

2026-05-25

北京大學研究人員發現，像GPT和Gemini這樣的領先AI模型在文檔分析中經常引用不支持的文本段落，即使答案正確，引用的證據也常常錯誤。他們稱之為“歸因幻覺”，對法律和醫學等監管領域構成風險。新的CiteVQA基準是首個系統測試該問題的工具。

AI模型在文檔分析中常引用不支持的證據，導致“歸因幻覺”
即使答案正確，引用的文本段落也常錯誤

“VLA和世界模型都不是終局，會有物理世界獨有的模型” | 螞蟻靈波沈宇軍@AIGC2026

2026-05-25

在2026中國AIGC產業峯會上，螞蟻靈波首席科學家沈宇軍提出，大模型在數字世界享受了互聯網數據紅利，但機器人物理世界數據仍是空白。他認為VLA和世界模型都不會是具身智能的終局，未來將融合為物理世界獨有的模型。螞蟻靈波定位做“通用大腦”，並強調空間感知能力的重要性。預計2028年左右，人人都能為機器人提供數據，迎來具身智能的ChatGPT時刻。

大模型依賴互聯網數據紅利，但機器人物理世界數據存在巨大空白。
VLA和世界模型都不會是終局，未來將融合為物理世界獨有的模型。

克勞德的Mythos AI模型可能給您的資金帶來安全問題

2026-05-25

Anthropic開發的Claude Mythos AI模型能夠自動發現軟件漏洞，既可用於防禦也可能被濫用於攻擊，從而加速網絡犯罪。監管機構和金融部門正評估其風險，專家警告AI可能將網絡犯罪從技能問題轉變為規模問題。

Claude Mythos是一款具備強大編碼和網絡安全能力的高級AI模型，能夠識別軟件漏洞。
該技術具有雙重用途，既能幫助防禦者修復漏洞，也可能被攻擊者利用。

DeepSeek V4還能更省！新工具緩存命中率高達99.82%，2折穩定到手

2026-05-25

DeepSeek V4系列發佈一個月後，開源社區推出Reasonix工具，專為DeepSeek設計，通過優化緩存機制將賬單成本降低至原來的五分之一左右。該工具緩存命中率高達99.82%，實現4億+token從61美元降至12美元。

Reasonix是專為DeepSeek打造的終端編碼工具，核心目標是降低使用成本。
通過緩存優先循環、工具調用修復和自動上下文壓縮等機制，實現長會話緩存命中率超90%。

圖靈獎得主領銜，中國大模型第一梯隊集結！2026智源大會，看懂AI下一程

2026-05-25

2026年智源大會將於6月12日至13日在北京中關村國際創新中心舉行，匯聚圖靈獎得主、中國大模型領軍企業及全球頂尖學者，聚焦智能體與世界模型兩大趨勢，探討AI從數字世界走向物理世界的路徑。大會設有25場論壇，首次推出智能體聽會夥伴，並新增AI Native教育、Token經濟等論壇。

2026智源大會於6月12-13日在北京舉行，圖靈獎得主領銜，中國大模型第一梯隊齊聚。
大會聚焦智能體與世界模型兩大技術趨勢，探討AI進入物理世界。

語義感知引導的無人機探索：用於語言條件3D室內建圖

2026-05-25

提出SAGE系統，結合CLIP實現開放詞彙探索，在保持覆蓋的同時優先語義前沿。模擬中物體發現優於FALCON，探索速度比FTU快13.7倍，並在真實飛行中驗證。

SAGE系統基於FALCON探索器，集成CLIP實現語義感知
在Matterport3D模擬中，SAGE在物體發現上優於FALCON和純語義方法

$\pi_0$-EqM：閉環視覺-語言-動作控制的均衡匹配

2026-05-25

研究人員提出π0-EqM，用均衡匹配解碼器替換π0中的流匹配專家，在相同計算預算下顯著提升機器人操作成功率。實驗表明，在19個任務上平均成功率從40.4%提升至50.2%，並發現任務相關的殘差與成功率之間的非單調關係，稱為“平穩性-可執行性差距”。該方法引入能量視角，為跨任務和跨本體的組合動作生成提供新思路。

π0-EqM將流匹配解碼器替換為均衡匹配，不改動上游VLA架構。
在300步預算下，RoboTwin平均成功率提升近10個百分點，LIBERO-10達87.0%。

Agentic-VLA: 面向視覺-語言-動作模型的高效在線自適應框架

2026-05-25

Agentic-VLA提出了一種智能體訓練框架，通過自適應獎勵合成、語言引導探索和經驗記憶三大創新，使VLA模型能夠在部署中高效在線自適應。在LIBERO基準測試中，長時任務提升12.3%，單樣本學習提升28.5%，跨任務遷移從0%提升至31.2%，收斂速度提升2.4倍。在RoboTwin 2.0雙機械臂基準上也保持優勢。

提出自適應獎勵合成，動態生成獎勵函數，將複雜任務分解為可學習的子目標。
引入語言引導探索，利用評判模型提供結構化探索指導。

注視行為註釋工具包（GBAT）：用於自動註釋兒童-照顧者互動中自我中心眼動和視頻數據的AI工具包

2026-05-25

視頻記錄兒童與照顧者的互動有助於研究自然行為中的注意力動態，但手動註釋耗時。GBAT是一個基於深度學習的工具包，可自動執行視頻同步、注視目標註釋和姿勢/手部動作分類，提高大規模發育研究的效率。

GBAT自動完成三個關鍵預處理步驟：事後視頻同步、半自動注視目標註釋以及姿勢/手部動作分類。
它減少了兒童-照顧者互動視頻的手動註釋時間。

VideoOdyssey：超長上下文與全模態視頻理解基準

2026-05-25

VideoOdyssey是一個專為超長時間上下文和全模態視頻理解設計的基準，平均視頻時長109分鐘，覆蓋11個領域54個子類別，通過連續證書長度衡量認知負荷，並設有5個粒度級別。評估表明當前多模態大模型在持續推理、細粒度感知和非語言全模態理解方面存在瓶頸。

引入連續證書長度概念，衡量模型在超長視頻中的推理能力。
包含視覺子集（VideoOdyssey-V）和音視頻子集（VideoOdyssey-AV）。

視而不見？視覺語言基準真的測試了視覺能力嗎？

2026-05-25

該研究質疑視覺語言模型（VLM）在基準測試中的高分是否真正反映其視覺理解能力。實驗發現，移除大量圖像令牌僅輕微降低模型性能，表明模型對細粒度視覺證據的敏感性不足。通過全局退化、局部遮擋、問題改寫、答案空間擴展及決策層分析，結合層視覺令牌幾何分析，研究者揭示模型預測在內部支持減弱時仍可能保持不變，且視覺令牌在深層中趨於相似。結論是當前基準無法可靠評估VLM的細粒度視覺基礎。

移除大量圖像令牌對模型性能影響甚微，質疑基準測試的視覺依賴。
模型雖使用視覺輸入，但對細粒度視覺證據的喪失不敏感。

GEM-4D：用於機器人操作的幾何增強視頻世界模型

2026-05-25

GEM-4D是一種幾何增強的視頻世界模型，通過注入密集的4D對應監督來提升機器人的操作能力。該模型在訓練時從預訓練的幾何基礎模型中提取知識，從而同時捕捉外觀和幾何結構，且不增加推理成本。此外，引入逆向動力學模塊，將一致的視頻序列轉化為可執行的機器人軌跡。實驗顯示，GEM-4D在視頻預測和幾何一致性上達到最優，並將真實世界操作成功率從61%提升至81%。

GEM-4D通過密集4D對應監督增強視頻世界模型的幾何一致性。
該模型保持單流架構，無需額外推理成本。

當AI在信仰問題上站隊：AI介導的信仰指導中持續存在的非對稱性

2026-05-25

一項新研究發現，大型語言模型（LLMs）在回答宗教轉換問題時表現出持續的非對稱性。模型傾向於支持加入天主教、巴哈伊教和錫克教，同時勸阻放棄這些信仰，而對無神論者、不可知論者和耶和華見證人則相反。該研究測試了20個模型在182對宗教配對中的表現，結果具有可重複性。研究使用人類驗證的“LLM作為法官”框架，發現所有模型均顯示非對稱性，其中Grok 4.20最為顯著。這些偏差如果大規模部署可能產生現實影響。

大型語言模型在宗教轉換建議上存在系統性偏差，偏好某些宗教而貶低其他。
研究測試了20個商業和開源模型，涵蓋182對宗教組合，非對稱性可重複。

AI能猜出你知道什麼？大型語言模型從溝通日誌中評估人類領域知識的性能比較

2026-05-25

研究評估了七個大型語言模型（包括Gemini、Claude和GPT系列）從長期Slack日誌中推斷個人領域知識的能力。分析27,188條來自43名用户的消息，對比零樣本估計與27名參與者的自我報告技能評分。Gemini 2.5 Flash表現最佳（MAE 21.13%），而GPT模型誤差較大。研究發現，估計準確性僅微弱依賴於消息數量，表明更多文本並不能保證更好的推斷。該結果展示了自動專業知識映射的可行性和當前侷限性，強調需要隱私保護部署和更豐富的結構感知知識表示。

員工常難以識別“誰知道什麼”，導致組織效率損失
Gemini 2.5 Flash在零樣本評估中取得最低誤差（MAE 21.13%）

圖對齊拓撲作為接地檢測的歸納偏置

2026-05-25

大型語言模型（LLM）優化於生成分佈上合理的續接，而非明確驗證生成命題是否源於源文檔。這一歸納偏置促進了泛化，但未編碼響應是否相對於參考文本接地。現有幻覺檢測方法通過檢索增強、自一致性或聲明驗證改善事實性，但通常不直接學習對齊拓撲。本文構建參考信息與LLM輸出之間的對齊二分圖，並訓練圖神經網絡（GNN）通過消息傳遞建模對齊結構。該方法在四個不同的幻覺和問答數據集上取得了最先進的結果，優於包括GPT-4o在內的所有比較方法。

大型語言模型缺乏接地驗證，限制了在臨牀決策等高風險領域的使用。
現有方法不直接學習對齊拓撲結構。

可學習性感知的擴散語言模型微調

2026-05-25

為提高擴散語言模型(DLM)的推理能力，研究人員提出LIFT算法，通過感知不同時間步的信息可學習性來優化微調過程，在六個推理基準上超越現有方法，並在AIME'24和AIME'25上取得高達3倍的相對提升。

標準SFT忽視可學習性，可能損害擴散語言模型性能。
LIFT根據掩碼程度動態調整學習難度，先易後難。

它們能走多遠？使用大型語言模型進行在線影響力紅隊測試

2026-05-25

本研究提出一種紅隊測試框架，用於評估開源大型語言模型在政治爭議話題上的表達範圍（Overton Window），並量化簡單自然語言越獄如何擴展該範圍。研究發現，開源模型普遍更傾向於生成左傾內容，Overton Window隨模型規模增大而收縮，且存在顯著的地區差異。越獄效果在不同模型家族間差異明顯，該框架有助於審計模型的政治可控性並設計更強的防禦措施。

引入Overton Window概念衡量LLM可表達的政治觀點範圍。
開源LLM在社交媒體內容生成上存在系統性左傾偏差。

豪薩語和豐貝語文本與語音資源調查：NLP開發的可用性、質量與差距

2026-05-25

本調查系統梳理了豪薩語（約8000萬-1億母語者）和豐貝語（貝寧約200萬人使用）的公開文本與語音資源。研究發現豪薩語在新聞、百科和教育領域擁有更豐富的文本資源，而豐貝語儘管文本資源有限，但近年學術語音數據收集項目有所增長。兩種語言均被納入Masakhane基準測試。報告提出了任務特定建議，並指出了關鍵缺口，如豐貝語領域多樣化文本和豪薩語專用語音庫。

豪薩語文本資源多樣性優於豐貝語，覆蓋新聞、百科和教育領域。
豐貝語近年來在學術語音數據收集方面取得進展。

張量緩存：用於Transformer的基於驅逐條件的關聯記憶

2026-05-25

張量緩存是一種兩層級緩存架構，結合滑動窗口注意力作為一級緩存（L1）和固定大小的外積快速權重記憶作為二級緩存（L2），L2由窗口驅逐的KV對填充。該方法通過線性注意力恆等式實現高效讀取，並引入可學習的門控融合L1和L2輸出。實驗表明，張量緩存在記憶-質量邊界上優於有狀態基線。

提出張量緩存，一種兩層級緩存機制，結合精確局部注意力和壓縮記憶。
二級緩存使用外積快速權重記憶，僅由滑動窗口驅逐的KV對填充。

大型語言模型何時需要推理？基於熵變相變的動力系統視角

2026-05-25

研究表明，鏈式思維推理並非總是有益，早期熵動力學可用於判斷何時需要推理。作者提出EDRM框架，通過熵軌跡自適應選擇推理策略，在15個基準測試和4個模型上實現41-55%的token減少同時提升準確率。

鏈式思維推理在事實性和開放式任務中可能帶來邊際收益甚至負收益
推理是一種動態解碼狀態，早期熵降低是其可靠信號

讀出捷徑：位置數字複製主導小語言模型的算術思維鏈讀出

2026-05-25

研究發現，小語言模型在進行算術推理時，思維鏈（CoT）提示的步驟順序並不重要，模型實際上是通過複製答案分隔符前的最後一個數字來得出答案，而非依賴邏輯推理。這種位置性捷徑佔模型準確率的絕大部分，且即使中間推理正確，錯誤的尾數也會導致答案錯誤。不同模型表現有差異，但該現象普遍存在，對基於CoT的監督方法提出了挑戰。

小語言模型在算術任務中依賴位置性數字複製捷徑，而非邏輯推理步驟。
複製機制佔模型準確率的89-92%，且優先於實際推理。

FuRA：基於譜預條件的全秩參數高效微調

2026-05-25

FuRA是一種新型全秩參數高效微調方法，通過譜預條件保留預訓練的穩健特徵，在LLM和VLM微調中超越全參數微調和LoRA，其4位量化變體QFuRA也優於QLoRA。

全微調和LoRA等現有方法忽略預訓練譜結構，導致噪聲梯度擾動特徵
FuRA基於塊張量列車分解，固定預訓練SVD基，僅優化緊湊核心和奇異值

FusionSense：三階段近傳感器學習實現運行時自適應多模態邊緣智能

2026-05-25

FusionSense是一種面向能源受限自主邊緣系統的融合感知智能框架。通過三階段訓練流程（服務器端融合模型學習、濾除安全標籤量化模態必要性、注入近傳感器預測壓縮邊緣融合模型），在運行時聯合減少計算與通信開銷。在SynDrone雙模態（RGB+深度/激光雷達）測試中，任務質量保持的同時實現了高達33倍的能量節省（1%感興趣區域出現率），質量損失減少92.3%。

提出三階段近傳感器學習方法，服務器端訓練融合模型後生成濾除安全標籤，指導邊緣側模態選擇。
運行時決策層聯合優化計算與傳輸，傳感器數量擴展時複雜度線性增長。

PathCal：狀態感知的反思標記校準以實現高效推理

2026-05-25

大型推理語言模型（LRM）在推理過程中會產生包含“等等”、“但是”、“或者”等反思標記的長鏈思維軌跡。研究表明這些標記的功能角色和影響時機各不相同。PathCal是一種無需訓練的解碼控制器，通過區分標記類型並在局部不確定狀態進行干預，在保持或提高精度的同時減少生成長度，實現更好的效率-性能平衡。

反思標記如“等等”、“但是”、“或者”具有不同的功能角色，且其影響在模型穩定推理前最為顯著。
PathCal是一種無需訓練的推理路徑校準方法，通過軟重平衡標記對數幾率來干預不確定狀態。

確定性地平線：將不可能性結果作為可信AI系統的設計規範

2026-05-25

該論文將圖靈、阿羅和無免費午餐等基本極限轉化為設計規則，提出了確定性地平線這一概念：由架構決定的精度上限，在關鍵推理深度後無法通過訓練提升。研究測量了12種Transformer架構的地平線值（19-31），並通過信息論證明了超過該界限後精度呈超指數衰減。此外，論文還涵蓋了偏好學習、多階段檢索、真實拍賣和零知識驗證等領域，構建了16個規範，每個規範包含可計算邊界、量化違規成本和建設性設計規則。

確定性地平線是由層數和嵌入寬度計算的精度上限，超出後訓練無效。
在12種Transformer架構中，地平線測量值在19到31之間，微調最多恢復4個百分點。

ImProver 2：用於神經符號證明優化的迭代自改進語言模型

2026-05-25

ImProver 2是一個神經符號框架，用於自動化Lean 4中的證明優化。它通過數據高效的專家迭代流水線和暴露形式結構與輕量級非正式抽象的腳手架，訓練出7B參數的模型，在性能上超越同系列大模型，與中端前沿模型競爭。研究表明，通過適當的腳手架和訓練，小模型也能有效重構研究級證明。

ImProver 2結合專家迭代和神經符號腳手架，高效優化形式化證明。
7B參數模型優於同系列大模型，與中端前沿模型競爭。

每個成功目標的能量：面向智能體AI系統的目標級能量核算

2026-05-25

新研究提出A-LEMS框架，以每個成功目標的能量（EpG）而非每次推理來衡量AI能耗。實驗表明，智能體工作流平均能耗是線性基線的4.33倍，編排結構是主要驅動因素，但在工具增強任務中可能更節能。

當前AI能耗基準測量每次推理的能量，對於涉及多步編排、工具調用和重試的智能體系統並不適用。
A-LEMS引入每個成功目標的能量（EpG）和編排開銷指數（OOI），以準確衡量智能體工作流的能耗成本。

RMA：面向研究級數學問題的智能系統

2026-05-25

研究數學智能體（RMA）是一個專為研究級數學問題設計的自動化推理框架，通過多代理協作和迭代優化，在First Proof基準上解決了10個問題中的8個，超越了GPT-5.2R和Aletheia等強基線。

RMA將研究級證明求解分解為問題分析、文獻搜索、公平比較、知識庫構建和證明驗證等專門模塊。
採用初始化器、提出者和驗證者三種智能體協同工作，通過共享結構化記憶進行多輪迭代。

BOHM：複合AI系統的零成本層次歸因方法

2026-05-25

本文提出BOHM，一種從複合AI系統路由權重中提取層次歸因樹的方法，無需額外成本或訪問組件內部，提供多分辨率歸因，與SHAP高度相關但成本極低。

BOHM利用系統已有的路由權重構建歸因樹，零邊際成本。
在多個基準測試中，BOHM與SHAP的Kendall tau相關性高達0.928，而SHAP需要9000倍的計算量。

Claude 通過率不到4%，SaaS-Bench撕碎了Computer-Use的「全自動辦公」幻想

2026-05-25

UniPat AI 發佈 SaaS-Bench 評測，Claude 等主流大模型在真實辦公任務中完全通過率最高僅 3.8%，AI 全自動辦公遠未落地。

SaaS-Bench 評測顯示，最強模型 Claude Opus 4.7 完全通過率僅 3.8%。
93.4% 的任務跨越至少兩個應用，97.3% 的文本任務操作步數超過 100 步。

華為具身大腦一號位創業，用認知科學造世界模型，獲億元級融資

2026-05-25

具腦磐石由前華為雲AI算法創新Lab主任朱森華創立，致力於用認知神經科學構建認知世界模型，推動具身智能邁向2.0時代。公司近期完成新一輪億元級融資。

具腦磐石提出認知世界模型，融合認知神經科學與主動推理理論
公司創始人朱森華曾任華為雲AI算法創新Lab主任，被譽為'華為具身大腦一號位'

全球AI擴散：2026年第一季度趨勢與見解 [PDF]

2026-05-25

微軟研究發佈的這份PDF報告分析了2026年第一季度全球人工智能擴散的趨勢，涵蓋關鍵洞察和數據，但當前無法直接提取文本內容。

報告來自微軟研究，聚焦2026年Q1全球AI擴散
內容包括趨勢分析和關鍵見解

StepFun發佈StepAudio 2.5 Realtime：端到端語音模型，具備角色扮演專用RLHF和副語言理解

2026-05-24

上海AI實驗室StepFun發佈StepAudio 2.5 Realtime，一款端到端實時語音大語言模型，支持自定義角色。通過WebSocket API連接，支持中英文。在2026年4月的五項基準測試中均排名第一，人類評估得分80.41，副語言理解得分82.18。

StepAudio 2.5 Realtime是端到端實時語音LLM，支持自定義角色。
採用百萬級角色數據增強和角色扮演專用RLHF，保持角色一致性。

引用阿爾敏·羅納赫：AI生成的Issue報告令人沮喪

2026-05-24

阿爾敏·羅納赫批評用户使用AI工具重寫問題報告，導致內容失真、結論不準確。他呼籲提交簡潔的人類觀察記錄。

用户將觀察到的現象通過AI改寫後提交Issue，造成信息混亂。
AI生成的結論往往自信卻錯誤，包含虛假的最小化復現步驟和建議。

工具

教皇利奧譴責推動人工智能崛起的“權力文化”

2026-05-25

教皇利奧發佈通諭，呼籲對人工智能進行“解除武裝”，並警告該技術必須受到最嚴格的倫理約束。他還為教會長期延遲譴責奴隸制道歉，提及數字經濟帶來的“新形式奴隸制”。

教皇利奧譴責驅動人工智能快速發展的‘權力文化’
要求對人工智能進行‘解除武裝’並施加最嚴格的倫理限制

我看到了Android Auto的未來，現在Google讓我對自己的車感到恐懼

2026-05-25

Google即將推出的Android Auto更新帶來了重新設計的界面，採用Material 3 Expressive設計、自定義小部件、沉浸式導航以及更深入的Gemini集成。作者的演示讓他印象深刻，並期待今年晚些時候的更新。

新的Android Auto界面採用Material 3 Expressive設計，具有三面板佈局和自定義小部件。
Google Maps獲得沉浸式導航，顯示詳細的3D建築和地形。

OpenAI、Grupo Folha 和 Grupo UOL 宣佈戰略內容合作

2026-05-25

OpenAI 與巴西兩大傳媒集團合作，將可信的新聞報道引入 ChatGPT，強調來源標註和透明度。

OpenAI 與 Grupo Folha 和 Grupo UOL 合作，將巴西新聞整合到 ChatGPT 中。
該合作強調對新聞內容的來源標註和透明度。

AI新聞業：錯誤與爭議實時追蹤

2026-05-24

這篇報道介紹了新聞業中AI應用的最新錯誤事件，並提供了一個實時追蹤工具，幫助公眾和媒體從業者瞭解AI在新聞生成中的重大失誤及其影響。

AI在新聞業中仍頻繁出現事實性錯誤和偏見問題。
該實時追蹤器列出了多起AI生成的虛假新聞和誤導性內容。

marpy.io：專為Python開發者打造的AI編碼平台

2026-05-24

marpy.io是一款基於瀏覽器的IDE和AI編碼助手，專為Python生態系統（Flask、FastAPI、Django）設計。它幫助開發者從想法到部署應用，無需處理基礎設施、膠水代碼或半成品的JS工具。支持Python本地自動補全、重構和AI生成的模塊，讓開發者能更快地原型設計、迭代和發佈生產級Python應用。

marpy.io是專為Python棧構建的基於瀏覽器的IDE和AI編碼助手。
支持Flask、FastAPI和Django，提供Python原生的自動補全和重構功能。

機械人

谷歌Deepmind的AlphaProof Nexus僅花幾百美元就解決了幾十年未解的數學難題

2026-05-25

谷歌Deepmind的AlphaProof Nexus系統自主解決了九個開放的愛爾迪什問題，包括兩個困擾數學家56年的難題，每個問題的推理成本僅需幾百美元。與OpenAI的自然語言方法不同，該系統使用Lean編譯器自動驗證每一步證明。不過，整體成功率僅為2.5%。

AlphaProof Nexus自主解決了九個開放的愛爾迪什問題，其中兩個已存在56年。
每個問題的推理成本僅為幾百美元。

如果你用AI寫作，我會找到你並殺了你

2026-05-25

作者Sam Kriss以辛辣諷刺的筆觸，批判了AI生成內容對真實人類表達的侵蝕。通過尋找餐飲服務商的經歷，揭示了AI寫作如何製造出空洞、雷同的文本，並指出AI即使進步到能寫出好文章，單一化的聲音也是一種噩夢。作者強調AI寫作本質上是無意義的填充物，容易識別，並警告那些依賴AI寫作的人終將被發現。文章還提及AI在解決數學難題上的成就，但認為在人類情感表達領域它無能為力。

AI寫作空洞雷同，缺乏真實信息與人類聲音。
即使AI寫作質量提升，單一化語言風格仍是文化噩夢。

政策

大學生不想要你的人工智能 [視頻]

2026-05-25

一段視頻討論大學生對人工智能的冷淡態度，可能反映了年輕一代對AI技術的懷疑或缺乏興趣。

視頻標題暗示大學生對AI不感興趣
可能反映了年輕一代對AI的懷疑態度

Linus Torvalds 將對“無意義的拉取請求”採取更強硬態度

2026-05-25

Linux 內核負責人 Linus Torvalds 表示，他將對開發者提交的無關緊要的拉取請求（其中一些來自 AI）進行更嚴格的審查，尤其是在發佈候選階段後期。他指出龐大的發佈候選版本不利於長期穩定性。

Linus Torvalds 批評 rc5 版本過大，包含許多瑣碎的修復。
部分拉取請求由 AI 代碼審查觸發，導致無謂的變更。

凱文·奧利裏想在猶他州建設AI數據中心，部分居民不滿

2026-05-25

著名投資人凱文·奧利裏計劃在猶他州博克斯埃爾德縣建設一個7.5吉瓦的AI數據中心，該項目類似他在阿爾伯塔省的計劃。儘管縣委員會已批准，但居民擔心環境影響，特別是對已經萎縮的大鹽湖的生態影響。奧利裏承諾透明開發並帶來經濟效益，但反對者要求公投。

凱文·奧利裏計劃在猶他州博克斯埃爾德縣建設7.5吉瓦AI數據中心，佔地面積1萬至1.3萬英畝。
項目面臨居民強烈反對，主要擔憂環境影響，尤其是對大鹽湖脆弱生態系統的破壞。

血管內介入機器人遠程遙操作：系統綜述

2026-05-25

本系統綜述評估了遠程遙操作血管內介入機器人的技術可行性、通信基礎設施和臨牀結局。在2501篇初始文獻中納入16項研究，發現機械或電磁驅動的遙操作導管和導絲可在長達7000公里的距離內導航，網絡延遲控制在30-163毫秒的臨牀可接受範圍內。小規模人體試驗顯示100%的手術成功率，但多數證據來自動物或模型研究。綜述指出，該技術有望減少輻射暴露、擴大患者就醫機會，並優化資源分配。未來需在低收入國家開展研究，並進行多中心臨牀試驗以驗證安全性和有效性。

遙操作導管和導絲可在高達7000公里距離內導航，延遲30-163毫秒
小規模人體試驗手術成功率100%，但主要證據來自動物或模型

不再有人想要AI了【視頻】【12分鐘】

2026-05-25

該視頻探討了人工智能領域興趣減退的現象，分析了可能的原因和未來的影響。

公眾對AI的熱情正在下降
視頻分析了興趣減退的多重原因

分析顯示：蘇格蘭“綠色數據中心”政策忽視了人工智能的排放影響

2026-05-24

蘇格蘭一家慈善機構警告稱，政府吸引“綠色數據中心”的政策可能忽視了人工智能帶來的大量碳排放，因為該政策在ChatGPT發佈前就已制定。

該政策於2022年制定，早於ChatGPT發佈。
慈善機構“保護蘇格蘭鄉村行動”進行了分析。

研究

AI並沒有讓軟件變糟，是人本身

2026-05-25

本文認為，將軟件質量下降歸咎於AI是錯誤的。實際上，開發者長期以來已經接受了平庸、浪費和缺乏匠心的做法。AI只是加速了已有的不良實踐。

AI出現前，軟件質量標準就已下降
AI只是加速了已存在的糟糕開發習慣

適用於腿式機器人的四種簡單本體感受估計器

2026-05-25

論文提出四種利用足地接觸減少IMU漂移的腿式機器人狀態估計器，包括接觸輔助不變擴展卡爾曼濾波器、因子圖、固定滯後平滑器等，並已在GTSAM和ROS2中開源實現。

腿式機器人的IMU存在漂移，但足地接觸可輔助校正。
開發了四種複雜度遞增的狀態估計器，從EKF到固定滯後平滑器。

聯合空間約束下經過驗證的任務空間運動規劃

2026-05-25

研究人員提出一種方法，在關節限制下認證可達笛卡爾步長，在對抗場景中實現零違規和100%目標到達。

標準Bug2規劃器在6-11%的步驟中違反關節限制，並在多達18%的場景中無法到達目標。
新方法使用S過程和半定規劃來計算認證步長。

會問問題的機器人：通過定向解釋恢復錯位的獎勵函數

2026-05-25

機器人從演示中學習獎勵函數時，演示常常不完善，導致某些重要特徵（即任務相關行為方面）未被充分指定，從而在部署時出現行為錯位。本文提出一種框架，通過分析演示中特徵值的變異性來檢測未充分指定的特徵（變異小表示指定良好，變異大表示指定不足）。機器人隨後用自然語言解釋其不確定的特徵，並主動請求針對性的糾正演示。在模擬桌面操作和真實Franka機器人用户研究中，定向解釋引導的查詢顯著優於隨機查詢和被動數據收集。

機器人學習獎勵函數時，不完善的演示可能導致重要特徵未被充分指定，引發部署時的行為錯位。
提出一種檢測未充分指定特徵的方法：特徵在演示中變異小則指定良好，變異大則指定不足。

AI可解釋性是一項革命性技能

2026-05-25

本文探討了開源AI模型內部概念空間的侷限性，指出許多對社會運動和哲學至關重要的概念缺失。作者引入軟提示蒸餾技術，僅用128KB數據即可植入新概念，強調這關乎AI可控性及對心智理解的深遠意義。

開源模型Qwen3-8B僅有約65,000個概念，缺失交叉性、監獄廢除等關鍵術語。
軟提示蒸餾技術無需修改權重，即可在模型中添加新概念。

AI已接管開源

2026-05-25

TrapDoor加密貨幣竊取器通過供應鏈攻擊感染了npm、PyPI和Crates.io上的36個惡意包，目標為加密貨幣、DeFi、AI和安全領域的開發者。

TrapDoor竊取器通過npm、PyPI和Crates.io上的36個包分發。
針對從事加密貨幣、DeFi、AI和安全項目開發的開發者。

芯片

AI MOD音樂重製：32位96kHz高清體驗

2026-05-24

Quinlight Audio是一款支持MOD/S3M/XM/IT格式的追蹤音樂播放器和重製工具，利用AI引擎（AudioSR、LavaSR、FLowHigh、AP-BWE）對樣本進行實時重製，並提供A/B對比功能。它採用64位浮點混合器、多引擎共識算法（轉子流形上的Karcher均值）和各向異性插值，輸出32位浮點96kHz音頻。支持從壓縮包直接打開模塊，導出FLAC或AAC，並提供CLI批量處理。

播放並重制追蹤音樂格式，支持AI引擎提升樣本質量至48kHz
多引擎共識算法抑制幻覺，通過轉子流形上的Karcher均值合併頻譜

AI 日報

今日重點

教皇利奧在人工智能時代呼籲“深刻的人性”

Pitch Agent

2026年AI代理與MCP服務器最佳身份驗證平台

ServiceNow的人工智能應用

AgentSlice – 讓AI編程代理在編輯前先詢問

展示 HN：我為 AI 編碼時代構建的調試挑戰

京東JoyInside戴文軍：AI的終極形態不是聊天，是融入你家每一件物品丨AIGC2026

ReplylessAI推出Sequences功能：從AI郵件應用直接發送外聯序列

HTML Deployer：一鍵將AI生成的HTML轉化為在線網站

我使用AI解構了一個從未接觸過的遺留服務

阿拉巴馬高中與豐田合作，培養不易被自動化取代的學生崗位

Google Antigravity 2.0：完整開發者指南（I/O 2026）

AI 的基礎雲：為何專用架構定義智能的未來

WorkOS發佈auth.md：基於OAuth標準的開放智能體註冊協議

Show HN：Cordium – 開源沙箱平台，實現無密碼基礎設施訪問

MashuPack：將代碼庫打包成單一文本文件，為ChatGPT和Claude優化上下文

Curlo：通過描述聲音來本地搜索音效或音樂

AI讓添加功能更快——那麼為什麼不再加一個？

Show HN: 將我的新聞通訊移植到 MCP – 你決定何時以及多久接收一次

我的AI編碼流程：從消耗token到確定性構建

PIMbot：一種用於多機器人強化學習對抗性操控的自適應攻擊框架

擴展深度事件視覺里程計：稀疏點雲導出

EVE-Agent：可驗證證據的自我進化代理

SciAtlas：用於自動化科學研究的大規模知識圖譜

Show HN：實時AI音樂序列代理

Pi編程代理

Lynote Humanize Text – 開源AI文本人性化工具包

未來推理將吃掉70%算力，30%留給訓練丨硅谷投資人張璐@AIGC2026

AI週刊第495期：馬斯克、扎克伯格通過三通電話扼殺了特朗普的AI安全行政令

駕馭、腳手架與值得釐清的AI智能體術語

AI用於設計需要解決方案

預測AI對就業的影響

防止AI代理執行破壞性終端命令

《瘋狂之屋》——厄斯伯恩恐怖電腦遊戲

使用 Playwright MCP 和 Claude Desktop 構建類似 Claude Cowork 的瀏覽器代理

教皇利奧十四世通諭發佈之際，Anthropic聯合創始人稱AI模型表現出內省跡象

基於模型設計的AI：虛擬傳感器建模

喬治·霍茲表示，編碼代理將成為軟件開發中“代價最高的錯誤之一”

AI模型常給出正確答案卻指向錯誤來源

“VLA和世界模型都不是終局，會有物理世界獨有的模型” | 螞蟻靈波沈宇軍@AIGC2026

克勞德的Mythos AI模型可能給您的資金帶來安全問題

DeepSeek V4還能更省！新工具緩存命中率高達99.82%，2折穩定到手

圖靈獎得主領銜，中國大模型第一梯隊集結！2026智源大會，看懂AI下一程

語義感知引導的無人機探索：用於語言條件3D室內建圖

$\pi_0$-EqM：閉環視覺-語言-動作控制的均衡匹配

Agentic-VLA: 面向視覺-語言-動作模型的高效在線自適應框架

注視行為註釋工具包（GBAT）：用於自動註釋兒童-照顧者互動中自我中心眼動和視頻數據的AI工具包

VideoOdyssey：超長上下文與全模態視頻理解基準

視而不見？視覺語言基準真的測試了視覺能力嗎？

GEM-4D：用於機器人操作的幾何增強視頻世界模型

當AI在信仰問題上站隊：AI介導的信仰指導中持續存在的非對稱性

AI能猜出你知道什麼？大型語言模型從溝通日誌中評估人類領域知識的性能比較

圖對齊拓撲作為接地檢測的歸納偏置

可學習性感知的擴散語言模型微調

它們能走多遠？使用大型語言模型進行在線影響力紅隊測試

豪薩語和豐貝語文本與語音資源調查：NLP開發的可用性、質量與差距

張量緩存：用於Transformer的基於驅逐條件的關聯記憶

大型語言模型何時需要推理？基於熵變相變的動力系統視角

讀出捷徑：位置數字複製主導小語言模型的算術思維鏈讀出

FuRA：基於譜預條件的全秩參數高效微調

FusionSense：三階段近傳感器學習實現運行時自適應多模態邊緣智能

PathCal：狀態感知的反思標記校準以實現高效推理

確定性地平線：將不可能性結果作為可信AI系統的設計規範

ImProver 2：用於神經符號證明優化的迭代自改進語言模型

每個成功目標的能量：面向智能體AI系統的目標級能量核算

RMA：面向研究級數學問題的智能系統

BOHM：複合AI系統的零成本層次歸因方法

Claude 通過率不到4%，SaaS-Bench撕碎了Computer-Use的「全自動辦公」幻想

華為具身大腦一號位創業，用認知科學造世界模型，獲億元級融資

全球AI擴散：2026年第一季度趨勢與見解 [PDF]

StepFun發佈StepAudio 2.5 Realtime：端到端語音模型，具備角色扮演專用RLHF和副語言理解

引用阿爾敏·羅納赫：AI生成的Issue報告令人沮喪

教皇利奧譴責推動人工智能崛起的“權力文化”

我看到了Android Auto的未來，現在Google讓我對自己的車感到恐懼

OpenAI、Grupo Folha 和 Grupo UOL 宣佈戰略內容合作

AI新聞業：錯誤與爭議實時追蹤

marpy.io：專為Python開發者打造的AI編碼平台

谷歌Deepmind的AlphaProof Nexus僅花幾百美元就解決了幾十年未解的數學難題