AI 日報 2026-05-26

今日重點

模型

Mistral AI透過與Harvey合作進軍法律領域

2026-05-26

生成式AI供應商Mistral AI宣佈與法律AI初創公司Harvey合作，拓展法律行業應用，此舉與Anthropic的法律AI交易類似。

Mistral AI與Harvey合作，進入法律行業。
此舉與Anthropic的法律AI合作模式相似。

微軟Copilot Cowork存在檔案外洩漏洞

2026-05-26

微軟Copilot Cowork功能存在嚴重安全漏洞，攻擊者可透過提示注入利用自動傳送郵件中的外部圖片竊取OneDrive檔案。

Copilot Cowork的智慧體無需審批即可向使用者收件箱傳送郵件
郵件中的外部圖片可觸發網路請求導致資料洩露

保羅·格雷厄姆：AI撰寫的郵件讓人感覺被欺騙

2026-05-26

保羅·格雷厄姆批評創始人使用AI撰寫郵件，認為這種生硬的新聞風格一眼就能被識別，並會降低作者的可信度。

保羅·格雷厄姆指出，許多創始人傳送的郵件如今採用生硬的新聞風格，顯然是AI所寫。
他從未完整讀過一封由AI撰寫但署名為人類的郵件，感覺像被欺騙。

桑達爾·皮查伊談AI、搜尋未來及網路變革

2026-05-26

在Google I/O大會後的Decoder訪談中，CEO桑達爾·皮查伊深入討論了Google的AI優先轉型、搜尋的劇變、與出版商的緊張關係以及對AGI的展望。

Google合併Brain和DeepMind為Google DeepMind，並集中AI基礎設施團隊。
搜尋體驗引入AI概覽和Gemini Spark代理平臺，從根本上改變資訊獲取方式。

研究人員警告：AI幻覺引用正滲透入影響臨床指南的論文

2026-05-26

哥倫比亞大學等機構對250萬篇生物醫學論文的審查顯示，自2023年以來，偽造參考文獻的比例增加了超過12倍。研究人員懷疑這與語言模型的廣泛使用有關——這些虛假引用與論文主題匹配，格式正確，幾乎無法識別。98%的受影響論文未得到出版商回應。

250萬篇生物醫學論文審計發現偽造引用率自2023年增加12倍以上
虛假引用與論文主題相關、格式規範，極難被發現

序列知識 #866：你需要了解的三款文本擴散模型

2026-05-26

文本擴散模型挑戰了傳統自迴歸語言生成正規化，將生成過程視為從噪聲或掩碼開始、逐步精煉的編輯過程。文章介紹了該領域的三個關鍵系統：LLaDA（證明擴散可擴充套件為大型語言模型）、Mercury（實現商業速度優勢）和Gemini Diffusion（前沿驗證），它們共同代表了新架構類的三階段：科學證明、工業部署和前沿驗證。

文本擴散模型透過迭代去噪而非逐詞生成文本，利用雙向上下文。
LLaDA證明了擴散模型可以擴充套件到真正的大語言模型規模。

將DSA注意力引入多模態，快手Keye2.0開啟強化推理新正規化

2026-05-26

快手釋出Keye-VL-2.0-30B-A3B多模態大模型，首次將DSA稀疏注意力機制應用於多模態場景，實現256K超長上下文深度感知，並在長影片時序理解、Agent協作等方面取得突破，為影片理解和智慧排程提供新正規化。

首次將DSA引入多模態，突破長影片理解瓶頸
在TimeLens等基準上實現SOTA，長上下文準確率逆勢提升

使用Docker Compose和MCP進行多智慧體LLM編排

2026-05-26

本文介紹了一本關於使用Docker和Kubernetes進行AI應用運營的新書，涵蓋LLM執行、MCP整合、自主智慧體構建以及多智慧體架構等主題，提供了從開發到生產的完整指南。

該書由Packt出版，專注於使用Docker工具鏈運營AI應用。
涵蓋本地LLM執行、MCP整合、自主智慧體及多智慧體編排。

程式設計權威榜單：千問3.7僅次於Claude，阿里全球第二

2026-05-26

阿里最新旗艦模型Qwen3.7-Max在Code Arena榜單得分1541，超越GPT-5.5等模型，僅次於Claude，排名全球第二，成為國產大模型中首個突破1540分的模型。

Qwen3.7-Max在Code Arena榜單得分1541，排名全球第二，僅次於Claude系列。
Code Arena是開發者出題、使用者盲測投票的權威程式設計榜單。

LWiAI 播客 #246：Gemini 3.5 + Omni、馬斯克敗訴、OpenAI 對決 Erdős

2026-05-26

谷歌在 I/O 大會上推出 Gemini 3.5 和 Gemini Spark 智慧體，以及 Gemini Omni 多模態影片生成；埃隆·馬斯克因訴訟時效問題輸掉對 OpenAI 的訴訟；Anthropic 以 9000 億美元估值融資 300 億美元；AI 解決了 80 年曆史的 Erdős 幾何問題。

谷歌釋出 Gemini 3.5 和持續執行的智慧體 Gemini Spark，支援 MCP 工具。
Gemini Omni 可將影像、音訊和文本轉換為影片。

GPT Image 2 讓我驚歎又疲憊——於是我做了個小工具

2026-05-26

OpenAI 最新影像模型 GPT Image 2 於 2026 年 4 月釋出，支援精準文本渲染、逼真影像、自然語言編輯和透明背景。imagesv2.ai 平臺提供免費試用、多種模板和生成工具，包括 360° 全景、推文截圖、微信聊天等。定價年付可享 50% 折扣。

GPT Image 2 是 OpenAI 下一代影像模型，擅長文本渲染和逼真效果。
imagesv2.ai 提供免費積分和多種預設模板，無需 OpenAI 賬戶。

剛剛，國產Agent模型闖入全球第一梯隊！限時免費

2026-05-26

崑崙萬維釋出SkyClaw-v1.0及輕量版SkyClaw-v1.0-lite，原生Agent模型效能比肩Claude Opus 4.6等頂尖模型，價格僅為主流一半，限時免費，深度適配OpenClaw、Claude Code等主流Agent框架，相容OpenAI介面。

崑崙萬維釋出原生Agent模型SkyClaw-v1.0和輕量版SkyClaw-v1.0-lite，效能達到全球第一梯隊。
價格僅為主流頂尖模型的一半甚至更低，釋出期限時免費，後續計劃逐步開源。

地形自適應履刺輪：最佳化行星探測的設計與實驗研究

2026-05-26

針對行星探測車在不同地形（如斜坡、顆粒狀地面）面臨的移動挑戰，研究者提出了一種能連續調整履刺高度的多模態輪子。在四種代表性表面上的750次試驗表明，自適應部署可將滑移率降低30%-58%，在顆粒狀地形中旅行時間和能耗最多減少77.4%。結果凸顯了固定輪系統的侷限性，支援了履刺自適應形態在增強火星車機動性方面的潛力。

提出了一種能連續調整履刺高度的多模態輪子，以適應不同地形
在750次試驗中，自適應輪在多種顆粒狀地形上顯著降低滑移、縮短旅行時間並減少能耗

基於各向異性擴散的多機器人系統遍歷覆蓋

2026-05-26

研究人員提出了一種新的各向異性擴散方法，用於多機器人系統的遍歷搜尋，克服了傳統各向同性擴散導致的誤差均勻傳播問題，透過Perona-Malik擴散梯度引導機器人運動，實現了更靈活的覆蓋。

傳統遍歷搜尋使用各向同性擴散（熱方程），導致誤差在所有方向均勻傳播。
新方法引入各向異性擴散（Perona-Malik），利用梯度引導機器人運動，更靈活地匹配目標分佈。

研究人員提出了一種腦到影像系統，利用自然觀看影像時的腦電圖（EEG）訊號解碼視覺刺激。系統包括兩個任務：EEG到影像的檢索（在200個候選中識別正確影像，Top-1準確率86.30%，Top-5準確率98.55%）和EEG到影像的重建（生成與感知刺激一致的影像，CLIP評分達0.903）。該方法結合多級模糊、EVNet特徵、InfoNCE損失以及基於CLIP的多模態對齊和SDXL-Turbo生成模型，展示了從EEG訊號解碼豐富視覺表徵的可行性。

EEG到影像檢索：在200個候選影像中，Top-1準確率86.30%，Top-5準確率98.55%。
EEG到影像重建：CognitionCapturerPro方法，利用多模態CLIP嵌入和SDXL-Turbo，CLIP評分0.903。

Nano World Models：未來影片預測的極簡實現

2026-05-26

Nano World Models 是一個極簡程式碼庫，專注於基於擴散強制（diffusion forcing）的未來影片預測。它提供統一的介面，支援生成目標、模型規模、動作條件機制、潛在觀測空間、資料集、評估協議和長期推演過程，旨在為世界模型研究提供可重複、可擴充套件的實驗平臺。

Nano World Models 是一個極簡、可復現的程式碼庫，用於未來影片預測研究。
它圍繞擴散強制技術，整合了生成目標、模型規模、動作條件等關鍵設計元件。

放射科醫生讀片世界模型：用於醫學影像表示學習

2026-05-26

GazeWorld是一種醫學影像世界模型，將影像視為世界，放射科醫生的注視序列視為軌跡。它透過自迴歸預測注視補丁的潛在表示，並用空間補全分支覆蓋未訪問區域。在推理時，僅從影像生成補丁表示，無需真實注視資料。凍結的GazeWorld特徵在CheXpert、RSNA肺炎和SIIM-ACR氣胸資料集上取得了所有九項監督設定的最新診斷準確率，以及所有三個基準的最佳零樣本準確率。在GazeSearch基準上，基於相同凍結特徵的通用解碼器在ScanMatch和SED指標上分別比專用模型LogitGaze-Med高出16%和22%。該工作表明，建模專家如何讀片，而非僅關注其結論，為醫學影像AI提供了一種有前景的預訓練正規化。

GazeWorld利用放射科醫生的眼動追蹤資料作為讀片軌跡，透過自迴歸預測和空間補全學習表示。
在推理時無需真實注視資料，僅從影像生成補丁序列。

面向英中語碼轉換語音識別的直接偏好最佳化方法在音訊大語言模型中的應用

2026-05-26

音訊大語言模型在轉錄英中混合語音時存在系統性失敗模式，包括語言遺漏、翻譯代替轉錄和幻覺。研究者採用直接偏好最佳化（DPO）方法，構建偏好對訓練模型，使其學會保留混合語言內容而非翻譯。在三個模型上使用10萬對（570小時）資料訓練後，模型行為得到顯著改善：分佈內詞錯誤率（MER）最高降低89.6%，分佈外降低20.0%。

英中語碼轉換中音訊LLM有三種失敗模式：語言遺漏、翻譯代替轉錄、幻覺。
DPO透過偏好對（選擇保留混合語言，拒絕模仿失敗模式）對齊模型。

忠實還是捏造？針對LLM評判者合理化偏差的因果框架

2026-05-26

大型語言模型（LLM）常被用作自動評判者，但研究發現它們存在位置、冗長和風格偏好等偏差。本文提出因果框架，引入一套干預措施和指標，檢驗LLM評判者是否具備提示不變性，即當非證據性提示被擾動時，其排名和解釋是否穩定。實驗發現，在標籤和安慰劑擾動下，LLM存在顯著的提示錨定合理化，而PROOF-BEFORE-PREFERENCE方法能顯著改善提示不變性。

LLM評判者存在提示錨定合理化偏差，其解釋可能受非證據性提示影響。
論文開發了多種提示干預（如盲評、真相、翻轉、安慰劑、事後揭示）和指標來量化偏差。

利用大型語言模型提升分部披露的完整性和可比性

2026-05-26

本研究開發了一個基於大型語言模型的框架，直接從10-K報表中提取分部披露資訊，並保留可報告和巢狀分部資訊。同時，設計了一個檢索增強系統，整合多個報表的資訊以支援可比性。實驗表明，該框架能準確提取資訊並有效回答跨期問題，展示了LLM在增強分部披露衡量和解釋方面的潛力。

分部披露是財務報告的核心，但常以定性和定量形式分散在10-K報表中，導致完整性和可比性問題。
提出基於LLM的框架，從10-K中提取分部資訊，保留巢狀結構。

多角色辯論系統：自動化科學假設生成的新框架

2026-05-26

本文提出多角色辯論系統（MPDS），結合文獻檢索、長上下文大語言模型推理、語料驅動角色歸納和結構化多智慧體辯論，自動生成科學假設。在電池材料研究中，MPDS透過構建多達500篇文獻的快照，進行三輪引文感知辯論，由主持人綜合，生成機制明確且過程感知的提議。評估表明，MPDS在鈉離子陽極和全固態電池陰極設計任務中恢復出與實驗驗證一致的設計邏輯，並在交叉視角整合方面表現優異，有望成為工作流瓶頸診斷工具。

MPDS透過多角色辯論從文獻綜合中自動生成假設，特別適用於耦合工程約束下的材料研究。
系統構建500篇文獻快照，採用三輪引文感知辯論和主持人綜合，保留證據可追溯性。

透過資訊融合進行文件分類模式識別：多模態與多視角表示方法的系統綜述

2026-05-26

本文對139項研究進行系統綜述，提出統一框架並進行元分析。結果顯示多模態融合使準確率平均提升5.28個百分點，多視角融合帶來準確率提升4.67%、F1分數提升3.08%，但僅少數研究使用了統計檢驗，存在可重複性問題。

元分析表明多模態和多視角融合能顯著提升文件分類準確率。
多模態融合可實現準確率提升5.28%，多視角融合提升4.67%準確率和3.08% F1分數。

移動眾包中用於LLM微調的誠實線上偏好聚合

2026-05-26

本文研究移動眾包中用於大語言模型（LLM）微調的誠實線上偏好聚合問題。針對工人可能策略性誤報反饋的情況，提出一種動態貝葉斯博弈模型和線上加權聚合機制，該機制能根據工人反饋準確性動態調整權重，確保誠實反饋並實現次線性遺憾O(√T)。實驗證明優於基準方案。

提出動態貝葉斯博弈模型，建模平臺與戰略工人之間的多智慧體線上學習過程。
設計線上加權聚合機制，動態調整工人權重以激勵誠實反饋。

互補智慧體混合：用於魯棒大語言模型整合的方法

2026-05-26

該研究將大語言模型整合中的提案者選擇問題重新定義為組合選擇問題，強調互補性而非單純準確率或多樣性。透過探索多種貪心式選擇演算法，實驗驗證了互補性作為選擇準則的有效性，並確定了效能與成本最佳折衷的方法。

將提案者選擇視為類似特徵選擇的組合問題，注重模型間的互補性。
由於標準特徵選擇演算法時間複雜度高，提出了一系列計算可行的貪心式演算法。

LLM-AutoSciLab：透過主動實驗實現閉環科學發現的LLM框架

2026-05-26

本文提出LLM-AutoSciLab，一種閉環科學發現框架，將假設生成與假設條件實驗選擇及機制精煉相結合。該框架迭代提出合理假設、選擇資訊豐富的實驗以區分或精煉假設，並利用實驗結果更新狀態。引入ActiveSciBench基準，包含57項酶動力學任務和45項基因調控網路任務。在多個基準上，LLM-AutoSciLab優於先前方法，符號準確率在NewtonBench上達67.6%，在ActiveSciBench-Chem上達35.1%，在ActiveSciBench-GRN上精確圖恢復率達31.1%，且假設引導的實驗取樣效率比最強基線高2-5倍。

LLM-AutoSciLab迭代地提出假設、選擇實驗並精煉機制，實現閉環科學發現。
引入ActiveSciBench資料集，包括酶動力學和基因調控網路任務，模擬預算約束下的發現過程。

隱藏狀態隱私存在空白中間地帶

2026-05-26

對1536種高斯釋出協方差的測試發現，沒有一種能在自適應檢索攻擊下同時實現中等效用和隱私保護。研究者提出了費舍爾球下界，證明均勻高斯安全性不可能，並指出對角逆費舍爾釋出是最優的但處於隱私/效用邊緣。提出分裂記憶Transformer在隱私-效用權衡上顯著優於GPT基線。

1536種高斯釋出協方差中，無一種同時實現中等效用和隱私。
費舍爾球下界證明均勻高斯安全性不可行。

邁向可驗證Transformer：可求解器檢查的電路解釋

2026-05-26

該論文提出了“可驗證Transformer”框架，將區域性任務Transformer電路轉化為有界、可求解器檢查的命題，透過直接驗證和替代中介驗證兩種方法，在小型符號序列任務上實現了對電路屬性的窮舉驗證，並在GPT-2規模上展示了替代中介驗證的有效性，旨在為機械論解釋提供形式化證明路徑。

提出可驗證Transformer框架，將任務區域性電路轉化為有界、可求解器檢查的命題。
採用直接驗證和替代中介驗證兩種方法，處理可精確編碼或難以編碼的運算元。

基於全自主國產核心智慧大模型的實用量子CIM賦能

2026-05-26

本研究將飛秒雷射泵浦的相干伊辛機（CIM）與大語言模型（LLM）驅動的智慧體系統整合，利用LangGraph和LangChain框架實現了量子建模的自動化。LLM能夠有效執行QUBO/Ising模型校準、約束權重迭代和文獻方案驗證。所有任務均基於國產大模型和國產CIM硬體實現，完全依賴自主核心技術。研究還意外發現，智慧體輔助量子計算迭代積累的知識能夠反向增強智慧體自身的問題解決能力，形成新的協同正規化。

整合飛秒雷射泵浦CIM與LLM驅動的智慧體系統，實現量子建模自動化
LLM可執行QUBO/Ising模型校準、約束權重迭代和方案驗證

當正確信念崩潰：臨床壓力下LLM的認識韌性

2026-05-26

一項新研究提出了Med-Stress壓力測試框架，揭示了在臨床對話中不斷升級的壓力下，大型語言模型（LLM）的醫學知識與信念穩定性之間存在脫節。作者提出了兩種防禦機制：基於角色的認識防禦（RBED）和韌性導向微調（R-FT），其中R-FT幾乎消除了信念改變。

即使基準測試準確率高，LLM在壓力下也可能放棄正確診斷。
Med-Stress框架評估了九種前沿LLM的信念穩定性，發現知識與魯棒性之間存在顯著差距。

BODHI: 精確的作業系統核心規範推斷

2026-05-26

研究人員提出BODHI方法，透過領域知識提示技術大幅提升大型語言模型生成作業系統核心形式化規範的能力。在OSV-Bench基準上，結合Claude Opus 4.6的BODHI方法達到了96.73%的Pass@1，相較於此前最佳結果提升顯著。

BODHI是一種領域知識提示方法，透過結構化C到Python轉換指南輔助LLM生成核心規範。
在OSV-Bench的245個規範生成任務上，BODHI將最佳Pass@1從55.10%提升至96.73%。

邁向可靠的LLM驅動代理工作流設計：最佳化延遲-可靠性-成本權衡

2026-05-26

本文分析了大型語言模型（LLM）驅動的代理工作流中延遲、可靠性和成本之間的基本權衡，提出了一種引數化指數可靠性函式來建模LLM代理的計算投入與輸出質量關係，並推導了最優令牌分配策略（注水演算法）以及影子價格表徵。

LLM代理工作流面臨延遲、可靠性和成本的三難權衡。
提出基於指數可靠性函式的效能模型，量化計算投入與輸出質量的關係。

多少思考才足夠？量化和理解大模型推理中的冗餘

2026-05-26

該研究量化了推理型大語言模型在長鏈思考中的冗餘程度，發現61%至93%的推理步驟可以截斷而不影響正確性，並證明這種冗餘是長度無關結果獎勵的結構性後果，而非模型缺陷。

提出推理冗餘的正式定義：正確軌跡中可截斷的尾部步驟比例
在四個前沿模型和兩個數學基準上測得冗餘度高達61%-93%

大型語言模型的置信度校準研究

2026-05-26

研究發現大型語言模型（LLMs）在置信度校準上存在類似人類的偏差：在困難任務上過度自信，在簡單任務上則信心不足。研究者開發了LifeEval測試集，用於評估不同難度級別下的模型校準表現。

LLMs平均而言過度自信，置信度高於實際準確率
存在強烈的難易效應：困難任務過度自信，簡單任務信心不足

尋找開放性的成分：用大型視覺語言模型複製Picbreeder

2026-05-26

該研究透過用前沿視覺語言模型（VLM）替代人類使用者，複製了人類驅動開放式搜尋的經典範例Picbreeder，比較了系統輸出與歷史人類基線的定性差異，並嘗試透過系統發育複雜性、視覺和語義顯著性及新穎性的指標來表徵這些差異。研究還探索了在代理選擇過程中新增探索性噪聲、代理之間的行為多樣性以及以過去行動記憶形式存在的敘事動量等因素的影響。

研究用VLM複製了Picbreeder，發現其輸出與人類基線存在明顯定性差異。
引入了系統發育複雜度、視覺和語義顯著性等指標來量化差異。

關於教皇利奧十四世人工智慧通諭的筆記

2026-05-25

教皇利奧十四世釋出《Magnifica Humanitas》通諭，就人工智慧時代保護人類尊嚴提出清晰倫理指導。本文摘錄通諭中關於AI可解釋性、發展尊嚴、文化偏見、環境影響、演算法決策責任、資源權力放大及資料公共性等關鍵段落，並回顧作者此前在播客中預測教皇將介入AI討論的趣事。

教皇利奧十四世釋出AI倫理通諭《Magnifica Humanitas》，承襲利奧十三世《新事》通諭傳統
通諭指出AI系統是“培育”而非“構建”，其內部機制尚不為人知

Together AI 開源 OSCAR：一種面向長上下文 LLM 服務的注意力感知 2 位 KV 快取量化系統

2026-05-25

Together AI 釋出了 OSCAR（離線頻譜協方差感知旋轉），這是一種用於長上下文 LLM 服務的 INT2 KV 快取量化方法。與以往基於資料無關的 Hadamard 變換的旋轉方法不同，OSCAR 從離線估計的注意力感知協方差結構中推匯出鍵和值的獨立旋轉。在每 KV 元素 2.28 位的精度下，OSCAR 在 Qwen3-4B-Thinking-2507 上將 BF16 精度差距縮小至 3.78 個點，在 Qwen3-8B 上為 1.42 個點，同時在 100K 上下文長度下實現約 8 倍 KV 記憶體縮減和高達 3 倍的解碼加速。

OSCAR 是一種使用注意力感知旋轉的 2 位 KV 快取量化方法，可保持近 BF16 的準確性。
它透過離線校準從查詢和值協方差中推匯出旋轉，從而將量化噪聲引導至注意力不敏感的方向。

Agent

關於接下來會發生什麼的一些想法，2026年5月

2026-05-26

2026年AI領域將繼續快速發展，開源模型在智慧體能力上仍落後於閉源模型，谷歌的Gemini尚未對Claude Code和Codex構成有力競爭，美國開源模型正在崛起，Anthropic與OpenAI競爭激烈，現有權力結構開始介入AI發展。

開源模型在智慧體能力上落後閉源模型約12個月。
谷歌Gemini在智慧體工具方面無明顯競爭優勢。

機器學習工作流程的視覺化除錯工具

2026-05-26

本文介紹訓練期間應視覺化什麼（梯度、損失和嵌入）、提供這些視覺化的工具（TensorBoard及其主要替代品），以及使用鉤子和斷點直接捕獲模型計算的方法。

視覺化損失曲線和梯度大小有助於檢測過擬合和梯度消失。
TensorBoard、Weights & Biases、Sacred和Guild.ai是流行的除錯工具。

Chunk sidecars：在CI之前驗證AI生成的程式碼

2026-05-26

CircleCI推出了Chunk sidecars功能，允許在程式碼進入CI流水線之前驗證代理生成的程式碼，確保質量和安全性。

Chunk sidecars可在CI之前驗證AI生成程式碼。
提高程式碼質量和安全性。

誰授權了？多智慧體AI中的委託問題

2026-05-26

AI智慧體跨系統委託任務，但當前架構缺乏針對委託鏈的授權模型，導致幽靈許可權和審計追蹤斷裂等安全漏洞。

多智慧體委託常產生無人明確授權的“幽靈許可權”。
當前協議（MCP、A2A）解決連通性，但未解決委託鏈的授權問題。

AgenticCalling AI：讓AI擁有撥打電話的能力

2026-05-26

AgenticCalling AI 是一款新工具，賦予人工智慧直接撥打電話的功能，擴充套件了AI在通訊領域的應用。

AgenticCalling AI 允許AI自動撥打電話
該工具可整合到現有AI系統中

AI司法普及解決方案正慢慢變成美國聯邦法院的行政噩夢

2026-05-26

MIT和南加州大學的研究發現，自ChatGPT普及以來，美國聯邦法院中無律師代理的訴訟案件數量幾乎翻倍，其中五分之一包含AI生成文本。法官們被迫採取極端措施應對激增的案件量。

無律師代理的訴訟比例從11%躍升至16.8%，2025年有41,490件此類案件，幾乎是AI時代前的兩倍。
AI生成文本檢測顯示，2026年初聯邦法院18%的起訴狀包含AI生成內容。

自主AI系統在物理環境中的治理考驗

2026-05-26

隨著自主AI系統從軟體領域擴充套件到倉庫、配送網路和公共空間，現有的AI治理框架是否足以應對物理世界中的風險成為關注焦點。新加坡釋出了針對代理式AI的治理框架，強調風險評估、人類問責、技術控制和使用者責任。企業如Grab、JPMorgan和Walmart正在測試自主系統，但監管、安全和責任分配仍面臨挑戰。

自主AI系統進入物理世界，帶來基礎設施、財產和人身安全等新風險
新加坡IMDA釋出代理式AI治理框架，提出漸進式部署和持續監控

AI代理的通話技能

2026-05-26

CometChat推出Calling Skills，透過AI程式設計代理一鍵整合高畫質語音和視訊通話功能，支援鈴聲模式或會話模式，提供23點驗證，相容多種框架。

CometChat推出Calling Skills，允許AI代理快速整合通話功能。
提供鈴聲和會話兩種整合路徑。

今天就能用AI自動化的10個日常任務（附n8n模板）

2026-05-26

本文介紹了10個可以用AI和低程式碼平臺n8n自動化的日常任務，包括求職申請、郵件管理、會議記錄、日曆安排、每日簡報、新聞簡報、社交媒體釋出、部落格內容複用、潛在客戶開發和發票處理。每個任務都附有現成的n8n工作流模板，幫助讀者快速上手。

使用n8n低程式碼平臺，無需大量程式設計即可實現AI自動化。
覆蓋求職、郵件、會議、日曆、簡報、社交媒體等10個常見場景。

剛剛，國產AI自己造了AI，全球首例！

2026-05-26

面壁智慧推出全球首個完全由AI編寫的大模型預訓練框架ForgeTrain，效能超越輝達Megatron 10%，並用它訓練出新模型MiniCPM5-1B，該模型在1B引數規模下重新整理智慧密度上限。

面壁智慧釋出ForgeTrain，全球首個AI編寫的生產級預訓練框架。
ForgeTrain在華為昇騰上比原框架加速10%，超越輝達Megatron。

留給人類數學家的懸賞不多了！谷歌DeepMind一口氣解決9道埃爾德什問題

2026-05-26

谷歌DeepMind釋出AlphaProof Nexus，基於Gemini 3.1 Pro和Lean編譯器，一口氣解決了9道埃爾德什開放問題，另有44個OEIS猜想、一道15年代數幾何難題等，每道題成本僅幾百美元。

AlphaProof Nexus解決了9道埃爾德什問題，其中最長懸置56年。
系統由四個智慧體組成，最簡單版本僅靠大模型加編譯器反饋就完成任務。

OmniVoice Studio：本地開源替代ElevenLabs的語音AI工具

2026-05-26

OmniVoice Studio是一款開源的桌面應用程式，可在本地硬體上完成語音克隆、影片配音、即時聽寫和說話人分類，無需API金鑰、雲賬戶或訂閱。它支援646種語言的文本轉語音（TTS），並透過MCP伺服器整合到Claude、Cursor等AI工具中。

完全本地執行，無需聯網或付費訂閱。
支援646種語言的TTS和99種語言的語音識別。

卡帕西Anthropic最新頭銜：技術員工（MTS）

2026-05-26

Andrej Karpathy在Anthropic的頭銜更新為MTS（技術員工），引發廣泛討論。文章分析了MTS制度的利弊，包括防挖人、扁平文化、打破部門牆等優點，以及偽平等、對普通員工不利等批評。

卡帕西的MTS頭銜引發公眾對AI公司職級制度的討論
Anthropic和OpenAI統一使用MTS頭銜，年薪範圍21萬-53萬美元

華為釋出AI DC資料基礎設施全棧方案，加速行業智慧化躍升

2026-05-26

華為在2026創新資料基礎設施論壇上釋出AI DC資料基礎設施全棧方案，涵蓋資料湖、知識與記憶平臺、模型工程、Agent框架和資料韌性，旨在加速企業AI規模化落地。

華為在巴黎論壇釋出AI DC資料基礎設施全棧方案
方案包含資料湖、知識與記憶平臺、模型工程、Agent框架和資料韌性

為什麼以及如何在Zed中執行本地模型

2026-05-26

本地模型提供了隱私、成本節約、控制權和始終可用的優勢。儘管不如前沿模型強大，但它們正在不斷改進。本文解釋瞭如何使用LM Studio、Ollama或llama.cpp在Zed中設定本地模型，並提供有效使用技巧。

本地模型提供隱私保護、更低成本、可控性和始終可用性。
它們的能力和速度不及前沿模型，但足以應對許多工。

Show HN：面向AI智慧體和MCP伺服器的桌面GUI沙盒

2026-05-26

nilbox是一款桌面GUI沙盒，透過真正的虛擬機器隔離執行AI智慧體，採用零令牌架構保護API金鑰安全。支援MCP伺服器、域控制和令牌使用監控。

nilbox在完整的虛擬機器中執行AI智慧體，而非容器，提供更強隔離。
API金鑰從不暴露給虛擬機器內部；主機代理僅在受信任域交換令牌。

BobCA：一款自主學習編碼的智慧代理

2026-05-26

BobCA 是一個自主學習編碼的智慧代理，能夠根據使用者的偏好進行個性化程式設計。

自主學習編碼
個性化偏好適配

IsaacIPC：用於高接觸機器人系統的高保真模擬與逼真渲染耦合框架

2026-05-26

本文介紹IsaacIPC，一個將GPU加速的增量勢接觸（IPC）與IsaacSim/Lab結合的機器人模擬框架。它透過對映模擬變形到視覺網格，實現即時逼真渲染，支援資料採集和策略評估。同時提出幾何砂漿接觸勢（GMCP），用於觸覺感測中更好地解析接觸壓力分佈。在四足機器人、靈巧手和通用操縱介面（UMI）夾爪等剛柔混合模擬中驗證了有效性。

IsaacIPC耦合了高保真模擬與即時逼真渲染，適用於接觸密集的機器人系統。
引入幾何砂漿接觸勢（GMCP），提高觸覺感測中接觸壓力分佈的解析度。

MASt3R-Nav：基於相對三維地圖的WayPixel導航

2026-05-26

一種名為MASt3R-Nav的新型視覺導航方法，利用畫素相對連通性構建幾何精確但無需全域性一致性的地圖，相比傳統拓撲圖實現更強大的導航能力。

提出畫素相對連通圖作為新型地圖表示。
利用三維基礎影像匹配建立影像間的畫素對應。

基於深度學習自動量化TIMI心肌灌注幀計數（DL-TMPFC）：一種快速評估微血管功能障礙的新框架

2026-05-26

冠狀動脈微血管功能障礙（CMVD）影響約40%-60%的缺血但無阻塞性冠脈患者，但診斷依賴於侵入性功能測試或主觀的TIMI血流分級。TIMI心肌灌注幀計數（TMPFC）提供客觀、基於血管造影的定量指標，但手動計算繁瑣且驗證不足。本研究開發並驗證了深度學習驅動的TMPFC計算（DL-TMPFC），在655名患者佇列中（來自三個獨立機構）顯示出與專家手動測量極好的一致性（偏差：-0.93幀；95%一致性界限：-5.33至+3.47；r=0.98）。DL-TMPFC透過完全自動化TMPFC並消除觀察者依賴性，顯著增強了臨床可行性，並能準確識別全譜冠脈病變中的CMVD，實現連續嚴重程度定量和風險分層。

DL-TMPFC框架由狹窄檢測網路和區域感知分割網路組成，自動從血管造影序列確定起始和結束幀。
在655例患者中驗證，與專家手動測量具有高度一致性（r=0.98）。

RAW：魯棒的數字人水印——基準測試與基線方法

2026-05-26

數字人水印面臨獨特挑戰：數字人經常需要經過背景替換、重新構圖和格式轉換等後處理才能部署。本文提出RAW基準，包含來自5家商業供應商的50個合成數字人影片和6種模擬實際工作流的攻擊。評估7種現有方法發現，背景移除等數字人特有攻擊會顯著降低水印恢復率。提出WALT方法，透過3D人臉重建在UV紋理空間嵌入水印，在縮放攻擊下魯棒性最高（92.4%），背景移除效能也強（95.6%）。該基準已開源以促進數字人水印研究。

數字人水印面臨背景替換、重新構圖等獨特挑戰。
RAW基準包含50個合成數字人影片和6種攻擊。

量子青蛙：量化時間合作遊戲中的湧現合作與難度縮放

2026-05-26

本文介紹了基於量化時間機制的雙人合作遊戲《量子青蛙》，使用強化學習分析難度縮放、最優單智慧體策略、合作差距及湧現策略。研究發現：量化時間使得“衝刺策略”普遍最優；新增不協調的第二玩家比將交通量增加六倍更困難；合作訓練可提升成功率達32–34個百分點，並將回合長度從約90步縮短至約6步；湧現的合作策略是同步衝刺，而非複雜的位置協調。

量化時間機制使“衝刺策略”成為最優，因為最小化了暴露在交通中的時間。
新增一個不協調的第二玩家比將交通量增加六倍更困難。

Context：透過可組合沙盒程式、宣告式接線和結構化互動實現主動目標導向智慧

2026-05-26

本文介紹了Context，即Magarshak架構的智慧層，它用主動目標導向代理取代了被動問答聊天機器人。該架構基於三種機制：編寫時上下文組裝、可組合沙盒智慧程式以及主動目標流狀態機。論文證明了六個定理，包括上下文穩定性、程式組合正確性、主動優勢等。該實現基於開源Qbix/Safebox/Safebots棧。

用主動代理取代被動聊天機器人，無需等待提示即可推進任務。
三種機制：編寫時上下文組裝、可組合沙盒程式、主動狀態機。

Show HN: AgentToolBench-Code – AI程式設計代理安全基準測試

2026-05-26

Allen Wu 開源了 AgentToolBench-Code，這是一個評估AI程式設計代理靜默安全失敗的基準測試。測試了 Claude Code Sonnet 4.6 和 Haiku 4.5，涵蓋16個真實CVE場景。結果顯示 Sonnet 以 +9 分（12捕獲、3靜默失敗、1無操作）明顯優於 Haiku 的 +3 分（8捕獲、5靜默失敗、3無操作）。早期平局源於小語料庫，擴充套件後 Sonnet 在模式識別上優勢顯著。但兩者在依賴安裝和預算消耗等結構性攻擊上均失敗，提示系統性問題。該基準可重複，API成本約3.50美元，社群可貢獻場景。

AgentToolBench-Code 是一個開源基準測試，用於檢測AI程式設計代理的靜默安全失敗。
從10個場景擴充套件到16個真實CVE場景；Sonnet 4.6 明顯優於 Haiku 4.5。

AIntegriX：首個開源ACP協調器，實現多智慧體協同

2026-05-26

AIntegriX 是一個開源伺服器，透過單一 API 協調多個 ACP 智慧體，支援並行執行、流水線作業和智慧路由，解決了各代理獨立執行無法協作的問題。

AIntegriX 作為 ACP 多路複用器，將智慧體以子程序方式管理，並透過統一的 MCP/REST 端點暴露。
支援並行、競速、陪審和流水線等多種編排模式，具備自動路由和 Webhook 觸發功能。

Corey Quinn 評論教皇人工智慧通諭：'史上最偉大的供應商遊說'

2026-05-26

教皇利奧十四世釋出關於人工智慧的通諭《崇高人性》，據稱受Anthropic聯合創始人Christopher Olah影響。Corey Quinn諷刺稱，讓教皇將產品的技術限制奉為精神論著是前所未有的供應商遊說。

教皇利奧十四世釋出AI通諭《崇高人性》
Anthropic聯合創始人Olah被指影響通諭內容

Cited AI Workspace：無需重複上傳檔案

2026-05-26

UUMuse 是一個雲端AI知識庫平臺，只需上傳一次檔案，即可在GPT、Claude、DeepSeek、Qwen等多個模型中進行帶有引用的問答、生成內容和部署。支援透過API和MCP供代理和應用呼叫，提供永久記憶、多專家辯論（Spark）、代理模式等功能，並可將知識庫部署為文件網站、小部件、API端點等。

一次上傳，多模型使用：檔案上傳後，GPT、Claude、DeepSeek、Qwen等模型均可基於同一知識庫作答並引用來源。
記憶與代理：AI記住你的偏好和專案上下文，代理模式自動規劃並執行任務，無需重複指令。

AI SEO：與競爭對手對比分析

2026-05-26

本文介紹瞭如何使用AI工具進行SEO競爭對手分析，包括關鍵詞差距分析、五步分析法以及定期檢查策略。還推薦了Fox AI的免費競爭者分析工具，幫助團隊快速發現排名機會並生成最佳化方案。

SEO競爭對手分析是研究超越你的網站並找出其優勢的過程。
關鍵詞差距分析可發現競爭對手排名而你未排名的搜尋詞，這些是潛在機會。

什麼是“粉紅肉渣”新聞業？它是否已滲透澳大利亞媒體？

2026-05-26

專家警告，偽裝成地方新聞機構的AI生成新聞網站（即“粉紅肉渣”新聞業）已在澳大利亞偏遠地區出現，引發對虛假資訊和媒體信任度下降的擔憂。這些網站背後是一位海外居住的澳大利亞人，他表示這只是一次失敗的實驗。

針對西澳偏遠社群的AI生成新聞網站被追溯到一位居住在國外的澳大利亞人。
經過ABC調查後，包括《班伯裡衛報》在內的這些網站已被關閉。

AI輔助軟體工程正規化的演變

2026-05-25

軟體行業正經歷前所未有的變革，從早期的智慧程式碼完成，到對話式聊天機器人，再到多智慧體系統的失敗，最終進入代理迴圈時代。本文全面分析了從Completion正規化到革命性的Ralph Loop的演變過程，後者正在重新定義我們的編碼方式。

AI輔助程式設計從統計程式碼完成（2021-2022）發展到代理迴圈正規化。
Codex和GitHub Copilot等工具基於統計模型，缺乏任務理解和長期推理能力。

使用NVIDIA FLARE構建並比較非獨立同分布CIFAR-10上的FedAvg與FedProx聯邦學習分步指南

2026-05-25

本教程詳細介紹瞭如何使用NVIDIA FLARE構建高階聯邦學習實驗，在非獨立同分布CIFAR-10資料集上比較FedAvg和FedProx演算法。透過狄利克雷分佈模擬客戶端的標籤不平衡，並使用NVFlare Job API定義和啟動聯邦任務，Client API處理本地訓練和模型交換。文章提供了完整的程式碼實現和實驗結果視覺化。

使用NVIDIA FLARE構建聯邦學習實驗，比較FedAvg與FedProx。
採用狄利克雷分佈（alpha=0.3）將CIFAR-10資料劃分為3個非獨立同分布客戶端。

Parrot 語音轉文本 API：為生產級語音代理打造的快速準確 STT

2026-05-25

Parrot 是 Ringg 推出的語音轉文本模型，專為生產級語音代理設計。它在嘈雜、印地語混合的真實通話場景中表現出色，具有低延遲推理、強轉錄質量和印地語驗證功能，適用於語音代理的下游工作流程。

專為真實世界通話場景最佳化，處理壓縮電話、印地語-英語混碼、印度口音和背景噪聲
低延遲推理，支援流式傳輸，適用於即時語音代理

Anthropic聯合創始人Chris Olah就教皇利奧十四世通諭《偉大的人性》發表評論

2026-05-26

Anthropic聯合創始人Chris Olah受邀在梵蒂岡就教皇利奧十四世關於人工智慧的通諭發表演講，強調AI發展中的道德問題、全球責任以及人類繁榮的必要性。他提出了三個需要教會參與的關鍵問題：對全球貧困者的責任、道德想象力的需求，以及AI模型本質的辨識。

Chris Olah在梵蒂岡發表演講，回應教皇關於AI的通諭。
他指出了AI開發中的激勵機制問題，呼籲外部批評者的參與。

政策

據報道中國要求頂尖AI研究人員出國前需獲批准

2026-05-26

中國正在限制阿里巴巴和DeepSeek等私營公司的頂尖AI研究人員出國旅行，他們需要獲得官方批准才能離境。北京擔心資料洩露、技術盜竊和人才挖角，正在加強對國內AI行業的管控。

中國要求頂尖AI研究人員出國前需獲得許可。
該政策適用於阿里巴巴和DeepSeek等私營公司。

Spotify CEO捍衛AI音樂：稱其優於盜版和“垃圾”內容

2026-05-26

Spotify執行長為其平臺涉足AI生成音樂辯護，稱新推出的AI混音工具與環球音樂集團合作，能為藝術家提供更好的盜版保護，併為使用者提供比未經監管的AI垃圾內容更優質的體驗。

Spotify推出AI混音和翻唱功能，僅供高階使用者使用
CEO表示該工具是盜版和低質量AI內容的更優替代方案

谷歌雲COO：AI安全應納入董事會討論，而非僅限於伺服器機房

2026-05-26

谷歌雲營運長Francis de Souza呼籲企業從第一天起就將安全融入AI戰略，強調AI安全是董事會層面的議題，而不僅是技術問題。

谷歌雲COO敦促企業將安全納入AI戰略的初始設計
AI安全需要從董事會層面獲得關注和資源

AI戰爭已經來臨

2026-05-26

從2017年《殺戮機器人》短片引發的恐慌，到如今Anthropic與美國國防部的對抗，人工智慧在軍事領域的應用已從科幻走向現實。本文回顧了AI戰爭的發展歷程，探討了自主武器的定義模糊性、國際監管的困境以及科技公司與軍方的複雜關係。

2017年《殺戮機器人》短片揭示了AI武器的現實威脅，Project Maven專案加速了AI在軍事中的應用。
Anthropic公司試圖設定“紅線”，禁止AI用於自主殺人武器，但面臨政府壓力。

好機器人播客：資料中心與數字主權的未來——對話弗裡德里克·馮·弗蘭克

2026-05-26

本期《好機器人》播客探討了如何透過女性主義原則和去中心化基礎設施，將雲基礎設施從大科技公司手中奪回，轉變為公共資源。弗裡德里克·馮·弗蘭克（Wikimedia Germany政策顧問）分享了她的工作，並討論了從法蘭克福能耗密集型資料中心到斯德哥爾摩市政光纖基礎設施的案例，強調環境責任和社群驅動的設計。

弗裡德里克·馮·弗蘭克主張以女性主義原則和去中心化架構重塑雲基礎設施。
播客對比了法蘭克福的高能耗資料中心與斯德哥爾摩的市政光纖網路。

Pawse.ai

2026-05-26

一種狗用聲學調節系統。

Pawse.ai 是一種狗用聲學調節系統。
該系統利用聲學技術調節狗的行為。

認知安全作為人工智慧安全的一個關注領域

2026-05-26

本文探討了認知安全（Cognitive Security）作為人工智慧安全（AI Safety）的一個重要子領域。認知安全關注的是如何保護人類認知免受AI系統可能帶來的負面影響，包括資訊操縱、認知偏見利用等。文章分析了認知安全與AI安全的關係，以及該領域的研究方向與挑戰。

認知安全是AI安全的一個重要分支，關注保護人類認知。
AI系統可能透過資訊操縱等方式影響人類認知，認知安全旨在防範這些風險。

研究串聯彈性驅動改裝對黑盒執行器的影響

2026-05-26

該研究透過在黑盒執行器上加裝定製串聯彈性元件，將力控制頻寬從10.32 Hz提升至30.32 Hz（提升2.93倍），且效能優於商用感測器7.63%，成本僅25英鎊。

設計了一種扭轉串聯彈性元件，剛度為2155.4 Nm/rad。
改裝後開環力控制頻寬提升2.93倍。

大型大學系統擁抱AI，但師生並不買賬

2026-05-26

加州州立大學系統與OpenAI簽訂價值數百萬美元的合同，提供ChatGPT Edu工具，但調查顯示多數師生對AI的教育效益持懷疑態度，擔心其對就業、創造力和環境的影響。

加州州立大學與OpenAI簽訂每年1300萬美元的合同，旨在成為全國首個AI驅動的高等教育系統。
調查顯示65%的學生和59%的教職員工懷疑AI對教育的益處，但多數人仍在使用AI工具。

工具

沒人願意告訴我為什麼他們只聽自己的Suno垃圾音樂

2026-05-26

Suno子版塊出現了一個令人不安的趨勢：使用者不僅用AI生成歌曲，還幾乎只收聽自己生成的AI音樂，甚至有人聲稱不再使用Spotify等傳統流媒體平臺。作者試圖採訪這些使用者瞭解原因，但無人願意回應。作者推測這種現象源於自戀或懶惰，並傾向於後者。

Suno使用者沉迷於收聽自己生成的AI音樂，放棄傳統流媒體。
無人願意解釋為何偏愛AI音樂而非真實藝術家的作品。

“我們可以縫合過去”：AI生成的時光旅行者用影片部落格記錄歷史

2026-05-26

YouTube等平臺上的AI生成的“歷史影響者”角色，透過影片部落格形式帶領觀眾回到歷史場景，以生動的方式呈現歷史。

AI生成的角色如Chloe VS History在YouTube上釋出歷史旅行影片部落格。
這些內容創作者使用AI工具讓歷史變得“非常直觀”。

加密貨幣程式碼提交量下降75%，開發者轉向AI專案

2026-05-26

區塊鏈生態系統普遍面臨開發者流失，而人工智慧專案在GitHub上成為增長主力。自2025年初以來，每週加密貨幣程式碼提交量從約85萬次降至21萬次，活躍開發者數量減少56%至約4600人。

每週加密貨幣程式碼提交量自2025年初下降約75%。
活躍開發者數量下降56%至4600人左右。

ContextVault – 適用於ChatGPT、Claude、Gemini的本地優先AI對話記錄器

2026-05-26

ContextVault是一款瀏覽器擴充套件，可在所有主要LLM平臺（如ChatGPT、Claude和Gemini）上即時捕獲AI對話，並將其本地儲存在IndexedDB中。支援一鍵匯出為Markdown或ZIP格式，確保您的對話資料不會離開您的裝置。該工具免費、開源，無需賬戶或後端，注重隱私。

即時捕獲來自ChatGPT、Claude、Gemini等7個LLM平臺的AI對話。
所有資料本地儲存在IndexedDB中，無雲端同步或第三方訪問。

晶片

Import AI 458：面對未來；以及一個奇點故事

2026-05-26

本期《Import AI》基於作者在牛津大學的演講，探討AI技術持續進步帶來的選擇：探索未來還是逃避現在。文章詳述了AI近年來的里程碑（如透過律師考試、數學奧林匹克獎牌）、遞迴自我改進的可能性，以及作者個人使用AI的親身經歷，展示了AI如何從校對工具演變為智力夥伴和生活顧問。

AI技術正以超預期速度發展，ECI指數顯示多個基準測試成績持續上升，可能在未來兩年內實現遞迴自我改進。
作者提出兩種應對態度：探索未來（積極面對AI的潛力與風險）或逃避現在（忽視影響）。

百思買金士頓64GB DDR5記憶體套裝降至1000美元以下

2026-05-26

AI公司大量購買記憶體和儲存裝置推高價格，如今百思買在陣亡將士紀念日週末推出金士頓Fury Beast DDR5 64GB套裝優惠，降價176美元，售價不到1000美元。此套裝適合遊戲和創作工作站，頻率最高可達6400MHz。

64GB (2×32GB) DDR5記憶體套裝原價約1176美元，現降價176美元至999.99美元。
支援AMD Expo和Intel XMP 3.0超頻，最高可達6400MHz。

研究

Y Combinator創始人保羅·格雷厄姆稱AI撰寫的創始人郵件讓人感覺像被欺騙

2026-05-26

Y Combinator創始人保羅·格雷厄姆表示，他會忽略明顯由AI撰寫的創始人郵件，因為感覺像被欺騙。作為OpenAI早期投資者，他的反應並不罕見。

保羅·格雷厄姆忽略AI寫的創始人郵件
他認為AI郵件像被欺騙

優步總裁稱AI投入“越來越難證明合理性”

2026-05-26

據報道，優步在2026年僅用四個月就耗盡了年度AI預算，公司高層質疑投資是否帶來實際回報。總裁Andrew Macdonald表示，難以將AI支出與消費者功能改進直接掛鉤。

優步2026年AI預算在四個月內耗盡
公司高層質疑AI投入與功能改進的關聯

PACT：人機協作中主動詢問的持續任務輔助

2026-05-26

在長期人機協作中，機器人需要在部分觀測下輔助使用者，並利用跨天互動歷史。然而，協作初期人類特徵和慣例未知，被動推斷後行動效率低下。為此，本文提出PACT（主動詢問持續任務輔助）框架，透過當前觀測和累積互動歷史評估上下文充分性，決定是否先澄清再行動。實驗表明，PACT在輔助準確性和澄清效用上均優於被動基線。

提出PACT框架，使機器人能在必要時主動詢問使用者以獲取澄清，提高輔助可靠性。
使用強化學習實現主要例項，並引入澄清效用指標平衡準確性和詢問頻率。

AcroRL：使用雙向推力學習激進的四旋翼翻轉

2026-05-26

本文提出了一種基於強化學習的框架，透過調變恆定參考軌跡實現緊湊、位置受限的四旋翼翻轉，並與傳統軌跡生成和跟蹤相容。在模擬中，該方法相比最強最佳化基線，位置均方根誤差降低32%，穩定時間減少57%。硬體實驗在多種偏航配置下成功翻轉，位置均方根誤差低於0.35米。

雙向推力使四旋翼能夠實現倒飛、棲息和感測。
現有方法受限於執行器飽和和電機反轉延遲。

基於深度學習的多光譜遙感資料缺失填補研究

2026-05-26

本研究比較了傳統線性插值與多種深度學習模型在填補因雲層覆蓋導致的衛星資料缺失方面的效果。實驗基於四個有藻華歷史記錄的湖泊，採用CNN、Inception Resnet、Autoencoder及其與LSTM結合的模型。結果表明，深度學習模型顯著優於線性插值，其中CNN表現最優。此外，利用填補後的資料計算的藻華指數與觀測資料吻合良好，證明該方法可提升水環境監測的可靠性。

深度學習模型在填補缺失光譜波段方面顯著優於傳統線性插值方法。
CNN模型在四個湖泊的資料填補中綜合表現最佳。

任務對齊的自監督學習在醫學影像分析中的應用：系統綜述與實踐設計指南

2026-05-26

本文系統綜述了自監督學習（SSL）在醫學影像分析中的應用，分析了75項研究，將方法分為對比學習、非對比預測學習、生成式重建學習和混合學習四類。研究發現，沒有通用的最優SSL策略，效能取決於預文本任務、成像模態和目標任務的對齊。對比學習適合分類，但可能忽略病理細節；生成式方法保留區域性解剖結構，適合分割；混合方法效能最平衡。文章還提出了實踐設計指南，並指出了開放挑戰。

自監督學習在醫學影像分析中效果依賴於預文本任務與臨床目標的對齊。
對比學習適合全域性分類任務，但可能遺漏細微病理模式。

大規模資料集與基準：蛋白質-配體模型學習的是結合位點還是僅僅結合可能性？

2026-05-26

現有蛋白質-配體基準通常評估蛋白質與配體是否相互作用及結合強度，但無法判斷模型是否能夠定位結合位點或識別分子識別中的非共價相互作用。為此，研究者引入InteractBind，一個包含約10萬對蛋白質-配體的大規模資料集及細粒度評估基準，透過六種非共價相互作用型別的殘基-原子相互作用圖來評估結合位點定位能力。評估八個現有模型發現，儘管二元結合預測表現強勁，但結合位點定位能力有限，且在不同非共價相互作用型別間差異顯著。InteractBind鼓勵開發更具可解釋性和物理基礎的蛋白質-配體模型。

InteractBind包含約10萬對蛋白質-配體資料，提供結合位點定位的細粒度基準。
基準使用六種非共價相互作用的殘基-原子相互作用圖來評估模型是否真正學習了結合位點。

機器人

實驗室測試：這款機器人吸塵器清潔力遠超其他，現正打折促銷

2026-05-25

Ecovacs X8 Pro Omni在ZDNET實驗室測試中從10款機器人吸塵器中脫穎而出，獲得最佳拾取效能獎。它在地板和地毯上的沙粒拾取平均得分最高，目前正值陣亡將士紀念日週末促銷，僅售599美元（優惠67美元）。

Ecovacs X8 Pro Omni在ZDNET實驗室測試中擊敗Shark、Roborock等品牌，沙粒拾取平均分達60.28%。
該裝置具備自清潔拖布滾輪、清水箱和汙水箱，可同時吸塵和拖地。

AI 日報

今日重點

Mistral AI透過與Harvey合作進軍法律領域

微軟Copilot Cowork存在檔案外洩漏洞

保羅·格雷厄姆：AI撰寫的郵件讓人感覺被欺騙

桑達爾·皮查伊談AI、搜尋未來及網路變革

研究人員警告：AI幻覺引用正滲透入影響臨床指南的論文

序列知識 #866：你需要了解的三款文本擴散模型

將DSA注意力引入多模態，快手Keye2.0開啟強化推理新正規化

使用Docker Compose和MCP進行多智慧體LLM編排

程式設計權威榜單：千問3.7僅次於Claude，阿里全球第二

LWiAI 播客 #246：Gemini 3.5 + Omni、馬斯克敗訴、OpenAI 對決 Erdős

GPT Image 2 讓我驚歎又疲憊——於是我做了個小工具

剛剛，國產Agent模型闖入全球第一梯隊！限時免費

地形自適應履刺輪：最佳化行星探測的設計與實驗研究

基於各向異性擴散的多機器人系統遍歷覆蓋

透過多模態腦電圖對齊實現腦到影像的檢索與重建

Nano World Models：未來影片預測的極簡實現

放射科醫生讀片世界模型：用於醫學影像表示學習

面向英中語碼轉換語音識別的直接偏好最佳化方法在音訊大語言模型中的應用

忠實還是捏造？針對LLM評判者合理化偏差的因果框架

利用大型語言模型提升分部披露的完整性和可比性

多角色辯論系統：自動化科學假設生成的新框架

透過資訊融合進行文件分類模式識別：多模態與多視角表示方法的系統綜述

移動眾包中用於LLM微調的誠實線上偏好聚合

互補智慧體混合：用於魯棒大語言模型整合的方法

LLM-AutoSciLab：透過主動實驗實現閉環科學發現的LLM框架

隱藏狀態隱私存在空白中間地帶

邁向可驗證Transformer：可求解器檢查的電路解釋

基於全自主國產核心智慧大模型的實用量子CIM賦能

當正確信念崩潰：臨床壓力下LLM的認識韌性

BODHI: 精確的作業系統核心規範推斷

邁向可靠的LLM驅動代理工作流設計：最佳化延遲-可靠性-成本權衡

多少思考才足夠？量化和理解大模型推理中的冗餘

大型語言模型的置信度校準研究

尋找開放性的成分：用大型視覺語言模型複製Picbreeder

關於教皇利奧十四世人工智慧通諭的筆記

Together AI 開源 OSCAR：一種面向長上下文 LLM 服務的注意力感知 2 位 KV 快取量化系統

關於接下來會發生什麼的一些想法，2026年5月

機器學習工作流程的視覺化除錯工具

Chunk sidecars：在CI之前驗證AI生成的程式碼

誰授權了？多智慧體AI中的委託問題

AgenticCalling AI：讓AI擁有撥打電話的能力

AI司法普及解決方案正慢慢變成美國聯邦法院的行政噩夢

自主AI系統在物理環境中的治理考驗

AI代理的通話技能

今天就能用AI自動化的10個日常任務（附n8n模板）

剛剛，國產AI自己造了AI，全球首例！

留給人類數學家的懸賞不多了！谷歌DeepMind一口氣解決9道埃爾德什問題

OmniVoice Studio：本地開源替代ElevenLabs的語音AI工具

卡帕西Anthropic最新頭銜：技術員工（MTS）

華為釋出AI DC資料基礎設施全棧方案，加速行業智慧化躍升

為什麼以及如何在Zed中執行本地模型

Show HN：面向AI智慧體和MCP伺服器的桌面GUI沙盒

BobCA：一款自主學習編碼的智慧代理

IsaacIPC：用於高接觸機器人系統的高保真模擬與逼真渲染耦合框架

MASt3R-Nav：基於相對三維地圖的WayPixel導航

基於深度學習自動量化TIMI心肌灌注幀計數（DL-TMPFC）：一種快速評估微血管功能障礙的新框架

RAW：魯棒的數字人水印——基準測試與基線方法

量子青蛙：量化時間合作遊戲中的湧現合作與難度縮放

Context：透過可組合沙盒程式、宣告式接線和結構化互動實現主動目標導向智慧

Show HN: AgentToolBench-Code – AI程式設計代理安全基準測試

AIntegriX：首個開源ACP協調器，實現多智慧體協同

Corey Quinn 評論教皇人工智慧通諭：'史上最偉大的供應商遊說'

Cited AI Workspace：無需重複上傳檔案

AI SEO：與競爭對手對比分析

什麼是“粉紅肉渣”新聞業？它是否已滲透澳大利亞媒體？

AI輔助軟體工程正規化的演變

使用NVIDIA FLARE構建並比較非獨立同分布CIFAR-10上的FedAvg與FedProx聯邦學習分步指南

Parrot 語音轉文本 API：為生產級語音代理打造的快速準確 STT

Anthropic聯合創始人Chris Olah就教皇利奧十四世通諭《偉大的人性》發表評論

據報道中國要求頂尖AI研究人員出國前需獲批准

Spotify CEO捍衛AI音樂：稱其優於盜版和“垃圾”內容

谷歌雲COO：AI安全應納入董事會討論，而非僅限於伺服器機房

AI戰爭已經來臨

好機器人播客：資料中心與數字主權的未來——對話弗裡德里克·馮·弗蘭克

Pawse.ai

認知安全作為人工智慧安全的一個關注領域

研究串聯彈性驅動改裝對黑盒執行器的影響

大型大學系統擁抱AI，但師生並不買賬