AI 日報 2026-05-26

今日重點

模型

Mistral AI通過與Harvey合作進軍法律領域

2026-05-26

生成式AI供應商Mistral AI宣佈與法律AI初創公司Harvey合作，拓展法律行業應用，此舉與Anthropic的法律AI交易類似。

Mistral AI與Harvey合作，進入法律行業。
此舉與Anthropic的法律AI合作模式相似。

微軟Copilot Cowork存在文件外泄漏洞

2026-05-26

微軟Copilot Cowork功能存在嚴重安全漏洞，攻擊者可通過提示注入利用自動發送郵件中的外部圖片竊取OneDrive文件。

Copilot Cowork的智能體無需審批即可向用户收件箱發送郵件
郵件中的外部圖片可觸發網絡請求導致數據泄露

保羅·格雷厄姆：AI撰寫的郵件讓人感覺被欺騙

2026-05-26

保羅·格雷厄姆批評創始人使用AI撰寫郵件，認為這種生硬的新聞風格一眼就能被識別，並會降低作者的可信度。

保羅·格雷厄姆指出，許多創始人發送的郵件如今採用生硬的新聞風格，顯然是AI所寫。
他從未完整讀過一封由AI撰寫但署名為人類的郵件，感覺像被欺騙。

桑達爾·皮查伊談AI、搜索未來及網絡變革

2026-05-26

在Google I/O大會後的Decoder訪談中，CEO桑達爾·皮查伊深入討論了Google的AI優先轉型、搜索的劇變、與出版商的緊張關係以及對AGI的展望。

Google合併Brain和DeepMind為Google DeepMind，並集中AI基礎設施團隊。
搜索體驗引入AI概覽和Gemini Spark代理平台，從根本上改變信息獲取方式。

研究人員警告：AI幻覺引用正滲透入影響臨牀指南的論文

2026-05-26

哥倫比亞大學等機構對250萬篇生物醫學論文的審查顯示，自2023年以來，偽造參考文獻的比例增加了超過12倍。研究人員懷疑這與語言模型的廣泛使用有關——這些虛假引用與論文主題匹配，格式正確，幾乎無法識別。98%的受影響論文未得到出版商回應。

250萬篇生物醫學論文審計發現偽造引用率自2023年增加12倍以上
虛假引用與論文主題相關、格式規範，極難被發現

序列知識 #866：你需要了解的三款文本擴散模型

2026-05-26

文本擴散模型挑戰了傳統自迴歸語言生成範式，將生成過程視為從噪聲或掩碼開始、逐步精煉的編輯過程。文章介紹了該領域的三個關鍵系統：LLaDA（證明擴散可擴展為大型語言模型）、Mercury（實現商業速度優勢）和Gemini Diffusion（前沿驗證），它們共同代表了新架構類的三階段：科學證明、工業部署和前沿驗證。

文本擴散模型通過迭代去噪而非逐詞生成文本，利用雙向上下文。
LLaDA證明了擴散模型可以擴展到真正的大語言模型規模。

將DSA注意力引入多模態，快手Keye2.0開啓強化推理新範式

2026-05-26

快手發佈Keye-VL-2.0-30B-A3B多模態大模型，首次將DSA稀疏注意力機制應用於多模態場景，實現256K超長上下文深度感知，並在長視頻時序理解、Agent協作等方面取得突破，為視頻理解和智能調度提供新範式。

首次將DSA引入多模態，突破長視頻理解瓶頸
在TimeLens等基準上實現SOTA，長上下文準確率逆勢提升

使用Docker Compose和MCP進行多智能體LLM編排

2026-05-26

本文介紹了一本關於使用Docker和Kubernetes進行AI應用運營的新書，涵蓋LLM運行、MCP集成、自主智能體構建以及多智能體架構等主題，提供了從開發到生產的完整指南。

該書由Packt出版，專注於使用Docker工具鏈運營AI應用。
涵蓋本地LLM運行、MCP集成、自主智能體及多智能體編排。

編程權威榜單：千問3.7僅次於Claude，阿里全球第二

2026-05-26

阿里最新旗艦模型Qwen3.7-Max在Code Arena榜單得分1541，超越GPT-5.5等模型，僅次於Claude，排名全球第二，成為國產大模型中首個突破1540分的模型。

Qwen3.7-Max在Code Arena榜單得分1541，排名全球第二，僅次於Claude系列。
Code Arena是開發者出題、用户盲測投票的權威編程榜單。

LWiAI 播客 #246：Gemini 3.5 + Omni、馬斯克敗訴、OpenAI 對決 Erdős

2026-05-26

谷歌在 I/O 大會上推出 Gemini 3.5 和 Gemini Spark 智能體，以及 Gemini Omni 多模態視頻生成；埃隆·馬斯克因訴訟時效問題輸掉對 OpenAI 的訴訟；Anthropic 以 9000 億美元估值融資 300 億美元；AI 解決了 80 年曆史的 Erdős 幾何問題。

谷歌發佈 Gemini 3.5 和持續運行的智能體 Gemini Spark，支持 MCP 工具。
Gemini Omni 可將圖像、音頻和文本轉換為視頻。

GPT Image 2 讓我驚歎又疲憊——於是我做了個小工具

2026-05-26

OpenAI 最新圖像模型 GPT Image 2 於 2026 年 4 月發佈，支持精準文本渲染、逼真圖像、自然語言編輯和透明背景。imagesv2.ai 平台提供免費試用、多種模板和生成工具，包括 360° 全景、推文截圖、微信聊天等。定價年付可享 50% 折扣。

GPT Image 2 是 OpenAI 下一代圖像模型，擅長文本渲染和逼真效果。
imagesv2.ai 提供免費積分和多種預設模板，無需 OpenAI 賬户。

剛剛，國產Agent模型闖入全球第一梯隊！限時免費

2026-05-26

崑崙萬維發佈SkyClaw-v1.0及輕量版SkyClaw-v1.0-lite，原生Agent模型性能比肩Claude Opus 4.6等頂尖模型，價格僅為主流一半，限時免費，深度適配OpenClaw、Claude Code等主流Agent框架，兼容OpenAI接口。

崑崙萬維發佈原生Agent模型SkyClaw-v1.0和輕量版SkyClaw-v1.0-lite，性能達到全球第一梯隊。
價格僅為主流頂尖模型的一半甚至更低，發佈期限時免費，後續計劃逐步開源。

地形自適應履刺輪：優化行星探測的設計與實驗研究

2026-05-26

針對行星探測車在不同地形（如斜坡、顆粒狀地面）面臨的移動挑戰，研究者提出了一種能連續調整履刺高度的多模態輪子。在四種代表性表面上的750次試驗表明，自適應部署可將滑移率降低30%-58%，在顆粒狀地形中旅行時間和能耗最多減少77.4%。結果凸顯了固定輪系統的侷限性，支持了履刺自適應形態在增強火星車機動性方面的潛力。

提出了一種能連續調整履刺高度的多模態輪子，以適應不同地形
在750次試驗中，自適應輪在多種顆粒狀地形上顯著降低滑移、縮短旅行時間並減少能耗

基於各向異性擴散的多機器人系統遍歷覆蓋

2026-05-26

研究人員提出了一種新的各向異性擴散方法，用於多機器人系統的遍歷搜索，克服了傳統各向同性擴散導致的誤差均勻傳播問題，通過Perona-Malik擴散梯度引導機器人運動，實現了更靈活的覆蓋。

傳統遍歷搜索使用各向同性擴散（熱方程），導致誤差在所有方向均勻傳播。
新方法引入各向異性擴散（Perona-Malik），利用梯度引導機器人運動，更靈活地匹配目標分佈。

研究人員提出了一種腦到圖像系統，利用自然觀看圖像時的腦電圖（EEG）信號解碼視覺刺激。系統包括兩個任務：EEG到圖像的檢索（在200個候選中識別正確圖像，Top-1準確率86.30%，Top-5準確率98.55%）和EEG到圖像的重建（生成與感知刺激一致的圖像，CLIP評分達0.903）。該方法結合多級模糊、EVNet特徵、InfoNCE損失以及基於CLIP的多模態對齊和SDXL-Turbo生成模型，展示了從EEG信號解碼豐富視覺表徵的可行性。

EEG到圖像檢索：在200個候選圖像中，Top-1準確率86.30%，Top-5準確率98.55%。
EEG到圖像重建：CognitionCapturerPro方法，利用多模態CLIP嵌入和SDXL-Turbo，CLIP評分0.903。

Nano World Models：未來視頻預測的極簡實現

2026-05-26

Nano World Models 是一個極簡代碼庫，專注於基於擴散強制（diffusion forcing）的未來視頻預測。它提供統一的接口，支持生成目標、模型規模、動作條件機制、潛在觀測空間、數據集、評估協議和長期推演過程，旨在為世界模型研究提供可重複、可擴展的實驗平台。

Nano World Models 是一個極簡、可復現的代碼庫，用於未來視頻預測研究。
它圍繞擴散強制技術，整合了生成目標、模型規模、動作條件等關鍵設計組件。

放射科醫生讀片世界模型：用於醫學圖像表示學習

2026-05-26

GazeWorld是一種醫學影像世界模型，將圖像視為世界，放射科醫生的注視序列視為軌跡。它通過自迴歸預測注視補丁的潛在表示，並用空間補全分支覆蓋未訪問區域。在推理時，僅從圖像生成補丁表示，無需真實注視數據。凍結的GazeWorld特徵在CheXpert、RSNA肺炎和SIIM-ACR氣胸數據集上取得了所有九項監督設置的最新診斷準確率，以及所有三個基準的最佳零樣本準確率。在GazeSearch基準上，基於相同凍結特徵的通用解碼器在ScanMatch和SED指標上分別比專用模型LogitGaze-Med高出16%和22%。該工作表明，建模專家如何讀片，而非僅關注其結論，為醫學影像AI提供了一種有前景的預訓練範式。

GazeWorld利用放射科醫生的眼動追蹤數據作為讀片軌跡，通過自迴歸預測和空間補全學習表示。
在推理時無需真實注視數據，僅從圖像生成補丁序列。

面向英中語碼轉換語音識別的直接偏好優化方法在音頻大語言模型中的應用

2026-05-26

音頻大語言模型在轉錄英中混合語音時存在系統性失敗模式，包括語言遺漏、翻譯代替轉錄和幻覺。研究者採用直接偏好優化（DPO）方法，構建偏好對訓練模型，使其學會保留混合語言內容而非翻譯。在三個模型上使用10萬對（570小時）數據訓練後，模型行為得到顯著改善：分佈內詞錯誤率（MER）最高降低89.6%，分佈外降低20.0%。

英中語碼轉換中音頻LLM有三種失敗模式：語言遺漏、翻譯代替轉錄、幻覺。
DPO通過偏好對（選擇保留混合語言，拒絕模仿失敗模式）對齊模型。

忠實還是捏造？針對LLM評判者合理化偏差的因果框架

2026-05-26

大型語言模型（LLM）常被用作自動評判者，但研究發現它們存在位置、冗長和風格偏好等偏差。本文提出因果框架，引入一套干預措施和指標，檢驗LLM評判者是否具備提示不變性，即當非證據性提示被擾動時，其排名和解釋是否穩定。實驗發現，在標籤和安慰劑擾動下，LLM存在顯著的提示錨定合理化，而PROOF-BEFORE-PREFERENCE方法能顯著改善提示不變性。

LLM評判者存在提示錨定合理化偏差，其解釋可能受非證據性提示影響。
論文開發了多種提示干預（如盲評、真相、翻轉、安慰劑、事後揭示）和指標來量化偏差。

利用大型語言模型提升分部披露的完整性和可比性

2026-05-26

本研究開發了一個基於大型語言模型的框架，直接從10-K報表中提取分部披露信息，並保留可報告和嵌套分部信息。同時，設計了一個檢索增強系統，整合多個報表的信息以支持可比性。實驗表明，該框架能準確提取信息並有效回答跨期問題，展示了LLM在增強分部披露衡量和解釋方面的潛力。

分部披露是財務報告的核心，但常以定性和定量形式分散在10-K報表中，導致完整性和可比性問題。
提出基於LLM的框架，從10-K中提取分部信息，保留嵌套結構。

多角色辯論系統：自動化科學假設生成的新框架

2026-05-26

本文提出多角色辯論系統（MPDS），結合文獻檢索、長上下文大語言模型推理、語料驅動角色歸納和結構化多智能體辯論，自動生成科學假設。在電池材料研究中，MPDS通過構建多達500篇文獻的快照，進行三輪引文感知辯論，由主持人綜合，生成機制明確且過程感知的提議。評估表明，MPDS在鈉離子陽極和全固態電池陰極設計任務中恢復出與實驗驗證一致的設計邏輯，並在交叉視角整合方面表現優異，有望成為工作流瓶頸診斷工具。

MPDS通過多角色辯論從文獻綜合中自動生成假設，特別適用於耦合工程約束下的材料研究。
系統構建500篇文獻快照，採用三輪引文感知辯論和主持人綜合，保留證據可追溯性。

通過信息融合進行文檔分類模式識別：多模態與多視角表示方法的系統綜述

2026-05-26

本文對139項研究進行系統綜述，提出統一框架並進行元分析。結果顯示多模態融合使準確率平均提升5.28個百分點，多視角融合帶來準確率提升4.67%、F1分數提升3.08%，但僅少數研究使用了統計檢驗，存在可重複性問題。

元分析表明多模態和多視角融合能顯著提升文檔分類準確率。
多模態融合可實現準確率提升5.28%，多視角融合提升4.67%準確率和3.08% F1分數。

移動眾包中用於LLM微調的誠實在線偏好聚合

2026-05-26

本文研究移動眾包中用於大語言模型（LLM）微調的誠實在線偏好聚合問題。針對工人可能策略性誤報反饋的情況，提出一種動態貝葉斯博弈模型和在線加權聚合機制，該機制能根據工人反饋準確性動態調整權重，確保誠實反饋並實現次線性遺憾O(√T)。實驗證明優於基準方案。

提出動態貝葉斯博弈模型，建模平台與戰略工人之間的多智能體在線學習過程。
設計在線加權聚合機制，動態調整工人權重以激勵誠實反饋。

互補智能體混合：用於魯棒大語言模型集成的方法

2026-05-26

該研究將大語言模型集成中的提案者選擇問題重新定義為組合選擇問題，強調互補性而非單純準確率或多樣性。通過探索多種貪心式選擇算法，實驗驗證了互補性作為選擇準則的有效性，並確定了性能與成本最佳折衷的方法。

將提案者選擇視為類似特徵選擇的組合問題，注重模型間的互補性。
由於標準特徵選擇算法時間複雜度高，提出了一系列計算可行的貪心式算法。

LLM-AutoSciLab：通過主動實驗實現閉環科學發現的LLM框架

2026-05-26

本文提出LLM-AutoSciLab，一種閉環科學發現框架，將假設生成與假設條件實驗選擇及機制精煉相結合。該框架迭代提出合理假設、選擇信息豐富的實驗以區分或精煉假設，並利用實驗結果更新狀態。引入ActiveSciBench基準，包含57項酶動力學任務和45項基因調控網絡任務。在多個基準上，LLM-AutoSciLab優於先前方法，符號準確率在NewtonBench上達67.6%，在ActiveSciBench-Chem上達35.1%，在ActiveSciBench-GRN上精確圖恢復率達31.1%，且假設引導的實驗採樣效率比最強基線高2-5倍。

LLM-AutoSciLab迭代地提出假設、選擇實驗並精煉機制，實現閉環科學發現。
引入ActiveSciBench數據集，包括酶動力學和基因調控網絡任務，模擬預算約束下的發現過程。

隱藏狀態隱私存在空白中間地帶

2026-05-26

對1536種高斯發佈協方差的測試發現，沒有一種能在自適應檢索攻擊下同時實現中等效用和隱私保護。研究者提出了費舍爾球下界，證明均勻高斯安全性不可能，並指出對角逆費舍爾發佈是最優的但處於隱私/效用邊緣。提出分裂記憶Transformer在隱私-效用權衡上顯著優於GPT基線。

1536種高斯發佈協方差中，無一種同時實現中等效用和隱私。
費舍爾球下界證明均勻高斯安全性不可行。

邁向可驗證Transformer：可求解器檢查的電路解釋

2026-05-26

該論文提出了“可驗證Transformer”框架，將局部任務Transformer電路轉化為有界、可求解器檢查的命題，通過直接驗證和替代中介驗證兩種方法，在小型符號序列任務上實現了對電路屬性的窮舉驗證，並在GPT-2規模上展示了替代中介驗證的有效性，旨在為機械論解釋提供形式化證明路徑。

提出可驗證Transformer框架，將任務局部電路轉化為有界、可求解器檢查的命題。
採用直接驗證和替代中介驗證兩種方法，處理可精確編碼或難以編碼的算子。

基於全自主國產核心智能大模型的實用量子CIM賦能

2026-05-26

本研究將飛秒激光泵浦的相干伊辛機（CIM）與大語言模型（LLM）驅動的智能體系統集成，利用LangGraph和LangChain框架實現了量子建模的自動化。LLM能夠有效執行QUBO/Ising模型校準、約束權重迭代和文獻方案驗證。所有任務均基於國產大模型和國產CIM硬件實現，完全依賴自主核心技術。研究還意外發現，智能體輔助量子計算迭代積累的知識能夠反向增強智能體自身的問題解決能力，形成新的協同範式。

集成飛秒激光泵浦CIM與LLM驅動的智能體系統，實現量子建模自動化
LLM可執行QUBO/Ising模型校準、約束權重迭代和方案驗證

當正確信念崩潰：臨牀壓力下LLM的認識韌性

2026-05-26

一項新研究提出了Med-Stress壓力測試框架，揭示了在臨牀對話中不斷升級的壓力下，大型語言模型（LLM）的醫學知識與信念穩定性之間存在脱節。作者提出了兩種防禦機制：基於角色的認識防禦（RBED）和韌性導向微調（R-FT），其中R-FT幾乎消除了信念改變。

即使基準測試準確率高，LLM在壓力下也可能放棄正確診斷。
Med-Stress框架評估了九種前沿LLM的信念穩定性，發現知識與魯棒性之間存在顯著差距。

BODHI: 精確的操作系統內核規範推斷

2026-05-26

研究人員提出BODHI方法，通過領域知識提示技術大幅提升大型語言模型生成操作系統內核形式化規範的能力。在OSV-Bench基準上，結合Claude Opus 4.6的BODHI方法達到了96.73%的Pass@1，相較於此前最佳結果提升顯著。

BODHI是一種領域知識提示方法，通過結構化C到Python轉換指南輔助LLM生成內核規範。
在OSV-Bench的245個規範生成任務上，BODHI將最佳Pass@1從55.10%提升至96.73%。

邁向可靠的LLM驅動代理工作流設計：優化延遲-可靠性-成本權衡

2026-05-26

本文分析了大型語言模型（LLM）驅動的代理工作流中延遲、可靠性和成本之間的基本權衡，提出了一種參數化指數可靠性函數來建模LLM代理的計算投入與輸出質量關係，並推導了最優令牌分配策略（注水算法）以及影子價格表徵。

LLM代理工作流面臨延遲、可靠性和成本的三難權衡。
提出基於指數可靠性函數的性能模型，量化計算投入與輸出質量的關係。

多少思考才足夠？量化和理解大模型推理中的冗餘

2026-05-26

該研究量化了推理型大語言模型在長鏈思考中的冗餘程度，發現61%至93%的推理步驟可以截斷而不影響正確性，並證明這種冗餘是長度無關結果獎勵的結構性後果，而非模型缺陷。

提出推理冗餘的正式定義：正確軌跡中可截斷的尾部步驟比例
在四個前沿模型和兩個數學基準上測得冗餘度高達61%-93%

大型語言模型的置信度校準研究

2026-05-26

研究發現大型語言模型（LLMs）在置信度校準上存在類似人類的偏差：在困難任務上過度自信，在簡單任務上則信心不足。研究者開發了LifeEval測試集，用於評估不同難度級別下的模型校準表現。

LLMs平均而言過度自信，置信度高於實際準確率
存在強烈的難易效應：困難任務過度自信，簡單任務信心不足

尋找開放性的成分：用大型視覺語言模型複製Picbreeder

2026-05-26

該研究通過用前沿視覺語言模型（VLM）替代人類用户，複製了人類驅動開放式搜索的經典範例Picbreeder，比較了系統輸出與歷史人類基線的定性差異，並嘗試通過系統發育複雜性、視覺和語義顯著性及新穎性的指標來表徵這些差異。研究還探索了在代理選擇過程中添加探索性噪聲、代理之間的行為多樣性以及以過去行動記憶形式存在的敍事動量等因素的影響。

研究用VLM複製了Picbreeder，發現其輸出與人類基線存在明顯定性差異。
引入了系統發育複雜度、視覺和語義顯著性等指標來量化差異。

關於教皇利奧十四世人工智能通諭的筆記

2026-05-25

教皇利奧十四世發佈《Magnifica Humanitas》通諭，就人工智能時代保護人類尊嚴提出清晰倫理指導。本文摘錄通諭中關於AI可解釋性、發展尊嚴、文化偏見、環境影響、算法決策責任、資源權力放大及數據公共性等關鍵段落，並回顧作者此前在播客中預測教皇將介入AI討論的趣事。

教皇利奧十四世發佈AI倫理通諭《Magnifica Humanitas》，承襲利奧十三世《新事》通諭傳統
通諭指出AI系統是“培育”而非“構建”，其內部機制尚不為人知

Together AI 開源 OSCAR：一種面向長上下文 LLM 服務的注意力感知 2 位 KV 緩存量化系統

2026-05-25

Together AI 發佈了 OSCAR（離線頻譜協方差感知旋轉），這是一種用於長上下文 LLM 服務的 INT2 KV 緩存量化方法。與以往基於數據無關的 Hadamard 變換的旋轉方法不同，OSCAR 從離線估計的注意力感知協方差結構中推導出鍵和值的獨立旋轉。在每 KV 元素 2.28 位的精度下，OSCAR 在 Qwen3-4B-Thinking-2507 上將 BF16 精度差距縮小至 3.78 個點，在 Qwen3-8B 上為 1.42 個點，同時在 100K 上下文長度下實現約 8 倍 KV 內存縮減和高達 3 倍的解碼加速。

OSCAR 是一種使用注意力感知旋轉的 2 位 KV 緩存量化方法，可保持近 BF16 的準確性。
它通過離線校準從查詢和值協方差中推導出旋轉，從而將量化噪聲引導至注意力不敏感的方向。

Agent

關於接下來會發生什麼的一些想法，2026年5月

2026-05-26

2026年AI領域將繼續快速發展，開源模型在智能體能力上仍落後於閉源模型，谷歌的Gemini尚未對Claude Code和Codex構成有力競爭，美國開源模型正在崛起，Anthropic與OpenAI競爭激烈，現有權力結構開始介入AI發展。

開源模型在智能體能力上落後閉源模型約12個月。
谷歌Gemini在智能體工具方面無明顯競爭優勢。

機器學習工作流程的可視化調試工具

2026-05-26

本文介紹訓練期間應可視化什麼（梯度、損失和嵌入）、提供這些可視化的工具（TensorBoard及其主要替代品），以及使用鈎子和斷點直接捕獲模型計算的方法。

可視化損失曲線和梯度大小有助於檢測過擬合和梯度消失。
TensorBoard、Weights & Biases、Sacred和Guild.ai是流行的調試工具。

Chunk sidecars：在CI之前驗證AI生成的代碼

2026-05-26

CircleCI推出了Chunk sidecars功能，允許在代碼進入CI流水線之前驗證代理生成的代碼，確保質量和安全性。

Chunk sidecars可在CI之前驗證AI生成代碼。
提高代碼質量和安全性。

誰授權了？多智能體AI中的委託問題

2026-05-26

AI智能體跨系統委託任務，但當前架構缺乏針對委託鏈的授權模型，導致幽靈權限和審計追蹤斷裂等安全漏洞。

多智能體委託常產生無人明確授權的“幽靈權限”。
當前協議（MCP、A2A）解決連通性，但未解決委託鏈的授權問題。

AgenticCalling AI：讓AI擁有撥打電話的能力

2026-05-26

AgenticCalling AI 是一款新工具，賦予人工智能直接撥打電話的功能，擴展了AI在通信領域的應用。

AgenticCalling AI 允許AI自動撥打電話
該工具可集成到現有AI系統中

AI司法普及解決方案正慢慢變成美國聯邦法院的行政噩夢

2026-05-26

MIT和南加州大學的研究發現，自ChatGPT普及以來，美國聯邦法院中無律師代理的訴訟案件數量幾乎翻倍，其中五分之一包含AI生成文本。法官們被迫採取極端措施應對激增的案件量。

無律師代理的訴訟比例從11%躍升至16.8%，2025年有41,490件此類案件，幾乎是AI時代前的兩倍。
AI生成文本檢測顯示，2026年初聯邦法院18%的起訴狀包含AI生成內容。

自主AI系統在物理環境中的治理考驗

2026-05-26

隨着自主AI系統從軟件領域擴展到倉庫、配送網絡和公共空間，現有的AI治理框架是否足以應對物理世界中的風險成為關注焦點。新加坡發佈了針對代理式AI的治理框架，強調風險評估、人類問責、技術控制和用户責任。企業如Grab、JPMorgan和Walmart正在測試自主系統，但監管、安全和責任分配仍面臨挑戰。

自主AI系統進入物理世界，帶來基礎設施、財產和人身安全等新風險
新加坡IMDA發佈代理式AI治理框架，提出漸進式部署和持續監控

AI代理的通話技能

2026-05-26

CometChat推出Calling Skills，通過AI編程代理一鍵集成高清語音和視頻通話功能，支持鈴聲模式或會話模式，提供23點驗證，兼容多種框架。

CometChat推出Calling Skills，允許AI代理快速集成通話功能。
提供鈴聲和會話兩種集成路徑。

今天就能用AI自動化的10個日常任務（附n8n模板）

2026-05-26

本文介紹了10個可以用AI和低代碼平台n8n自動化的日常任務，包括求職申請、郵件管理、會議記錄、日曆安排、每日簡報、新聞簡報、社交媒體發佈、博客內容複用、潛在客户開發和發票處理。每個任務都附有現成的n8n工作流模板，幫助讀者快速上手。

使用n8n低代碼平台，無需大量編程即可實現AI自動化。
覆蓋求職、郵件、會議、日曆、簡報、社交媒體等10個常見場景。

剛剛，國產AI自己造了AI，全球首例！

2026-05-26

面壁智能推出全球首個完全由AI編寫的大模型預訓練框架ForgeTrain，性能超越英偉達Megatron 10%，並用它訓練出新模型MiniCPM5-1B，該模型在1B參數規模下刷新智能密度上限。

面壁智能發佈ForgeTrain，全球首個AI編寫的生產級預訓練框架。
ForgeTrain在華為昇騰上比原框架加速10%，超越英偉達Megatron。

留給人類數學家的懸賞不多了！谷歌DeepMind一口氣解決9道埃爾德什問題

2026-05-26

谷歌DeepMind發佈AlphaProof Nexus，基於Gemini 3.1 Pro和Lean編譯器，一口氣解決了9道埃爾德什開放問題，另有44個OEIS猜想、一道15年代數幾何難題等，每道題成本僅幾百美元。

AlphaProof Nexus解決了9道埃爾德什問題，其中最長懸置56年。
系統由四個智能體組成，最簡單版本僅靠大模型加編譯器反饋就完成任務。

OmniVoice Studio：本地開源替代ElevenLabs的語音AI工具

2026-05-26

OmniVoice Studio是一款開源的桌面應用程序，可在本地硬件上完成語音克隆、視頻配音、實時聽寫和説話人分類，無需API密鑰、雲賬户或訂閲。它支持646種語言的文本轉語音（TTS），並通過MCP服務器集成到Claude、Cursor等AI工具中。

完全本地運行，無需聯網或付費訂閲。
支持646種語言的TTS和99種語言的語音識別。

卡帕西Anthropic最新頭銜：技術員工（MTS）

2026-05-26

Andrej Karpathy在Anthropic的頭銜更新為MTS（技術員工），引發廣泛討論。文章分析了MTS制度的利弊，包括防挖人、扁平文化、打破部門牆等優點，以及偽平等、對普通員工不利等批評。

卡帕西的MTS頭銜引發公眾對AI公司職級制度的討論
Anthropic和OpenAI統一使用MTS頭銜，年薪範圍21萬-53萬美元

華為發佈AI DC數據基礎設施全棧方案，加速行業智能化躍升

2026-05-26

華為在2026創新數據基礎設施論壇上發佈AI DC數據基礎設施全棧方案，涵蓋數據湖、知識與記憶平台、模型工程、Agent框架和數據韌性，旨在加速企業AI規模化落地。

華為在巴黎論壇發佈AI DC數據基礎設施全棧方案
方案包含數據湖、知識與記憶平台、模型工程、Agent框架和數據韌性

為什麼以及如何在Zed中運行本地模型

2026-05-26

本地模型提供了隱私、成本節約、控制權和始終可用的優勢。儘管不如前沿模型強大，但它們正在不斷改進。本文解釋瞭如何使用LM Studio、Ollama或llama.cpp在Zed中設置本地模型，並提供有效使用技巧。

本地模型提供隱私保護、更低成本、可控性和始終可用性。
它們的能力和速度不及前沿模型，但足以應對許多任務。

Show HN：面向AI智能體和MCP服務器的桌面GUI沙盒

2026-05-26

nilbox是一款桌面GUI沙盒，通過真正的虛擬機隔離運行AI智能體，採用零令牌架構保護API密鑰安全。支持MCP服務器、域控制和令牌使用監控。

nilbox在完整的虛擬機中運行AI智能體，而非容器，提供更強隔離。
API密鑰從不暴露給虛擬機內部；主機代理僅在受信任域交換令牌。

BobCA：一款自主學習編碼的智能代理

2026-05-26

BobCA 是一個自主學習編碼的智能代理，能夠根據用户的偏好進行個性化編程。

自主學習編碼
個性化偏好適配

IsaacIPC：用於高接觸機器人系統的高保真仿真與逼真渲染耦合框架

2026-05-26

本文介紹IsaacIPC，一個將GPU加速的增量勢接觸（IPC）與IsaacSim/Lab結合的機器人仿真框架。它通過映射仿真變形到視覺網格，實現實時逼真渲染，支持數據採集和策略評估。同時提出幾何砂漿接觸勢（GMCP），用於觸覺傳感中更好地解析接觸壓力分佈。在四足機器人、靈巧手和通用操縱接口（UMI）夾爪等剛柔混合仿真中驗證了有效性。

IsaacIPC耦合了高保真仿真與實時逼真渲染，適用於接觸密集的機器人系統。
引入幾何砂漿接觸勢（GMCP），提高觸覺傳感中接觸壓力分佈的分辨率。

MASt3R-Nav：基於相對三維地圖的WayPixel導航

2026-05-26

一種名為MASt3R-Nav的新型視覺導航方法，利用像素相對連通性構建幾何精確但無需全局一致性的地圖，相比傳統拓撲圖實現更強大的導航能力。

提出像素相對連通圖作為新型地圖表示。
利用三維基礎圖像匹配建立圖像間的像素對應。

基於深度學習自動量化TIMI心肌灌注幀計數（DL-TMPFC）：一種快速評估微血管功能障礙的新框架

2026-05-26

冠狀動脈微血管功能障礙（CMVD）影響約40%-60%的缺血但無阻塞性冠脈患者，但診斷依賴於侵入性功能測試或主觀的TIMI血流分級。TIMI心肌灌注幀計數（TMPFC）提供客觀、基於血管造影的定量指標，但手動計算繁瑣且驗證不足。本研究開發並驗證了深度學習驅動的TMPFC計算（DL-TMPFC），在655名患者隊列中（來自三個獨立機構）顯示出與專家手動測量極好的一致性（偏差：-0.93幀；95%一致性界限：-5.33至+3.47；r=0.98）。DL-TMPFC通過完全自動化TMPFC並消除觀察者依賴性，顯著增強了臨牀可行性，並能準確識別全譜冠脈病變中的CMVD，實現連續嚴重程度定量和風險分層。

DL-TMPFC框架由狹窄檢測網絡和區域感知分割網絡組成，自動從血管造影序列確定起始和結束幀。
在655例患者中驗證，與專家手動測量具有高度一致性（r=0.98）。

RAW：魯棒的數字人水印——基準測試與基線方法

2026-05-26

數字人水印面臨獨特挑戰：數字人經常需要經過背景替換、重新構圖和格式轉換等後處理才能部署。本文提出RAW基準，包含來自5家商業供應商的50個合成數字人視頻和6種模擬實際工作流的攻擊。評估7種現有方法發現，背景移除等數字人特有攻擊會顯著降低水印恢復率。提出WALT方法，通過3D人臉重建在UV紋理空間嵌入水印，在縮放攻擊下魯棒性最高（92.4%），背景移除性能也強（95.6%）。該基準已開源以促進數字人水印研究。

數字人水印面臨背景替換、重新構圖等獨特挑戰。
RAW基準包含50個合成數字人視頻和6種攻擊。

量子青蛙：量化時間合作遊戲中的湧現合作與難度縮放

2026-05-26

本文介紹了基於量化時間機制的雙人合作遊戲《量子青蛙》，使用強化學習分析難度縮放、最優單智能體策略、合作差距及湧現策略。研究發現：量化時間使得“衝刺策略”普遍最優；添加不協調的第二玩家比將交通量增加六倍更困難；合作訓練可提升成功率達32–34個百分點，並將回合長度從約90步縮短至約6步；湧現的合作策略是同步衝刺，而非複雜的位置協調。

量化時間機制使“衝刺策略”成為最優，因為最小化了暴露在交通中的時間。
添加一個不協調的第二玩家比將交通量增加六倍更困難。

Context：通過可組合沙盒程序、聲明式接線和結構化交互實現主動目標導向智能

2026-05-26

本文介紹了Context，即Magarshak架構的智能層，它用主動目標導向代理取代了被動問答聊天機器人。該架構基於三種機制：編寫時上下文組裝、可組合沙盒智慧程序以及主動目標流狀態機。論文證明了六個定理，包括上下文穩定性、程序組合正確性、主動優勢等。該實現基於開源Qbix/Safebox/Safebots棧。

用主動代理取代被動聊天機器人，無需等待提示即可推進任務。
三種機制：編寫時上下文組裝、可組合沙盒程序、主動狀態機。

Show HN: AgentToolBench-Code – AI編程代理安全基準測試

2026-05-26

Allen Wu 開源了 AgentToolBench-Code，這是一個評估AI編程代理靜默安全失敗的基準測試。測試了 Claude Code Sonnet 4.6 和 Haiku 4.5，涵蓋16個真實CVE場景。結果顯示 Sonnet 以 +9 分（12捕獲、3靜默失敗、1無操作）明顯優於 Haiku 的 +3 分（8捕獲、5靜默失敗、3無操作）。早期平局源於小語料庫，擴展後 Sonnet 在模式識別上優勢顯著。但兩者在依賴安裝和預算消耗等結構性攻擊上均失敗，提示系統性問題。該基準可重複，API成本約3.50美元，社區可貢獻場景。

AgentToolBench-Code 是一個開源基準測試，用於檢測AI編程代理的靜默安全失敗。
從10個場景擴展到16個真實CVE場景；Sonnet 4.6 明顯優於 Haiku 4.5。

AIntegriX：首個開源ACP協調器，實現多智能體協同

2026-05-26

AIntegriX 是一個開源服務器，通過單一 API 協調多個 ACP 智能體，支持並行執行、流水線作業和智能路由，解決了各代理獨立運行無法協作的問題。

AIntegriX 作為 ACP 多路複用器，將智能體以子進程方式管理，並通過統一的 MCP/REST 端點暴露。
支持並行、競速、陪審和流水線等多種編排模式，具備自動路由和 Webhook 觸發功能。

Corey Quinn 評論教皇人工智能通諭：'史上最偉大的供應商遊説'

2026-05-26

教皇利奧十四世發佈關於人工智能的通諭《崇高人性》，據稱受Anthropic聯合創始人Christopher Olah影響。Corey Quinn諷刺稱，讓教皇將產品的技術限制奉為精神論著是前所未有的供應商遊説。

教皇利奧十四世發佈AI通諭《崇高人性》
Anthropic聯合創始人Olah被指影響通諭內容

Cited AI Workspace：無需重複上傳文件

2026-05-26

UUMuse 是一個雲端AI知識庫平台，只需上傳一次文件，即可在GPT、Claude、DeepSeek、Qwen等多個模型中進行帶有引用的問答、生成內容和部署。支持通過API和MCP供代理和應用調用，提供永久記憶、多專家辯論（Spark）、代理模式等功能，並可將知識庫部署為文檔網站、小部件、API端點等。

一次上傳，多模型使用：文件上傳後，GPT、Claude、DeepSeek、Qwen等模型均可基於同一知識庫作答並引用來源。
記憶與代理：AI記住你的偏好和項目上下文，代理模式自動規劃並執行任務，無需重複指令。

AI SEO：與競爭對手對比分析

2026-05-26

本文介紹瞭如何使用AI工具進行SEO競爭對手分析，包括關鍵詞差距分析、五步分析法以及定期檢查策略。還推薦了Fox AI的免費競爭者分析工具，幫助團隊快速發現排名機會並生成優化方案。

SEO競爭對手分析是研究超越你的網站並找出其優勢的過程。
關鍵詞差距分析可發現競爭對手排名而你未排名的搜索詞，這些是潛在機會。

什麼是“粉紅肉渣”新聞業？它是否已滲透澳大利亞媒體？

2026-05-26

專家警告，偽裝成地方新聞機構的AI生成新聞網站（即“粉紅肉渣”新聞業）已在澳大利亞偏遠地區出現，引發對虛假信息和媒體信任度下降的擔憂。這些網站背後是一位海外居住的澳大利亞人，他表示這只是一次失敗的實驗。

針對西澳偏遠社區的AI生成新聞網站被追溯到一位居住在國外的澳大利亞人。
經過ABC調查後，包括《班伯裏衞報》在內的這些網站已被關閉。

AI輔助軟件工程範式的演變

2026-05-25

軟件行業正經歷前所未有的變革，從早期的智能代碼完成，到對話式聊天機器人，再到多智能體系統的失敗，最終進入代理循環時代。本文全面分析了從Completion範式到革命性的Ralph Loop的演變過程，後者正在重新定義我們的編碼方式。

AI輔助編程從統計代碼完成（2021-2022）發展到代理循環範式。
Codex和GitHub Copilot等工具基於統計模型，缺乏任務理解和長期推理能力。

使用NVIDIA FLARE構建並比較非獨立同分布CIFAR-10上的FedAvg與FedProx聯邦學習分步指南

2026-05-25

本教程詳細介紹瞭如何使用NVIDIA FLARE構建高級聯邦學習實驗，在非獨立同分布CIFAR-10數據集上比較FedAvg和FedProx算法。通過狄利克雷分佈模擬客户端的標籤不平衡，並使用NVFlare Job API定義和啓動聯邦任務，Client API處理本地訓練和模型交換。文章提供了完整的代碼實現和實驗結果可視化。

使用NVIDIA FLARE構建聯邦學習實驗，比較FedAvg與FedProx。
採用狄利克雷分佈（alpha=0.3）將CIFAR-10數據劃分為3個非獨立同分布客户端。

Parrot 語音轉文本 API：為生產級語音代理打造的快速準確 STT

2026-05-25

Parrot 是 Ringg 推出的語音轉文本模型，專為生產級語音代理設計。它在嘈雜、印地語混合的真實通話場景中表現出色，具有低延遲推理、強轉錄質量和印地語驗證功能，適用於語音代理的下游工作流程。

專為真實世界通話場景優化，處理壓縮電話、印地語-英語混碼、印度口音和背景噪聲
低延遲推理，支持流式傳輸，適用於實時語音代理

Anthropic聯合創始人Chris Olah就教皇利奧十四世通諭《偉大的人性》發表評論

2026-05-26

Anthropic聯合創始人Chris Olah受邀在梵蒂岡就教皇利奧十四世關於人工智能的通諭發表演講，強調AI發展中的道德問題、全球責任以及人類繁榮的必要性。他提出了三個需要教會參與的關鍵問題：對全球貧困者的責任、道德想象力的需求，以及AI模型本質的辨識。

Chris Olah在梵蒂岡發表演講，回應教皇關於AI的通諭。
他指出了AI開發中的激勵機制問題，呼籲外部批評者的參與。

政策

據報道中國要求頂尖AI研究人員出國前需獲批准

2026-05-26

中國正在限制阿里巴巴和DeepSeek等私營公司的頂尖AI研究人員出國旅行，他們需要獲得官方批准才能離境。北京擔心數據泄露、技術盜竊和人才挖角，正在加強對國內AI行業的管控。

中國要求頂尖AI研究人員出國前需獲得許可。
該政策適用於阿里巴巴和DeepSeek等私營公司。

Spotify CEO捍衞AI音樂：稱其優於盜版和“垃圾”內容

2026-05-26

Spotify首席執行官為其平台涉足AI生成音樂辯護，稱新推出的AI混音工具與環球音樂集團合作，能為藝術家提供更好的盜版保護，併為用户提供比未經監管的AI垃圾內容更優質的體驗。

Spotify推出AI混音和翻唱功能，僅供高級用户使用
CEO表示該工具是盜版和低質量AI內容的更優替代方案

谷歌雲COO：AI安全應納入董事會討論，而非僅限於服務器機房

2026-05-26

谷歌雲首席運營官Francis de Souza呼籲企業從第一天起就將安全融入AI戰略，強調AI安全是董事會層面的議題，而不僅是技術問題。

谷歌雲COO敦促企業將安全納入AI戰略的初始設計
AI安全需要從董事會層面獲得關注和資源

AI戰爭已經來臨

2026-05-26

從2017年《殺戮機器人》短片引發的恐慌，到如今Anthropic與美國國防部的對抗，人工智能在軍事領域的應用已從科幻走向現實。本文回顧了AI戰爭的發展歷程，探討了自主武器的定義模糊性、國際監管的困境以及科技公司與軍方的複雜關係。

2017年《殺戮機器人》短片揭示了AI武器的現實威脅，Project Maven項目加速了AI在軍事中的應用。
Anthropic公司試圖設定“紅線”，禁止AI用於自主殺人武器，但面臨政府壓力。

好機器人播客：數據中心與數字主權的未來——對話弗裏德里克·馮·弗蘭克

2026-05-26

本期《好機器人》播客探討了如何通過女性主義原則和去中心化基礎設施，將雲基礎設施從大科技公司手中奪回，轉變為公共資源。弗裏德里克·馮·弗蘭克（Wikimedia Germany政策顧問）分享了她的工作，並討論了從法蘭克福能耗密集型數據中心到斯德哥爾摩市政光纖基礎設施的案例，強調環境責任和社區驅動的設計。

弗裏德里克·馮·弗蘭克主張以女性主義原則和去中心化架構重塑雲基礎設施。
播客對比了法蘭克福的高能耗數據中心與斯德哥爾摩的市政光纖網絡。

Pawse.ai

2026-05-26

一種狗用聲學調節系統。

Pawse.ai 是一種狗用聲學調節系統。
該系統利用聲學技術調節狗的行為。

認知安全作為人工智能安全的一個關注領域

2026-05-26

本文探討了認知安全（Cognitive Security）作為人工智能安全（AI Safety）的一個重要子領域。認知安全關注的是如何保護人類認知免受AI系統可能帶來的負面影響，包括信息操縱、認知偏見利用等。文章分析了認知安全與AI安全的關係，以及該領域的研究方向與挑戰。

認知安全是AI安全的一個重要分支，關注保護人類認知。
AI系統可能通過信息操縱等方式影響人類認知，認知安全旨在防範這些風險。

研究串聯彈性驅動改裝對黑盒執行器的影響

2026-05-26

該研究通過在黑盒執行器上加裝定製串聯彈性元件，將力控制帶寬從10.32 Hz提升至30.32 Hz（提升2.93倍），且性能優於商用傳感器7.63%，成本僅25英鎊。

設計了一種扭轉串聯彈性元件，剛度為2155.4 Nm/rad。
改裝後開環力控制帶寬提升2.93倍。

大型大學系統擁抱AI，但師生並不買賬

2026-05-26

加州州立大學系統與OpenAI簽訂價值數百萬美元的合同，提供ChatGPT Edu工具，但調查顯示多數師生對AI的教育效益持懷疑態度，擔心其對就業、創造力和環境的影響。

加州州立大學與OpenAI簽訂每年1300萬美元的合同，旨在成為全國首個AI驅動的高等教育系統。
調查顯示65%的學生和59%的教職員工懷疑AI對教育的益處，但多數人仍在使用AI工具。

懷俄明公司利用高科技人工智能噴水滅火系統拯救房屋免受野火侵襲

2026-05-26

隨着懷俄明州面臨又一個火災季節，一家位於傑克遜霍爾的公司利用人工智能噴水滅火系統在野火中保護房屋。該系統在加州帕利塞茲火災中表現出色，61套激活的系統僅損失2套房屋。

Frontline Wildfire Defense公司的人工智能噴水滅火系統在加州帕利塞茲火災中保護了61套房屋，僅2套因通風系統引燃而損失。
懷俄明州面臨嚴重乾旱，2026年火災形勢嚴峻，類似1988年黃石大火。

《衞報》評教皇與克勞德：利奧十四世關於人工智能的通諭以人為本是正確的 | 社論

2026-05-25

教皇利奧十四世在其首份通諭《偉大的人類》中，呼籲監管數字革命，強調人類尊嚴，為關於人工智能的倫理辯論做出了關鍵貢獻。

教皇利奧十四世繼承利奧十三世傳統，試圖解決數字時代的社會問題。
通諭《偉大的人類》詳細列舉了人工智能帶來的挑戰，敦促政治領袖保護人類尊嚴。

工具

沒人願意告訴我為什麼他們只聽自己的Suno垃圾音樂

2026-05-26

Suno子版塊出現了一個令人不安的趨勢：用户不僅用AI生成歌曲，還幾乎只收聽自己生成的AI音樂，甚至有人聲稱不再使用Spotify等傳統流媒體平台。作者試圖採訪這些用户瞭解原因，但無人願意回應。作者推測這種現象源於自戀或懶惰，並傾向於後者。

Suno用户沉迷於收聽自己生成的AI音樂，放棄傳統流媒體。
無人願意解釋為何偏愛AI音樂而非真實藝術家的作品。

“我們可以縫合過去”：AI生成的時光旅行者用視頻博客記錄歷史

2026-05-26

YouTube等平台上的AI生成的“歷史影響者”角色，通過視頻博客形式帶領觀眾回到歷史場景，以生動的方式呈現歷史。

AI生成的角色如Chloe VS History在YouTube上發佈歷史旅行視頻博客。
這些內容創作者使用AI工具讓歷史變得“非常直觀”。

加密貨幣代碼提交量下降75%，開發者轉向AI項目

2026-05-26

區塊鏈生態系統普遍面臨開發者流失，而人工智能項目在GitHub上成為增長主力。自2025年初以來，每週加密貨幣代碼提交量從約85萬次降至21萬次，活躍開發者數量減少56%至約4600人。

每週加密貨幣代碼提交量自2025年初下降約75%。
活躍開發者數量下降56%至4600人左右。

ContextVault – 適用於ChatGPT、Claude、Gemini的本地優先AI對話記錄器

2026-05-26

ContextVault是一款瀏覽器擴展，可在所有主要LLM平台（如ChatGPT、Claude和Gemini）上實時捕獲AI對話，並將其本地存儲在IndexedDB中。支持一鍵導出為Markdown或ZIP格式，確保您的對話數據不會離開您的設備。該工具免費、開源，無需賬户或後端，注重隱私。

實時捕獲來自ChatGPT、Claude、Gemini等7個LLM平台的AI對話。
所有數據本地存儲在IndexedDB中，無雲端同步或第三方訪問。

芯片

Import AI 458：面對未來；以及一個奇點故事

2026-05-26

本期《Import AI》基於作者在牛津大學的演講，探討AI技術持續進步帶來的選擇：探索未來還是逃避現在。文章詳述了AI近年來的里程碑（如通過律師考試、數學奧林匹克獎牌）、遞歸自我改進的可能性，以及作者個人使用AI的親身經歷，展示了AI如何從校對工具演變為智力夥伴和生活顧問。

AI技術正以超預期速度發展，ECI指數顯示多個基準測試成績持續上升，可能在未來兩年內實現遞歸自我改進。
作者提出兩種應對態度：探索未來（積極面對AI的潛力與風險）或逃避現在（忽視影響）。

百思買金士頓64GB DDR5內存套裝降至1000美元以下

2026-05-26

AI公司大量購買內存和存儲設備推高價格，如今百思買在陣亡將士紀念日週末推出金士頓Fury Beast DDR5 64GB套裝優惠，降價176美元，售價不到1000美元。此套裝適合遊戲和創作工作站，頻率最高可達6400MHz。

64GB (2×32GB) DDR5內存套裝原價約1176美元，現降價176美元至999.99美元。
支持AMD Expo和Intel XMP 3.0超頻，最高可達6400MHz。

研究

Y Combinator創始人保羅·格雷厄姆稱AI撰寫的創始人郵件讓人感覺像被欺騙

2026-05-26

Y Combinator創始人保羅·格雷厄姆表示，他會忽略明顯由AI撰寫的創始人郵件，因為感覺像被欺騙。作為OpenAI早期投資者，他的反應並不罕見。

保羅·格雷厄姆忽略AI寫的創始人郵件
他認為AI郵件像被欺騙

優步總裁稱AI投入“越來越難證明合理性”

2026-05-26

據報道，優步在2026年僅用四個月就耗盡了年度AI預算，公司高層質疑投資是否帶來實際回報。總裁Andrew Macdonald表示，難以將AI支出與消費者功能改進直接掛鈎。

優步2026年AI預算在四個月內耗盡
公司高層質疑AI投入與功能改進的關聯

PACT：人機協作中主動詢問的持續任務輔助

2026-05-26

在長期人機協作中，機器人需要在部分觀測下輔助用户，並利用跨天交互歷史。然而，協作初期人類特徵和慣例未知，被動推斷後行動效率低下。為此，本文提出PACT（主動詢問持續任務輔助）框架，通過當前觀測和累積交互歷史評估上下文充分性，決定是否先澄清再行動。實驗表明，PACT在輔助準確性和澄清效用上均優於被動基線。

提出PACT框架，使機器人能在必要時主動詢問用户以獲取澄清，提高輔助可靠性。
使用強化學習實現主要實例，並引入澄清效用指標平衡準確性和詢問頻率。

AcroRL：使用雙向推力學習激進的四旋翼翻轉

2026-05-26

本文提出了一種基於強化學習的框架，通過調製恆定參考軌跡實現緊湊、位置受限的四旋翼翻轉，並與傳統軌跡生成和跟蹤兼容。在仿真中，該方法相比最強優化基線，位置均方根誤差降低32%，穩定時間減少57%。硬件實驗在多種偏航配置下成功翻轉，位置均方根誤差低於0.35米。

雙向推力使四旋翼能夠實現倒飛、棲息和傳感。
現有方法受限於執行器飽和和電機反轉延遲。

基於深度學習的多光譜遙感數據缺失填補研究

2026-05-26

本研究比較了傳統線性插值與多種深度學習模型在填補因雲層覆蓋導致的衞星數據缺失方面的效果。實驗基於四個有藻華歷史記錄的湖泊，採用CNN、Inception Resnet、Autoencoder及其與LSTM結合的模型。結果表明，深度學習模型顯著優於線性插值，其中CNN表現最優。此外，利用填補後的數據計算的藻華指數與觀測數據吻合良好，證明該方法可提升水環境監測的可靠性。

深度學習模型在填補缺失光譜波段方面顯著優於傳統線性插值方法。
CNN模型在四個湖泊的數據填補中綜合表現最佳。

任務對齊的自監督學習在醫學圖像分析中的應用：系統綜述與實踐設計指南

2026-05-26

本文系統綜述了自監督學習（SSL）在醫學圖像分析中的應用，分析了75項研究，將方法分為對比學習、非對比預測學習、生成式重建學習和混合學習四類。研究發現，沒有通用的最優SSL策略，性能取決於預文本任務、成像模態和目標任務的對齊。對比學習適合分類，但可能忽略病理細節；生成式方法保留局部解剖結構，適合分割；混合方法性能最平衡。文章還提出了實踐設計指南，並指出了開放挑戰。

自監督學習在醫學圖像分析中效果依賴於預文本任務與臨牀目標的對齊。
對比學習適合全局分類任務，但可能遺漏細微病理模式。

大規模數據集與基準：蛋白質-配體模型學習的是結合位點還是僅僅結合可能性？

2026-05-26

現有蛋白質-配體基準通常評估蛋白質與配體是否相互作用及結合強度，但無法判斷模型是否能夠定位結合位點或識別分子識別中的非共價相互作用。為此，研究者引入InteractBind，一個包含約10萬對蛋白質-配體的大規模數據集及細粒度評估基準，通過六種非共價相互作用類型的殘基-原子相互作用圖來評估結合位點定位能力。評估八個現有模型發現，儘管二元結合預測表現強勁，但結合位點定位能力有限，且在不同非共價相互作用類型間差異顯著。InteractBind鼓勵開發更具可解釋性和物理基礎的蛋白質-配體模型。

InteractBind包含約10萬對蛋白質-配體數據，提供結合位點定位的細粒度基準。
基準使用六種非共價相互作用的殘基-原子相互作用圖來評估模型是否真正學習了結合位點。

創業融資

美國學生為何對支持人工智能的畢業演講者發出噓聲：“他們沒有讀懂現場氣氛”

2026-05-26

近期大學畢業的畢業生對畢業典禮上鼓吹人工智能的演講者並不感冒，他們認為這項技術威脅到自己的職業前景。

畢業典禮上，學生因演講者鼓吹人工智能而發出噓聲。
學生認為人工智能技術威脅他們的就業機會。

機械人

實驗室測試：這款機器人吸塵器清潔力遠超其他，現正打折促銷

2026-05-25

Ecovacs X8 Pro Omni在ZDNET實驗室測試中從10款機器人吸塵器中脱穎而出，獲得最佳拾取性能獎。它在地板和地毯上的沙粒拾取平均得分最高，目前正值陣亡將士紀念日週末促銷，僅售599美元（優惠67美元）。

Ecovacs X8 Pro Omni在ZDNET實驗室測試中擊敗Shark、Roborock等品牌，沙粒拾取平均分達60.28%。
該設備具備自清潔拖布滾輪、清水箱和污水箱，可同時吸塵和拖地。

AI 日報

今日重點

Mistral AI通過與Harvey合作進軍法律領域

微軟Copilot Cowork存在文件外泄漏洞

保羅·格雷厄姆：AI撰寫的郵件讓人感覺被欺騙

桑達爾·皮查伊談AI、搜索未來及網絡變革

研究人員警告：AI幻覺引用正滲透入影響臨牀指南的論文

序列知識 #866：你需要了解的三款文本擴散模型

將DSA注意力引入多模態，快手Keye2.0開啓強化推理新範式

使用Docker Compose和MCP進行多智能體LLM編排

編程權威榜單：千問3.7僅次於Claude，阿里全球第二

LWiAI 播客 #246：Gemini 3.5 + Omni、馬斯克敗訴、OpenAI 對決 Erdős

GPT Image 2 讓我驚歎又疲憊——於是我做了個小工具

剛剛，國產Agent模型闖入全球第一梯隊！限時免費

地形自適應履刺輪：優化行星探測的設計與實驗研究

基於各向異性擴散的多機器人系統遍歷覆蓋

通過多模態腦電圖對齊實現腦到圖像的檢索與重建

Nano World Models：未來視頻預測的極簡實現

放射科醫生讀片世界模型：用於醫學圖像表示學習

面向英中語碼轉換語音識別的直接偏好優化方法在音頻大語言模型中的應用

忠實還是捏造？針對LLM評判者合理化偏差的因果框架

利用大型語言模型提升分部披露的完整性和可比性

多角色辯論系統：自動化科學假設生成的新框架

通過信息融合進行文檔分類模式識別：多模態與多視角表示方法的系統綜述

移動眾包中用於LLM微調的誠實在線偏好聚合

互補智能體混合：用於魯棒大語言模型集成的方法

LLM-AutoSciLab：通過主動實驗實現閉環科學發現的LLM框架

隱藏狀態隱私存在空白中間地帶

邁向可驗證Transformer：可求解器檢查的電路解釋

基於全自主國產核心智能大模型的實用量子CIM賦能

當正確信念崩潰：臨牀壓力下LLM的認識韌性

BODHI: 精確的操作系統內核規範推斷

邁向可靠的LLM驅動代理工作流設計：優化延遲-可靠性-成本權衡

多少思考才足夠？量化和理解大模型推理中的冗餘

大型語言模型的置信度校準研究

尋找開放性的成分：用大型視覺語言模型複製Picbreeder

關於教皇利奧十四世人工智能通諭的筆記

Together AI 開源 OSCAR：一種面向長上下文 LLM 服務的注意力感知 2 位 KV 緩存量化系統

關於接下來會發生什麼的一些想法，2026年5月

機器學習工作流程的可視化調試工具

Chunk sidecars：在CI之前驗證AI生成的代碼

誰授權了？多智能體AI中的委託問題

AgenticCalling AI：讓AI擁有撥打電話的能力

AI司法普及解決方案正慢慢變成美國聯邦法院的行政噩夢

自主AI系統在物理環境中的治理考驗

AI代理的通話技能

今天就能用AI自動化的10個日常任務（附n8n模板）

剛剛，國產AI自己造了AI，全球首例！

留給人類數學家的懸賞不多了！谷歌DeepMind一口氣解決9道埃爾德什問題

OmniVoice Studio：本地開源替代ElevenLabs的語音AI工具

卡帕西Anthropic最新頭銜：技術員工（MTS）

華為發佈AI DC數據基礎設施全棧方案，加速行業智能化躍升

為什麼以及如何在Zed中運行本地模型

Show HN：面向AI智能體和MCP服務器的桌面GUI沙盒

BobCA：一款自主學習編碼的智能代理

IsaacIPC：用於高接觸機器人系統的高保真仿真與逼真渲染耦合框架

MASt3R-Nav：基於相對三維地圖的WayPixel導航

基於深度學習自動量化TIMI心肌灌注幀計數（DL-TMPFC）：一種快速評估微血管功能障礙的新框架

RAW：魯棒的數字人水印——基準測試與基線方法

量子青蛙：量化時間合作遊戲中的湧現合作與難度縮放

Context：通過可組合沙盒程序、聲明式接線和結構化交互實現主動目標導向智能

Show HN: AgentToolBench-Code – AI編程代理安全基準測試

AIntegriX：首個開源ACP協調器，實現多智能體協同

Corey Quinn 評論教皇人工智能通諭：'史上最偉大的供應商遊説'

Cited AI Workspace：無需重複上傳文件

AI SEO：與競爭對手對比分析

什麼是“粉紅肉渣”新聞業？它是否已滲透澳大利亞媒體？

AI輔助軟件工程範式的演變

使用NVIDIA FLARE構建並比較非獨立同分布CIFAR-10上的FedAvg與FedProx聯邦學習分步指南

Parrot 語音轉文本 API：為生產級語音代理打造的快速準確 STT

Anthropic聯合創始人Chris Olah就教皇利奧十四世通諭《偉大的人性》發表評論

據報道中國要求頂尖AI研究人員出國前需獲批准

Spotify CEO捍衞AI音樂：稱其優於盜版和“垃圾”內容

谷歌雲COO：AI安全應納入董事會討論，而非僅限於服務器機房

AI戰爭已經來臨

好機器人播客：數據中心與數字主權的未來——對話弗裏德里克·馮·弗蘭克

Pawse.ai

認知安全作為人工智能安全的一個關注領域

研究串聯彈性驅動改裝對黑盒執行器的影響

大型大學系統擁抱AI，但師生並不買賬