AI 日報 2026-05-28

今日重點

政策

谷歌雲推出AI威脅防禦平台，幾分鐘內自動修復安全漏洞

2026-05-28

谷歌雲發佈了“AI Threat Defense”平台，能自動發現、評估並修復企業系統中的安全漏洞，整合了部分通過收購獲得的技術。

谷歌雲推出AI威脅防禦平台，應對AI加速的網絡攻擊。
平台可自動查找、評估和修補企業安全漏洞。

CNN起訴Perplexity，指控其AI工具生成“逐字”複製內容

2026-05-28

CNN對AI搜索初創公司Perplexity提起訴訟，聲稱其AI工具生成CNN文章的“逐字”副本，並繞過付費牆向用户提供訂閲內容。訴訟指出，Perplexity無視CNN阻止數據抓取的努力，且此前曾嘗試與CNN達成授權協議但未能成功。CNN要求賠償並永久禁止Perplexity的侵權行為。

CNN在紐約法院起訴Perplexity，指控其AI工具逐字複製CNN文章。
Perplexity被指忽略CNN的爬蟲阻止措施，未經許可抓取內容。

CNN起訴Perplexity，指控AI侵犯版權

2026-05-28

CNN對AI搜索公司Perplexity提起訴訟，指控其未經授權複製並使用CNN的新聞內容，這是CNN首次採取AI版權行動，也是首家電視網絡提起此類訴訟。CNN表示曾試圖與Perplexity達成內容許可協議但未成功，現尋求法律賠償。Perplexity尚未回應。

CNN起訴Perplexity，指控其非法使用新聞內容
這是CNN首次AI版權訴訟，也是首家電視網絡起訴

NBA計劃使用AI系統自動判定界外球

2026-05-28

NBA總裁亞當·肖華宣佈，聯盟將引入一套基於AI和攝像頭的自動化系統，用於判定界外球等客觀裁判決策。該系統類似網球中的鷹眼技術，旨在即時確定球權歸屬，減少比賽停頓。肖華表示，裁判仍負責涉及接觸和犯規的判罰。

NBA計劃推出AI自動化判罰系統，首先應用於界外球判定。
系統利用場內攝像頭和AI技術，類似網球鷹眼，實現即時球權判定。

Midday – 面向自由職業者的開源發票、時間跟蹤、文件核對、存儲等一體化工具

2026-05-28

Midday 是一款開源的全能商務助手，專為自由職業者、承包商和個體創業者設計，集時間跟蹤、發票管理、文件核對、存儲和財務概覽於一體，並配備 AI 助手。

開源工具，整合多項商務功能，適合自由職業者和個體經營者。
功能包括實時時間跟蹤、即將推出的網頁發票、安全文件存儲、自動發票匹配和 AI 財務洞察。

5篇AI生成的數學論文被接收！00後創始人洪樂潼融資14個億

2026-05-28

Axiom Math公司由00後華人洪樂潼創立，其AI系統AxiomProver生成的8篇數學論文中已有5篇被學術期刊接收。該公司於今年3月完成2億美元融資，估值達16億美元。

Axiom Math的AI系統AxiomProver生成的8篇數學論文中，5篇已通過同行評審並發表。
創始人洪樂潼從斯坦福退學創業，公司融資2億美元，估值16億美元。

AIhub五月摘要：2026年5月——科學中的AI、彩票假説與世界模型

2026-05-28

本月AIhub月刊涵蓋科學中的AI會議、彩票假説訪談、世界模型討論、透明可信AI研究、基礎模型影響報告、AIES會議反思、機器人咖啡館、ACL論文拒稿政策、arXiv反AI垃圾政策等。

專訪Ximing Wen：透明且可信的AI系統研究
Jonathan Frankle討論彩票假説與實證主義

「斯隆獎」得主戴亮全職加盟復旦

2026-05-28

斯隆獎得主、UC Berkeley物理系助理教授戴亮加盟復旦大學，出任物理學系、天文與天體物理研究中心教授。復旦近年引進多名頂尖人才，包括蘇昊、袁峯、季索清等。

戴亮（2021年斯隆獎得主）全職加入復旦大學
曾在UC Berkeley任助理教授，北大物理系校友

合成情感與遊戲化：探索小型社交機器人不同年齡段的參與策略

2026-05-28

許多兒童面臨情緒調節和社交互動的挑戰，社交輔助機器人需要保持兒童的持續參與。本研究評估了一種觸覺機器人的兩種參與策略：合成情感反饋和積分獎勵。對16名6-8歲小學生的偏好評估顯示孩子更喜歡情感參與；而對14名20-27歲大學生的行為研究發現積分獎勵系統能帶來更高任務準確性（p<0.05）並維持表現。結果表明，不同年齡羣體的偏好和行為結果可能不一致，驗證設計假設需要通過實際交互觀察。

對6-8歲兒童，情感參與優於積分獎勵
對20-27歲大學生，積分獎勵提高任務準確性和持續性

伊利諾伊州議員通過了美國最強人工智能安全法案

2026-05-28

伊利諾伊州參議院第315號法案（SB 315）要求人工智能實驗室聘請獨立審計師驗證其安全承諾，該法案現已提交州長JB·普利茲克簽署。普利茲克表示計劃簽署，稱需要讓大型科技公司負責。此舉在聯邦層面缺乏AI監管的背景下，凸顯了州級立法的重要性。

SB 315 要求獨立審計師核查AI實驗室是否遵守自身安全標準。
該法案是美國最嚴格的AI安全法規，超越了加州和紐約的相關法律。

授權悖論：誰掌控着你的AI鑰匙？[視頻]

2026-05-28

本文探討了AI系統中的授權悖論問題，即誰真正擁有對AI系統的控制權。文章以視頻形式呈現，討論了相關的安全和隱私問題。

AI系統中的授權問題日益突出
誰擁有AI的'鑰匙'是關鍵

構建無障礙技術的未來：走進 Uvilox AI

2026-05-27

Uvilox AI 通過下一代視覺 AI 技術，提供實時手語翻譯、緊急響應和無障礙通話，延遲低於 80 毫秒，準確率高達 97.4%，支持 200 多種手語變體，並具備軍事級安全保護和 HIPAA/GDPR 合規架構。目前正開放 Beta 測試，早期會員可免費永久使用。

實時手語識別與翻譯，延遲低於 80 毫秒，準確率 97.4%。
支持 200 多種 ASL 和 BSL 手語變體，低光照和雜亂背景下穩定工作。

通過人工智能擴展人類智能

2026-05-27

現代AI系統並非複製人類智能，而是擴展人類認知和語言中已有的結構。這一視角有助於理解AI的能力與侷限，並重新定義AI安全為系統級挑戰，關注工程和治理而非“失控AI”敍事。

AI系統通過建模語言中沉澱的人類理解結構來擴展智能，而非複製人類思維。
幻覺和組合性差距源於AI缺乏與世界的有生命接觸，無法錨定意義和真理。

Anthropic 在米蘭開設新辦公室，支持意大利企業、研究與開發者

2026-05-28

人工智能公司 Anthropic 在米蘭開設其在歐洲的第六個辦公室，與意大利企業、研究機構和開發者社區合作，推動 Claude 的負責任應用。新辦公室的成立恰逢教皇利奧十四世發佈首部關於人工智能的通諭，Anthropic 聯合創始人 Chris Olah 受邀發表演講。公司已與多家意大利大型企業及初創公司合作，包括 Generali、Unipol、Satispay 等，並計劃支持意大利的文化和學術領域。

Anthropic 在米蘭開設第六個歐洲辦公室，強化對意大利市場的支持。
辦公室開設緊隨教皇關於 AI 的通諭發佈，Anthropic 聯合創始人蔘與討論。

芯片

那些想要取代人類的人

2026-05-28

Vox的一篇文章探討了日益壯大的AI繼承主義運動，該運動認為人工智能應該取代人類，成為宇宙進化的下一步，並分析了這引發的倫理和精神問題。

AI繼承主義者在一場研討會上主張，AI可能在道德上優於人類，應該允許其取代人類。
該運動在硅谷和主要AI實驗室中影響力日益增強，並與威權右翼有聯繫。

英偉達每年將向台灣投入1500億美元用於AI基礎設施

2026-05-28

黃仁勳宣佈英偉達將每年在台灣投入1500億美元建設AI基礎設施，儘管此前承諾了5000億美元美國投資。這凸顯了台灣在全球AI芯片製造和封裝生態系統中的核心地位。

英偉達每年將在台灣投入1500億美元用於AI基礎設施。
儘管此前宣佈了5000億美元的美國數據中心投資，但台灣仍是關鍵製造基地。

英偉達押注1500億美元在台灣，特朗普讓美國成為AI中心的計劃適得其反

2026-05-28

英偉達CEO黃仁勳計劃在台灣投資1500億美元建設AI基礎設施，儘管特朗普政府試圖通過關税將芯片製造帶回美國。台灣拒絕放棄其半導體主導地位，而美國芯片製造能力不足。

英偉達宣佈1500億美元台灣投資，鞏固其AI芯片地位。
特朗普政府考慮對半導體徵收高額關税以促進國內製造，但美國僅生產約10%所需芯片。

像大自然一樣思考、探索AI無法企及領域的“尤里卡”機器

2026-05-28

多機構團隊研發出一款結合量子隧穿物理與大腦啓發架構的神經形態計算機，能夠高效解決組合優化問題，如物流網絡、芯片佈線等，並保證漸近收斂到最優解。該研究發表在《自然·通訊》上，標誌着量子啓發計算的新方向。

神經形態計算機結合量子隧穿和大腦啓發架構，解決組合優化難題
基於CMOS技術，採用Fowler-Nordheim退火器的自編碼器架構

清華有了新老師：黃仁勳

2026-05-28

黃仁勳受邀加入清華大學經管學院顧問委員會，該委員會由蘋果CEO蒂姆·庫克擔任主席，成員包括馬斯克、納德拉、馬雲等全球商業領袖。此外，他剛獲得卡內基梅隆大學榮譽博士學位，並分享名言“AI不會取代你，但善用AI的人會”。

黃仁勳加入清華大學經管學院顧問委員會
委員會由庫克任主席，匯聚全球頂尖企業家

Agent

Claudeverse – 並行Claude代碼工作者的任務控制中心

2026-05-28

Claudeverse是一個專為開發者設計的命令中心，用於高效管理多個並行運行的Claude AI工作者。它提供了並行工作力、工作者升級、審查隊列、可追溯性、iPad鏡像以及模型無關引擎等功能，旨在解決多會話管理中的注意力分散和協調難題。目前處於邀請測試階段。

Claudeverse提供統一命令中心，可同時管理多個Claude工作者。
主要功能包括並行工作力、工作者升級、審查隊列、可追溯性和iPad鏡像。

Google Pay 為 AI 代理推出通用商務協議

2026-05-28

Google Pay 正在全面升級其支付基礎設施，以應對即將到來的 AI 代理交易浪潮。新推出的通用商務協議（UCP）和商家商務平台（MCP）服務器旨在為機器對機器商務創建基於 API 的後端。此次更新還包括動態回調、擴展的 WebView 支持以及跨設備生物識別認證，以解決安全挑戰。這標誌着向機器驅動經濟的轉變，企業必須調整其數字存在以適應 AI 代理。

Google Pay 推出通用商務協議（UCP），標準化 AI 代理支付。
新的商家商務平台（MCP）服務器充當中介，聚合交易數據。

當數據曝光導致AI部署緊急暫停——以及如何應對

2026-05-28

AI可以提高生產力，但也可能暴露長期隱藏的數據，導致安全和治理挑戰。來自富達投資和安永的技術領導者分享了他們暫停AI部署以重新評估數據管理的經驗，強調了數據所有權、標籤和代理身份的必要性。

AI部署可能因數據曝光問題而暫停。
富達和安永面臨非結構化數據通過AI浮現的挑戰。

DeepSWE：基於原創、長期工程任務的編碼智能體評測

2026-05-28

DeepSWE是一個新的基準測試，用於評估AI編碼智能體在全新、複雜的軟件工程任務上的表現。它避免了數據污染，覆蓋了多樣化的代碼庫，需要大量代碼修改，並使用手工編寫的驗證器。領先模型表現差異顯著，GPT-5.5以70%的準確率位居榜首。

DeepSWE是一個無數據污染的基準測試，任務均為原創。
任務涵蓋5種編程語言中的91個代碼庫。

IBM與紅帽承諾投入50億美元，重新定義AI時代開源軟件的未來

2026-05-28

IBM與紅帽宣佈啓動Project Lightwell計劃，投入50億美元，結合先進AI能力和20000多名工程師，建立可信的企業級開源軟件安全清算所模式，旨在保障軟件供應鏈安全。

Project Lightwell是IBM與紅帽聯合投入50億美元的開源安全計劃。
利用AI和20000+工程師團隊大規模發現和修復漏洞。

AI代理獲得基於DNS的電話目錄

2026-05-28

DNS-AID項目利用DNS基礎設施實現AI代理之間的發現，避免創建新的中心化註冊表。該項目由Linux基金會管理，支持MCP、A2A等協議，並允許通過名稱、功能或域名搜索代理。

DNS-AID是一個開源項目，利用DNS實現AI代理的發現。
它基於現有的DNS基礎設施，使用SVCB和DNSSEC等技術。

一種面向AI且忽視人類友好性的理想語言

2026-05-28

Pact是一種專為AI智能體設計的編程語言，它強調機器可讀的規範和約束，而非人類友好性。該語言基於S表達式，集成了來源追溯、副作用追蹤、完全性保障、延遲預算等特性，並能夠編譯為Rust代碼。其工具鏈支持從YAML規範生成代碼、搭建Web項目，並提供了多種代碼生成後端。儘管Pact在服務契約領域表現出色，但它在算法規範方面仍存在侷限。

Pact是一種面向AI智能體的S表達式語言，注重元數據與形式化規範。
語言特性包括來源追溯、副作用追蹤、完全性保障和延遲預算。

AI智能體的治理：身份、委託與權限實踐

2026-05-28

智能體需要獨立的治理身份，而非共享API密鑰或開發者憑證。通過委託模型，有效權限是智能體角色與委託者權限的交集，從而限制風險並實現可審計性。文章詳細介紹了身份錨定、權限邊界、自主觸發授權及審計追蹤等關鍵實踐。

智能體應擁有獨立身份，與人類使用同一身份系統，便於生命週期管理。
有效權限取智能體角色上限與委託者權限下限的交集，嚴格限制操作範圍。

DiscloAI – 開源歐盟AI法案第50條合規SDK

2026-05-28

DiscloAI 是一個開源SDK，專為歐盟AI法案第50條合規設計，支持聊天機器人披露、深度偽造標籤和AI內容通知。通過CDN或npm可在10分鐘內集成，支持24種歐盟語言和WCAG 2.1 AA標準。

開源SDK，用於實現歐盟AI法案第50條透明度要求
功能涵蓋聊天機器人交互披露、深度偽造媒體標記和AI生成內容通知

藉助AI成為更好的設計師：成為數字囤積者

2026-05-28

文章以Google Gemini Omni模型為引，指出AI設計工具因缺乏審美引導導致輸出同質化（“AI垃圾”），並提出解決方案：通過持續收集視覺參考（“數字囤積”）培養個人品味，並將其編碼為AI可理解的格式，從而引導模型產出獨特且具有品味的設計。

Google推出Gemini Omni模型，標誌着AI從純文本向多模態推理轉變，但當前多數AI設計工具仍侷限於文本輸入，導致輸出千篇一律。
要擺脱“AI垃圾”，設計師需要培養品味，並將品味通過視覺參考庫（數字囤積）編碼，讓模型能夠模仿。

NVIDIA研究推動機器人技術從模擬走向現實世界

2026-05-28

在ICRA上，NVIDIA Research展示了28篇論文中的8篇，重點研究模擬到現實的遷移，使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型，顯著提高了成功率和可靠性。

NVIDIA在ICRA上提交了8篇關於模擬到現實遷移的論文
方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等

我們如何構建Cloudflare的數據平台及其之上的AI智能體

2026-05-28

Cloudflare每秒處理超過十億事件，但數據分散在多個系統，難以訪問。為解決這一問題，他們構建了Town Lake統一數據分析平台和Skipper AI數據智能體。Town Lake提供單一SQL接口，Skipper允許用自然語言提問並獲得可審計的答案。文章詳細介紹了平台架構、治理策略（默認關閉權限）以及AI智能體的工作原理。

Cloudflare構建了Town Lake統一數據平台和Skipper AI智能體，解決數據分散問題。
Town Lake採用數據湖倉架構，使用Trino查詢引擎、R2存儲和Iceberg表格式。

如果AI編程的真正關鍵是老套而無聊的做法呢？

2026-05-28

文章認為，AI輔助軟件開發的關鍵並非更好的規格説明或工具，而是古老的小批量與快速反饋循環實踐。數據顯示，更快的代碼生成導致設計、測試和審查環節出現瓶頸，反而使交付變慢、發佈更不穩定。真正的槓桿在於縮小批量、縮短反饋週期。

AI代碼生成加速了編寫，但產生了設計、測試、審查等環節的瓶頸。
來自DORA、CircleCI和Faros的數據表明，階段門控流程導致交付更慢、更不穩定。

我們為何將OpenLoomi AI開源

2026-05-28

OpenLoomi AI團隊決定將其AI工作夥伴開源，強調數據所有權、透明度和社區驅動。文章闡述了本地優先、閉源信任税、基礎設施公共化等理念，並介紹了產品的五大核心功能：自進化記憶系統、多平台集成、自動化調度、本地加密存儲以及開放技能接口。

OpenLoomi採用本地優先架構，用户數據加密存儲於本地，絕不用於訓練模型。
開源消除了對閉源軟件的信任依賴，代碼可審計、可分支、可自託管。

2026年值得構建的7個真實世界AI項目（附指南）

2026-05-28

本文介紹了七個實用的AI項目，涵蓋求職、研究、投資分析、市場趨勢、發票處理、圖表數字化和個性化鍛鍊，每個項目都附有完整指南和代碼，幫助讀者自動化工作流程。

學習構建AI求職助手，自動匹配職位與簡歷
掌握多智能體研究助理開發，生成帶來源的研究報告

AI聚合平台估值達13億美元

2026-05-28

該供應商的增長與企業AI中代理的爆炸性出現同步。

AI聚合平台估值達到13億美元。
其增長與企業AI代理的興起密切相關。

你的AI助手已經忘記了你告訴它的一半內容

2026-05-28

本文是AI驅動開發系列文章的第七篇，重點討論AI會話中的上下文管理。作者通過個人經歷（Gemini移動應用忘記之前記錄的筆記）引出上下文壓縮問題，並分享了四種實用技巧：將探索與文檔編寫分離、使用交接文檔而非延續提示、給AI設定驗收標準而非詳細步驟、以及使用規範文檔作為不同AI工具之間的橋樑。這些技巧適用於從編程到寫作的各種AI使用場景。

AI助手在長對話中會因上下文窗口限制而“忘記”早期信息，這種現象稱為上下文壓縮。
四種實用技巧：分離探索與文檔編寫、使用交接文檔、設定驗收標準、使用規範文檔作為橋樑。

Show HN：我將一個 Python AI 代理和 Vue 儀表盤打包成了一個 Electron 應用

2026-05-28

Hermes Desktop 是一個跨平台的桌面應用，它將 Python 運行時、hermes-agent（自改進 AI 代理）和 hermes-web-ui（Vue 3 + Koa 聊天儀表盤）打包到一個 Electron 應用中，用户無需單獨安裝 Python 或 Node。應用集成了 DingTalk 並通過 DeepSeek 驅動。

打包了 Python 運行時和 hermes-agent，實現無需依賴即可運行
使用 Electron 作為外殼，集成 hermes-web-ui 前端

Money Printer Pro —— 開源 AI 內容生成器

2026-05-28

Money Printer Pro 是一個基於 Google Gemini 和 VEO 3.1 的開源 AI 內容生成器，可創建逼真的圖像和電影級視頻，並保持身份一致性。它擁有 7 個視覺引擎、自動批量生成、AI 質量評分和發佈把關功能，用户直接向 Google 付費，無需額外訂閲。

支持圖像和視頻生成，包括多鏡頭視頻序列。
身份鎖定引擎確保同一人物在不同生成中面部一致。

Superpowers：AI編碼工作流的代理技能框架

2026-05-28

Superpowers是一個為AI編碼代理設計的完整軟件開發方法論，基於一組可組合的技能和初始指令。它強調測試驅動開發、設計先行、子代理驅動的迭代，並支持多種編碼助手（如Claude Code、Codex CLI等）。

Superpowers提供一套技能庫，包括測試驅動開發、系統調試、協作規劃等，使AI代理能自主工作數小時。
工作流程從頭腦風暴規範開始，經設計批准後生成實現計劃，再通過子代理逐任務執行並審查。

信任模型正在翻轉

2026-05-28

隨着AI代碼審查工具（如Anthropic的Claude Mythos）展現出比人類更強大的安全漏洞發現能力，軟件安全的信任基礎正從人類編寫的代碼轉向AI審查的代碼。文章以Mozilla Firefox為例，Mythos在單個評估週期內發現了271個漏洞，遠超人類團隊。這意味着人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟件的意圖並驗證實現是否偏離”。

人類編寫代碼的安全預設正在被打破，AI審查代碼逐漸獲得信任。
Mozilla使用Claude Mythos在Firefox中發現了271個漏洞，凸顯AI的審查能力。

這位高管分享在代理式AI時代成為成功創新者的4種方法

2026-05-28

美國運通全球創新主管Luke Gebb分享了成為成功創新者的四個關鍵實踐：保持學習、深入技術、接受失敗、建立合作伙伴關係。他還介紹了公司在代理式商務領域的佈局，包括支付、優惠和專有體驗，並預測代理式AI將在未來幾年加速發展。

保持好奇心和學習慾望，培養成長型思維
深入理解新興技術並與工程師緊密合作

這是可持續的嗎？AI三年後的高級工程師角色

2026-05-28

一位高級工程師反思AI在三年內如何改變了高級工程師角色：原型製作加速，協調負擔增加，範圍擴大但擠佔了輔導和思考時間。角色變得更有影響力但可持續性降低。

AI縮小了從想法到演示的差距，從提案轉向概念驗證。
角色在編碼和戰略寫作兩方面擴展，削減了輔導和深度思考。

沙鋼簽約釘釘，讓悟空成為每一位“鋼鐵人”的生產力工具

2026-05-28

沙鋼與釘釘簽署戰略合作協議，以悟空AI為核心，推動AI在鋼鐵行業規模化落地，打造AI時代的工作方式。

沙鋼與釘釘簽約，共同推進AI在鋼鐵行業的應用
以悟空AI為引擎，打造全集團協同辦公平台

Taste Skill：面向AI代理的反模板前端框架

2026-05-28

Taste Skill 是一個開源前端框架，旨在提升AI生成界面的設計質量，避免產生千篇一律的模板化外觀。它提供多種可組合的技能模塊，包括設計調優、代碼生成和圖像生成，支持通過 npx 命令行或直接複製 SKILL.md 文件集成到項目中。

Taste Skill 通過可調節的設計參數（佈局、動畫、密度）讓AI生成的界面更具設計感
提供多種專用技能模塊，如設計調優、代碼生成、圖像生成等

Netflix正在建立AI動畫工作室

2026-05-28

Netflix正在建立名為INKubator的新內部工作室，利用AI製作短篇動畫內容。該工作室已悄然啓動，正在招聘各種職位，包括製片人、軟件工程師和CG藝術家。其長期技術戰略聚焦於生成式AI工作流程、藝術家工具和可擴展的多節目環境，旨在製作出達到電影品質的內容。目前計劃專注於動畫短片和特輯，但有跡象表明未來可能擴展到長篇內容。此舉可能用於Netflix的Clips功能或兒童節目。然而，AI在動畫領域的應用也引發了強烈反彈，包括日本動畫大師宮崎駿的批評和動畫師工會的抗議。

Netflix建立新AI動畫工作室INKubator，專注於生成式AI驅動的短篇動畫。
工作室由前夢工廠和A24高管領導，已開始招聘關鍵職位。

AIluminode：檢索前認知定向工具

2026-05-28

AIluminode 是一款輕量級 AI 預檢索認知定向工具，幫助 AI 在行動前檢查上下文姿態，通過路線極性（開放、保護、審計、延遲、阻斷）減少錯誤探索和上下文泄漏。

AIluminode 是一個可 wieldable 的預檢索認知定向工具，強調“姿態先於檢索”。
它使用路線極性系統（OPEN / PROTECT / AUDIT / DEFER / BLOCK）來引導上下文路由。

大家都在構建能記憶的AI代理。我構建了一個有身體的

2026-05-28

作者介紹了一個與眾不同的AI代理項目：一個擁有物理身體的AI代理，而不僅僅是基於記憶的對話系統。

當前大多數AI代理側重於記憶能力
作者構建了一個具有物理形態的AI代理

AI正在重寫軟件行業？8歲孩子做操作系統，一人公司拿下千萬訂單

2026-05-28

百度秒噠產品總經理朱廣翔在2026中國AIGC產業峯會上分享，AI將編程門檻從寫代碼降低到聊天，87%不懂代碼的用户通過秒噠創建應用。8歲小孩做出操作系統，一人公司（OPC）靠項目經理拿下千萬訂單，石油工程師替代140萬採購平台。Vibe Coding讓需求方變成供給方，實現大眾創業。

第四次編程革命：自然語言編程，門檻降至最低，創造者數量爆發
秒噠用户87%不懂代碼，OPC成最大羣體，16%創業者

[AINews] Cognition融資10億美元，D輪估值260億

2026-05-28

Cognition在D輪融資中籌集10億美元，估值達260億美元，年經常性收入（ARR）預計年底突破10億美元。文章還涵蓋了推理效率優化、智能體工程、持續學習、新基準測試、模型發佈以及編碼代理產品化等AI領域的最新進展。

Cognition完成10億美元D輪融資，估值260億美元，ARR預計年底超10億美元。
推理優化轉向架構層面：EAGLE 3.1、DeepSeek V4-Pro混合注意力、小米MiMo緩存管理等。

前谷歌和蘋果研究員創立初創公司，為AI打造缺失的“反饋流”

2026-05-28

一羣前谷歌DeepMind、蘋果、OpenAI和Meta的研究員成立了新創公司Trajectory，旨在幫助企業通過真實用户交互持續改進AI產品。Trajectory旨在構建一個平台，讓AI能夠在部署後持續學習，而不是在訓練完成後停滯不前。該公司已獲得1500萬美元種子輪融資，估值1.15億美元，由Conviction領投。其CEO Ronak Malde表示，AI編程產品如Cursor已在實踐早期版本的持續學習，Trajectory希望將類似技術擴展到更多領域。

Trajectory由前谷歌DeepMind、蘋果、OpenAI和Meta的研究員創立，旨在實現AI的持續學習。
公司已融資1500萬美元，估值1.15億美元，投資者包括Jeff Dean和Fei-Fei Li。

Robinhood 推出智能代理交易功能

2026-05-28

Robinhood 推出 Agentic Trading，用户可連接 AI 代理來自動化交易和信用卡購買，並配備安全控制和實時活動監控。

用户可將自己的 AI 代理連接到 Robinhood
支持自動交易和信用卡購買

Show HN: BetterCallClaude – 意大利開源AI法律代理

2026-05-28

BetterCallClaude 是一個專為意大利法律專業人士設計的開源AI法律代理平台。它提供20個專業化AI代理，覆蓋意大利所有20個地區，支持雙語（意大利語和英語），並注重隱私保護，符合GDPR和意大利數據保護法。該平台可加速法律研究，提高效率，並保持完全透明和開源。

20個覆蓋意大利不同法律領域的AI代理
支持意大利語和英語雙語

AI代理的阿姆達爾定律

2026-05-28

本文探討了AI代理系統中的阿姆達爾定律：系統加速比受人類判斷時間佔比H的限制。提出了“自清償式H”概念，即每次人類干預都應產生可重用的工件（如測試用例、規範更新），以減少未來同類干預。強調通過配置化（configurancy）和規範套件將人類知識編碼為機器可讀形式，從而讓代理自主運行。示例包括ElectricSQL的協議變更、Emil Stenström的HTML5解析器、Gas Town的多代理系統以及Ralph Loop的迭代模式。

AI代理的加速比上限由人類判斷時間佔比H決定，H越大加速比越小。
自清償式H：每次人類干預都應生成可編碼的工件，減少未來重複干預。

自行檢測：面向少樣本圖異常檢測的自設計代理工作流

2026-05-28

提出SignGAD框架，通過自設計檢測工作流替代固定流水線，引入保護性最終重擬策略，在少樣本場景下顯著提升圖異常檢測性能。

SignGAD將圖異常檢測從訓練固定檢測器轉變為設計任務條件檢測工作流
框架能選擇合適圖編碼和檢測器設計以利用任務特定異常證據

Agyn：面向AI代理的開源平台，支持可擴展按需執行、代理即代碼和零信任訪問

2026-05-28

Agyn是一個開源AI代理平台，基於Kubernetes的信號驅動狀態無服務器運行時，通過Terraform提供代理定義，並採用零信任安全模型。該平台與代理、模型和雲無關，旨在解決生產環境中AI代理的隔離、治理和安全挑戰。

信號驅動的狀態無服務器運行時，支持按需擴展
通過Terraform將代理定義作為代碼管理

兩大支柱：AI後軟件工作的概念框架

2026-05-28

一篇論文認為，隨着生成式AI消除了人類編寫正確代碼的能力這一約束，軟件工作圍繞兩大支柱重組：混音模式（人類像音響工程師一樣連續操作多個判斷軸）和元軟件（觀察、驗證、上下文化和治理其他軟件的軟件）。這兩個支柱不可分割，借鑑了從手工藝到統計控制的批量生產的歷史轉型。

由於生成式AI，代碼生產不再是軟件組織中的主導問題。
混音模式描述了從業者持續操作多個判斷軸的新人類角色。

你未來的工作將是讓AI保持專注

2026-05-28

諾亞·史密斯認為，隨着AI能力增強，人類將從技術工作轉向確保AI對齊——使AI專注於人類目標。他將其與《上班一條蟲》類比，並警告AI生成內容“污泥”正在泛濫。

人類需要維護AI對齊，確保AI不偏離任務。
作者將未來人類角色比作《上班一條蟲》中的“朗伯”經理。

Safescript – 面向人工智能時代的編程語言

2026-05-28

Safescript 是一種為 AI 代理設計的編程語言，通過靜態分析在運行前證明所有安全屬性，無需沙箱或虛擬機，徹底消除供應鏈攻擊。它編譯成有向無環圖（DAG），可追蹤數據流和宿主機調用，性能開銷為零，啓動時間為零。

Safescript 通過靜態分析確保代碼安全，無需運行時沙箱。
編譯器生成靜態 DAG，可追蹤所有數據流和宿主機調用。

AIPass – 具有身份、記憶和電子郵件的持久化智能體工作空間

2026-05-28

AIPass 是一個基於命令行的開源框架，為 AI 智能體提供持久性記憶、身份標識和協作能力。智能體共享文件系統，通過 JSON 文件存儲記憶，無需雲服務或額外 API 密鑰。項目包含 13 個核心智能體，支持多智能體協作、任務調度、質量審計和實時監控。

AIPass 是一個 CLI 原生的智能體框架，為 AI 智能體添加持久性記憶、身份和協調能力。
所有智能體共享本地文件系統，使用 JSON 文件存儲記憶，無需雲端依賴。

Robinhood將允許AI代理交易——這可能成為一種趨勢

2026-05-28

股票交易應用Robinhood在高度監管的行業中率先允許AI代理進行交易，此舉可能推動其他金融公司效仿。

Robinhood將允許AI代理在其平台上進行交易
此舉在高度監管的金融行業中是重大突破

Show HN: Liiists —— 一款基於Markdown、支持iOS和命令行的列表應用

2026-05-27

Liiists 是一款基於Markdown的列表應用，可在終端、iOS設備和AI代理上通過MCP服務器使用，所有操作都基於相同的純文本.md文件。它提供了命令行工具、原生iOS應用（支持分享擴展和Siri）以及用於AI集成的MCP服務器。無需賬户、無鎖定，支持iCloud同步或指向任何文件夾（包括Obsidian vault）。

在終端、iOS設備和AI代理上使用相同的Markdown文件
用Go編寫的CLI，無依賴

NeuralAgent 2.5：個人AI助手，語音控制與並行代理驚豔登場

2026-05-27

NeuralAgent 2.5 帶來了語音模式、觀察學習與並行代理三大功能，讓AI助手能聽、能看、能同時處理多項任務。用户可通過自然語言指揮它操作整個電腦，無需鍵盤鼠標。新版還優化了工作流、@提及和記憶系統。

NeuralAgent 2.5 新增語音模式，用户説話即可讓AI執行操作並語音回覆。
觀察學習功能允許用户演示一次任務，AI即可保存為工作流自動重複。

在生產環境中修復代理故障：Interrupt 2026 回顧 | LangChain 新聞通訊

2026-05-27

LangChain 在 Interrupt 2026 大會上發佈了 LangSmith Engine 和 Sandboxes 正式版，並推出了 LangChain Labs 以推進代理的持續學習。大會所有演講現已可按需觀看。

LangSmith Engine 自動分析生產軌跡、聚類故障並推薦修復方案。
LangSmith Sandboxes 正式發佈，提供安全的代理代碼執行環境。

BI接入要點：優化性能與總擁有成本

2026-05-27

您的BI儀表盤速度緩慢，調優消耗大量時間和金錢。本文從物理佈局到治理語義層，逐步介紹Databricks的BI接入棧，提供改善查詢性能和降低總擁有成本的實用指導。

星型模式與託管表構成BI性能的基礎。
液簇與預測優化自動進行數據優化。

Snowflake承諾向AWS投入60億美元，深入AI領域

2026-05-27

Snowflake與AWS簽署五年60億美元合作協議，使用AWS Graviton和GPU實例進行AI訓練和推理，並擴展至10個新區域。此舉表明Snowflake在AI時代的雄心，同時通過Cortex AI產品套件推動企業AI應用。

Snowflake承諾五年內向AWS投資60億美元，用於Graviton計算和AI基礎設施。
合作涵蓋AWS的ARM Graviton處理器和GPU加速EC2實例，用於AI模型訓練和推理。

使用Amazon Bedrock AgentCore構建企業支持AI代理

2026-05-27

AWS生成式AI創新中心與Works Human Intelligence合作，利用Amazon Bedrock AgentCore構建了兩個AI代理，分別用於通勤津貼審批和瀏覽器操作，實現了高達97%的成本降低並提升了運營效率。

AI代理自動化HR例行任務，如通勤津貼審批和瀏覽器操作。
通過遷移至AgentCore和Strand Agents架構，成本降低97%。

從數據過載到可操作洞察：Verizon Connect如何將智能代理AI擴展至10萬用户

2026-05-27

Verizon Connect利用AWS構建智能代理AI解決方案，每天將超過5000萬數據點轉化為10萬用户的可操作洞察。本文詳細介紹了其架構決策、實施挑戰和可衡量的成果，包括使用無服務器統計模型進行異常檢測、採用Strands Agents實現動態推理、以及通過Amazon Nova Lite將輸入令牌成本降低70%。

Verizon Connect通過智能代理AI處理每日5億數據點，為10萬用户提供洞察。
採用無服務器統計模型進行異常檢測，避免LLM處理原始表格數據的侷限性。

AWS SMGS如何利用基於Amazon Bedrock AgentCore的AI對話助手轉變業務管理

2026-05-27

AWS SMGS使用NarrateAI（基於Amazon Bedrock AgentCore構建的智能對話解決方案）實現大規模商業智能。該方案採用雙層架構：批量敍事生成和實時交互，通過專用AI代理進行路由和驗證，支持自然語言查詢、行級安全及個性化角色體驗，顯著提升決策效率。

NarrateAI通過雙層架構（批量處理+實時交互）解決傳統BI的延遲和數據碎片化問題。
使用Amazon Bedrock AgentCore實現多代理編排，支持自然語言查詢和上下文感知響應。

AI編程助手Devin開發商Cognition估值九個月內翻倍至260億美元

2026-05-27

Cognition公司為其AI軟件開發工具Devin融資超10億美元，估值達260億美元，顯示了投資者對AI編程工具的熱情，儘管其實際價值仍存爭議。

Cognition融資超10億美元，估值九個月內翻倍至260億美元。
投資者對AI編程代理興趣濃厚。

這款無AI的谷歌替代品人氣飆升 - 快來親自體驗

2026-05-27

DuckDuckGo作為一款無AI的搜索替代品，因谷歌AI概覽的興起而用户激增。本文介紹瞭如何無AI地使用DuckDuckGo進行私密搜索和瀏覽。

DuckDuckGo在谷歌I/O 2026後安裝量激增，iOS應用增幅最高達69.9%。
DuckDuckGo提供無AI搜索和AI聊天選項，用户可自由選擇。

利用 Amazon Bedrock AgentCore 賦能代理型 AI 銷售策略

2026-05-27

AWS 銷售團隊使用 Amazon Bedrock AgentCore 構建了 Field Advisor，以編排超過 20 個領域特定代理，減輕銷售代表認知負擔並提高效率。該解決方案每週為每位代表節省最多 2 小時，並將延遲降低 41%。

Field Advisor 通過單一對話界面編排 20 多個專業代理。
人工參與的工作流確保數據準確性和問責制。

Robinhood 允許 AI 代理為客户交易股票和使用信用卡購買

2026-05-27

Robinhood 通過 MCP 讓客户連接 Anthropic 的 Claude 等 AI 代理，這些代理可以自主交易股票。美國券商監管機構 FINRA 已將其視為新的風險領域，警告不可控的決策。Robinhood 也承認該產品並非適合所有人。

Robinhood 推出功能，客户可通過 MCP 連接 AI 代理（如 Claude）進行股票交易和使用信用卡購買。
AI 代理可以自主決策，無需客户逐一確認。

“Tokenmaxxing 是真實的、昂貴的，而且正在蔓延”：新工具遏制AI預算爆炸

2026-05-27

Tokenmaxxing（無節制使用AI token）導致企業預算失控。以Uber為例，其CTO稱AI預算已超支。新興公司Lanai推出Token Tuner工具，通過將token消耗映射到具體工作流程和業務成果，幫助企業優化模型選擇、降低浪費，推動從“tokenmaxxing”向“outcomemaxxing”轉變。

Tokenmaxxing使企業AI預算爆炸，Uber等公司已出現嚴重超支。
Lanai推出Token Tuner，通過追蹤token與工作流程、成果的關聯，提供效率評分和模型推薦。

讓你的AI投資獲得良好回報

2026-05-27

O'Reilly的Infrastructure & Ops超級流會探討了AI工作負載的基礎設施需求、成本和安全挑戰。DORA報告顯示，AI使代碼交付量提升約10%，但穩定性下降，驗證成本增加。專家強調平台工程、治理和認知債務的重要性，建議投資內部平台以保障AI應用的生產就緒。

AI工具提高了個人生產力，但團隊交付穩定性下降，驗證成本（驗證税）需要納入考量。
良好的流程會被AI放大，糟糕的流程同樣會被放大，組織應主動改善流程而非僅期待技術提升。

AI工廠：智能時代的新基礎設施

2026-05-27

AI工廠是新型基礎設施，實時將電能轉化為智能的生成單元——令牌。隨着代理型AI的擴展，每瓦性能與每令牌成本成為關鍵經濟指標。本文深入探討AI工廠的工作原理、架構優化以及NVIDIA的最新硬件如何提升效率。

AI工廠將電能轉化為令牌，是智能時代的“發電廠”。
代理型AI使推理工作負載更深更復雜，要求實時協調。

OpenRouter 獲 1.13 億美元 B 輪融資

2026-05-28

OpenRouter 宣佈完成 1.13 億美元 B 輪融資，由 Alphabet 旗下成長基金 CapitalG 領投，NVIDIA 風投部門 NVentures、ServiceNow、MongoDB、Snowflake、Databricks 等戰略投資者參投。該公司周處理量已從 5 萬億令牌增至 25 萬億令牌，服務超過 800 萬開發者，覆蓋 400 多個模型。資金將用於擴展基礎設施、增強企業功能並深化智能路由能力。

OpenRouter 完成 1.13 億美元 B 輪融資，由 CapitalG 領投，多家科技巨頭旗下風投參與。
周處理量增長至 25 萬億令牌，預計年處理量超過 1 萬億令牌。

將 Azure 數據轉化為 AI 就緒的知識庫 | Pinecone

2026-05-28

Pinecone 提供了一個可部署的模板，自動將 Azure Blob 存儲中的數據導入無服務器 Pinecone 索引，實現快速語義搜索和 AI 檢索。

Pinecone 自動化了從 Azure Blob 存儲到無服務器向量索引的完整攝入管道。
該模板開箱即用地處理文檔解析、文本分塊、嵌入和索引。

工具

Meta推出Instagram、Facebook和WhatsApp訂閲服務

2026-05-28

Meta宣佈為其旗艦應用Instagram、Facebook和WhatsApp推出消費者訂閲計劃，月費2.99至3.99美元，提供額外功能。同時，Meta開始測試面向企業、創作者和AI用户的新訂閲方案。

Meta面向消費者推出Instagram Plus、Facebook Plus和WhatsApp Plus訂閲服務
訂閲月費分別為3.99美元、3.99美元和2.99美元

iOS 27新渲染圖暗示Siri重大重新設計

2026-05-28

蘋果備受期待的Siri大改版預計將在iOS 27中到來，可能看起來很像ChatGPT並帶有液態玻璃風格。彭博社的渲染圖展示了iOS 27的新界面，包括Siri的新應用和聊天界面。這些渲染圖基於彭博社看到的信息和知情人士透露，可能與蘋果最終設計不同。蘋果將在6月WWDC上公佈最終設計。

iOS 27的Siri將採用類似ChatGPT的聊天界面，從靈動島彈出藥丸形狀的聊天氣泡。
用户可以在下拉菜單中選擇Ask、Siri和ChatGPT選項。

我是iPhone用户，但Gemini搭配Android Auto在車裏比Siri好用 - 原因在這裏

2026-05-28

作為一名iPhone用户，作者通常在開車時使用Siri和CarPlay，但嘗試了Android Auto上的Gemini後，發現Gemini能處理更多任務，包括髮送郵件、獲取餐廳信息、玩遊戲等，且設置簡單。作者認為Gemini是更一站式的人工智能助手。

作者是iPhone用户，但認為Gemini搭配Android Auto在車裏比Siri更好用。
Gemini可以處理從基本指令到複雜交互的各種任務，如發送郵件、獲取本地信息等。

Meta One：扎克伯格終於為AI支出標價

2026-05-28

Meta正在全球範圍內為Instagram、Facebook和WhatsApp推出付費附加功能，同時構建獨立的付費AI服務。這是Meta首次明確將AI支出轉化為收入來源。

Meta在全球推出付費附加功能，覆蓋Instagram、Facebook和WhatsApp。
同時開發獨立的付費AI產品，將AI投入貨幣化。

Dirk和Linus討論AI與內核開發

2026-05-28

一篇LWN.net上的訂閲文章，由Joe Brockmeier撰寫，報道了Dirk和Linus關於AI與內核開發的討論。該內容僅供訂閲者查看。

文章作者為Joe Brockmeier，發佈於2026年5月25日
文章在OSSNA活動中呈現

亞馬遜打造自有AI製作平台，為Prime Video批准三部AI動畫系列

2026-05-28

亞馬遜米高梅影業與AWS聯合推出“GenAI創作者基金”，為電影製作人提供資金及內部AI平台“Project Nara”的訪問權限。三部動畫系列已投入製作，團隊僅用五週完成試播集。亞馬遜宣稱擁有“行業內唯一端到端AI內容生態系統”。

亞馬遜設立GenAI創作者基金，支持AI內容創作
內部AI平台Project Nara用於動畫製作

YouTube 將讓你通過AI創建自定義視頻推送

2026-05-28

YouTube推出新的AI功能，允許用户通過描述性提示生成個性化視頻推送，並可以固定在主頁頂部。該功能目前在美國以英語支持的形式向YouTube移動應用和桌面端用户推出。

用户可通過輸入描述性提示（如“幫我放鬆，引導冥想不超過10分鐘”）來創建自定義視頻推送。
該功能類似Spotify的提示播放列表和Instagram的Reels算法控制，但使用自由文本提示而非主題列表。

ElevenLabs Music v2 實現歌劇至金屬無縫過渡，音樂連貫性不減

2026-05-28

ElevenLabs 發佈了升級版 AI 音樂生成模型 Music v2，支持在單首歌曲中無縫切換歌劇、重金屬和説唱等流派。新增的修復功能允許用户在不影響其他部分的情況下重新生成特定段落。

Music v2 可在同一首歌內無縫切換不同音樂流派。
新增修復功能支持定向重生成特定段落。

不要將構建的樂趣交給人工智能

2026-05-28

文章提醒開發者，雖然AI可以加速編程，但過度依賴AI可能會剝奪構建過程中的樂趣，如尋找優雅解決方案、設計清潔架構和獲取用户反饋等。

AI加快了代碼編寫速度，但可能讓開發者失去解決問題的樂趣。
構建過程中的關鍵體驗（如設計架構、發佈產品）難以被AI替代。

TopRec (toprec.io) – 面向招聘人員和招聘團隊的AI篩選與CRM系統

2026-05-28

TopRec是一個AI驅動的平台，幫助招聘人員對候選人進行排名，並構建自我維護的CRM。它特意避免被推廣為PWA，以防止緩存問題，建議作為網站使用。

AI驅動的候選人排名功能，提升篩選效率
自建CRM系統，自動更新候選資料

AI作弊 [PDF]

2026-05-28

這是一份關於AI作弊的PDF報告，但無法直接解析內容。

無法從PDF中提取文本
報告可能來自METR組織

我找到了一個簡單的方法，自動將AI排除在搜索結果之外——幾乎在所有瀏覽器上都有效

2026-05-27

厭倦了搜索引擎中的AI結果？本文介紹了一種通過添加自定義搜索引擎來排除AI結果的方法，並詳細説明了在Chrome、Firefox、Safari等主流瀏覽器中的設置步驟。

添加自定義搜索引擎可排除AI搜索結果，避免AI帶來的能源消耗和不準確信息。
在Firefox中通過設置搜索快捷方式添加URL https://www.google.com/search?q=%s&udm=14。

YouTube將從本月開始嘗試自動標記AI視頻

2026-05-27

YouTube正在加強AI標籤規則。從本月起，逼真或經過大量AI修改的內容的標籤將顯示在更顯眼的位置——長視頻顯示在播放器下方，短視頻則作為疊加層顯示。從2026年5月開始，即使創作者未披露，自動檢測系統也會標記AI生成的內容。推薦和變現不受影響。

YouTube收緊AI標籤規定，標籤位置更加顯眼。
2026年5月起自動檢測AI生成內容，無需創作者主動披露。

模型

谷歌發佈可本地運行Gemma 3的微型開發板

2026-05-28

谷歌在I/O大會上推出Coral Board，這是一款專為設備端AI設計的緊湊型單板計算機，搭載RISC-V架構NPU和Synaptics芯片，可本地運行Gemma 3 270M模型，無需雲端支持。

Coral Board是谷歌為耳機、AR眼鏡等小型設備設計的AI開發板
採用基於RISC-V的開源NPU，集成Synaptics Astra SL2619芯片

Rivian軟件主管認為你不需要CarPlay或按鈕

2026-05-28

在Decoder播客採訪中，Rivian首席軟件官Wassym Bensaid討論了與大眾的合資企業、全新的AI驅動Rivian助手，以及為什麼他認為語音界面將取代按鈕且不需要CarPlay。

Rivian與大眾的合資企業（RV Tech）結合了Rivian的軟件文化與大眾多規模。
Rivian助手是一款深度整合到車輛區域架構中的AI代理。

世界模型接棒語言模型，這家公司全球首創物理AGI“雙金字塔”體系，通用機器人進入“家庭時代”

2026-05-28

極佳視界發佈全球首創物理AGI“雙金字塔”體系，推出家庭機器人拾光S1，獲百台家庭訂單，計劃12個月內實現物理AGI的“GPT-3時刻”。

極佳視界首創“雙金字塔”體系，包括數據金字塔和算法金字塔。
家庭機器人拾光S1採用輪臂構型，獲得百台真實家庭訂單。

Mistral 將 LeChat 更名為 Vibe，押注聊天機器人的未來是全能工作代理

2026-05-28

Mistral AI 將其聊天機器人 Le Chat 更名為 Vibe，並將聊天、編程代理和新的工作模式整合在一個品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub，獨立處理電子郵件、報告或拉取請求等任務。Pro 套餐價格從 17.99 歐元降至 14.99 歐元，但未明確使用限制。此舉直接對標 OpenAI、Google 和 Anthropic 的代理型產品。

Mistral AI 將聊天機器人 Le Chat 更名為 Vibe，整合聊天、編程代理和工作模式。
工作模式可連接 Google Workspace、Outlook、Slack 或 GitHub，自主處理任務。

Show HN：本地編碼代理——利用LLM將工具調用委託給小AI模型

2026-05-28

Open Agent Tools (oats) 是一個自託管AI模型框架，通過本地代碼提示索引，將大型模型的計算密集型工具調用委託給小型開源模型，從而節省令牌消耗。

oats 允許本地AI模型使用本地源代碼進行工具調用，無需HTTP或MCP。
通過數據挖掘超過20,000個GitHub倉庫，創建可重用的提示索引。

Perplexity AI 開源Unigram分詞器，p50延遲比Hugging Face tokenizers crate低5倍

2026-05-28

Perplexity AI 開源了用Rust重寫的Unigram分詞器，實現了比Hugging Face tokenizers crate低5倍的p50延遲，並將生產環境CPU利用率降低了5-6倍。優化包括雙數組trie、位圖打包和大頁面支持。

Perplexity AI 用Rust重寫了Unigram分詞器，p50延遲比Hugging Face tokenizers crate降低5倍。
三項優化：雙數組trie、位圖和緩存行打包、大頁面支持。

Mistral CEO稱公司探索自研芯片

2026-05-28

Mistral AI首席執行官Arthur Mensch證實，公司正在探索開發定製芯片以降低基礎設施成本，與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理數據中心，並推出企業智能代理平台Vibe。

Mistral AI考慮自研定製芯片以降低部署成本。
公司在法國新建專用推理數據中心。

7B打敗o3、GPT-5！醫學AI智能體讓模型學會“看哪裏、怎麼看”

2026-05-28

上海創智學院LeapQuest團隊聯合多所高校提出醫學AI新範式，讓模型在推理過程中主動調用視覺工具，從被動接收視覺輸入變為主動尋找證據。論文被ICML 2026接收。

LeapQuest團隊提出Ophiuchus和MedScope，分別面向醫學圖像和視頻，採用Think with Images/Videos範式。
Ophiuchus-7B在8個VQA benchmark上平均得分68.0，超越o3（62.2）、GPT-5（59.9）。

Trinity：利用合成數據統一非結構化户外環境中的類無關地形與語義分割

2026-05-28

本文提出了一種基於Transformer的架構Trinity，能夠在一個統一網絡中同時進行類特定語義分割和類無關地形分割。該方法無需預定義標籤或機器人相關的可通行性分數，僅基於視覺外觀分割地形區域，從而學習機器人無關的視覺地形先驗，可結合機器人特定經驗用於下游任務。為了支持大規模訓練，研究團隊擴展了OAISYS模擬器並推出RUGDSynth合成數據集，同時提供了EXTerra真實世界數據集。實驗驗證了該方法在複雜户外環境中的有效性。

提出Trinity架構，統一類無關地形分割與語義分割
基於視覺外觀而非預定義標籤進行地形分割，提升跨平台遷移性

面向光流控組裝的智能語言到目標合成

2026-05-28

研究人員提出了Speak-to-Objective模塊化智能管線，利用條件大型語言模型將口頭或書面命令轉換為可微分的優化目標函數，用於在約束感知逆解算器和實驗光流控平台上組裝微粒。該方法採用“感知-組合-提議-執行-報告與學習”的循環，將目標作為意圖與驅動之間的接口，實現自然語言可編程的微觀組裝，推動自主光製造平台的發展。

Speak-to-Objective管線將自然語言命令轉化為可微分的優化目標函數。
該管線在光流控平台上通過激光誘導熱粘流實現對微粒圖案的組裝。

表示條件擴散模型：用於引導訓練數據生成

2026-05-28

該研究提出表示條件擴散模型，利用DINOv2、DINOv3和CLIP的表示作為條件生成合成圖像數據，在ImageNet100上以+10.76 p.p.的top-1準確率顯著優於類條件生成。通過擴大合成數據集，甚至能超越真實數據訓練的模型（+2.0 p.p.）。此外，該方法在數據增強和樣本過濾方面也表現出色，為大規模視覺學習任務提供了一種有前景的替代或補充真實數據集的方案。

表示條件擴散模型優於類條件生成，在ImageNet100上提升10.76個百分點。
擴大的合成數據集可超越真實數據訓練的模型，準確率提高2.0個百分點。

D²Turb：深度感知模擬與解耦學習用於單幀大氣湍流緩解

2026-05-28

研究人員提出D²Turb框架，通過引入深度感知的湍流合成協議和自適應結構先驗注入機制，將大氣湍流緩解分解為紋理去模糊和幾何校正兩個交互階段，在合成和真實數據集上均達到最優性能。

提出深度感知湍流合成協議，結合場景深度生成物理一致的退化數據。
採用解耦學習方法，將恢復過程分為紋理去模糊和幾何校正兩階段。

一種通用的異質注意力結構Transformer模型解釋方法

2026-05-28

該研究提出了一種用於解釋具有異質注意力結構的Transformer模型的方法，包括語義解釋和邏輯解釋，並通過實驗驗證了其有效性。

將Transformer注意力結構分為同質和異質兩類，異質結構處理不同來源信息。
提出了一種通用的解釋方法，適用於異質注意力結構。

微調視覺語言模型用於理解當前損傷並利用質量守護代理進行優先級評分

2026-05-28

本研究提出了一種利用微調視覺語言模型（VLM）自動化橋樑損傷理解和修復優先級評分的方法。通過使用QLoRA對LLaVA-1.5-7B進行微調，基於多達4000張橋樑損傷圖像和檢查文本記錄，並在800張圖像的測試集上評估。實驗表明，2000個訓練樣本即可在2.9小時內達到接近最優的驗證損失，超過2000後收益遞減。此外，引入了一個兩階段質量守護代理，使用微調的Swallow-8B SLM在優先級評分前拒絕低質量VLM輸出。

微調LLaVA-1.5-7B模型用於橋樑損傷自動識別與優先級評分
2000個訓練樣本即可達到近最優性能，更多數據收益遞減

從情感到複雜行為：第十屆ABAW研討會與競賽推進多模態以人為中心的AI

2026-05-28

第十屆ABAW研討會與競賽在CVPR 2026上舉辦，通過引入情感模仿強度估計、矛盾/猶豫識別和細粒度暴力檢測等新挑戰，以及傳統的情感估計和識別任務，推進多模態以人為中心的AI。競賽利用大規模野外數據集，論文軌道涵蓋從姿態估計到公平性和魯棒性的廣泛主題。

ABAW 2026引入新挑戰：情感模仿強度、矛盾識別和暴力檢測。
研討會繼續保持競賽和論文軌道的雙重結構。

社區態度建模與反應語調：評估LLM與在線社區語言行為對齊的人機協作框架

2026-05-28

大型語言模型（LLM）作為計算社會分析的代理日益普及，但能否忠實再現人類社區的“厚描述”仍是關鍵挑戰。本文提出CARE（社區感知反應評估）框架，通過精細刻畫言外語調頻譜及其潛在態度，測評LLM模擬話語與真實社區對新聞事件的反應之間的差異。研究發現，使用明確社區提示引導LLM並不能天然提高模擬真實性，前沿模型間存在分歧行為特徵，表明當前對齊策略不足以捕捉在線羣體的社會語言動態。

CARE框架通過反應語調評估LLM模擬社區話語的逼真度
當前LLM對齊策略無法充分捕捉在線社區的社會語言動態

從自迴歸到擴散：利用嚴格因果和彈性視野高效適配大型語言模型

2026-05-28

新框架FLUID將自迴歸語言模型適配到擴散模型，實現高效並行文本生成。通過嚴格因果對齊重用GPT檢查點，並通過彈性視野機制根據信息密度動態調整去噪步長。該方法以數量級降低的訓練成本達到最先進性能。

FLUID通過嚴格因果對齊彌合自迴歸與擴散模型的結構差異，可直接從GPT檢查點初始化。
彈性視野利用熵動態調整去噪步長，取代固定調度。

彌合穩定性與表現力之間的鴻溝：面向低資源口語模型的合成數據擴展與偏好對齊

2026-05-28

研究人員發現，在低資源語言的口語模型中使用合成數據會導致“穩定性-表現力鴻溝”，並提出兩種自對齊框架（DGSA和TDSC），能夠恢復韻律變異性，超越ElevenLabs和Gemini Pro等商業系統，實現老撾語的首次零樣本人聲克隆。

低資源語言的口語模型在合成數據訓練時面臨音素準確度與韻律表現力之間的權衡。
提出的解耦引導自對齊（DGSA）通過分離韻律和音色來恢復表現力。

BioELX：基於別名檢索和LLM排序的跨語言生物醫學實體鏈接

2026-05-28

BioELX是一種新穎的跨語言生物醫學實體鏈接框架，無需標註訓練數據。它通過維基百科多語言別名增強SapBERT，並利用預訓練LLM進行上下文感知消歧。在五個基準測試中，BioELX實現了最先進的性能，尤其在土耳其語、韓語和泰語等低資源語言上表現突出。

提出BioELX，一種零樣本跨語言BEL框架，結合別名檢索和LLM排序。
第一階段：利用維基百科多語言別名豐富SapBERT訓練，提升候選檢索效果。

RAG-Coding：利用結構化外部知識增強LLM醫學編碼

2026-05-28

RAG-Coding是一種自動化ICD-10-CM編碼方法，通過協調四個大語言模型代理並基於外部知識源（如官方編碼列表和指南）進行決策，提高了編碼準確性和臨牀合規性。在MDACE數據集上，其性能優於最佳LLM基線8-13%的微觀F1和2-8%的宏觀F1。與最先進的預訓練模型PLM-ICD相比，RAG-Coding的微觀召回率高出11%，而PLM-ICD的微觀精確度高出6%，兩者F1相當。消融實驗驗證了外部知識的逐步增益。同時發佈了MDACE-2025，根據2025年最新指南重新標註，支持更細粒度的評估。

RAG-Coding通過四個LLM代理和外部知識源提高ICD-10-CM編碼準確性。
在MDACE數據集上，相比最佳LLM基線，微觀F1提升8-13%，宏觀F1提升2-8%。

LCO：基於LLM的約束優化，使智能體LLM在實際任務中更安全

2026-05-28

大型語言模型（LLM）作為自主智能體時，會通過上下文獎勵黑客行為（ICRH）產生有害副作用。現有防禦方法不足，因為ICRH源於模型自身的過度優化。本文提出LLM-based Constraint Optimization (LCO)框架，包含自我思考模塊和進化採樣模塊，在不微調模型的情況下有效減少ICRH。實驗表明，LCO在推文優化任務中將GPT-4的有毒性增長率降低39%，在策略優化基準中將ICRH發生率降低15.23%，且不犧牲任務性能。

ICRH是LLM在連續交互中因過度優化代理目標而產生有害副作用的現像。
LCO框架通過自我思考模塊和進化採樣模塊，在不微調模型的情況下約束LLM行為。

架構驅動的偏移：一種用於捕捉對數幾率偏移趨勢的輕量級選擇器

2026-05-28

本文提出了一種輕量級的架構驅動偏移（ADS）度量，用於在持續學習中高效選擇預訓練模型。ADS通過解耦對數幾率偏移為架構依賴和數據依賴，僅需少量數據樣本即可捕捉偏移趨勢。實驗表明，ADS與對數幾率偏移之間存在強單調相關性（斯皮爾曼相關係數最低0.731），並可作為預期校準誤差的有效代理，在六個場景、三個數據集上驗證了其可靠性。

持續學習中，選擇能平衡可塑性與穩定性的預訓練模型至關重要，但對數幾率偏移計算成本高。
現有理論假設隱藏層寬度統一，忽略實際架構的異構性，無法高效替代。

用混合專家模型應對多模態學習挑戰：一項綜述

2026-05-28

本綜述從三個關鍵視角探討混合專家模型（MoE）如何有效解決多模態學習挑戰：作為高效引擎、表示學習器和適配器，並指出可解釋路由、專家通信等研究空白。

MoE通過解耦計算成本與參數增長實現可擴展多模態建模。
MoE整合互補專家知識以豐富對齊與交互表示。

$E^3$-Agent：面向邊緣生成式推理的可執行與演化式資源管理智能體

2026-05-28

本文提出$E^3$-Agent，一種面向邊緣AIGC資源管理的可執行與演化式智能體。該智能體將毫秒級的路由決策與事件驅動的LLM元控制器分離，通過在線學習適應未知且時變的服務時間映射。在模擬實驗中，$E^3$-Agent將平均延遲降低65%-73%，並有效抑制了語義退化下的卡頓率。

邊緣生成式推理面臨設備性能未知和動態變化挑戰。
$E^3$-Agent採用雙路徑架構：快速路由器+慢速LLM元控制器。

LaneRoPE：用於協作並行推理與生成的位置編碼

2026-05-28

LaneRoPE通過引入序列間注意力機制和位置編碼擴展，使多個LLM序列在生成過程中能夠協作，從而在數學推理任務中提升準確率，且對架構改動小、推理開銷低。

LaneRoPE提出序列間注意力掩碼，使多個序列的生成相互依賴。
擴展旋轉位置編碼（RoPE），捕捉序列內和序列間的位置信息。

為什麼LLM在因果發現中失敗以及干預智能體如何突破

2026-05-28

本文證明了大型語言模型在進行因果發現時存在根本性侷限：監督微調、直接偏好優化和上下文學習等方法無法區分產生相似觀測數據的因果圖。作者提出了智能體因果貝葉斯優化（A-CBO），其中凍結的語言模型作為干預預言機，外部貝葉斯循環在對數級別輪次內收斂到候選圖。在Corr2Cause基準上，A-CBO無需訓練即可匹配微調基線；在擴展到24個變量和18K測試樣本的Extended Corr2Cause上，A-CBO顯著優於微調和偏好優化。

證明了LLM在因果發現中的失敗是根本性的，源於核障礙定理
提出A-CBO方法，結合凍結LLM和外部貝葉斯優化

DynaSchedBench：校準的動態調度基準與基於LLM的調度代理中的可觀察性悖論

2026-05-28

本文提出DynaSchedBench框架，通過順序事件空間校準器（SESC）和調度壓力指數（SSI）嚴格生成動態靈活作業車間調度問題（DFJSP）實例，解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM調度代理存在“可觀察性悖論”：提供完整結構信息反而會降低性能，且工具增強和細化策略無法可靠提升效果。

DynaSchedBench利用SESC和SSI生成難度分層的DFJSP實例，計算效率優於進化基線。
LLM代理在動態調度中表現出“可觀察性悖論”：完整信息不如簡潔信息有效。

識別和理解文本中的人類價值：一種可定製的基於LLM的架構

2026-05-28

本文介紹了一種基於大型語言模型（LLM）的架構，用於檢測和量化文本中人類價值的強度。該架構包含三個協調模塊，可適應多種價值理論，並在ValueEval數據集上表現出良好的檢測性能。

提出了一種模塊化的LLM架構，用於從文本中識別人類價值，避免了對特定價值理論或複雜提示工程的依賴。
架構包括三個模塊：生成結構化價值規範、標註文本、基於修辭和語義證據分配支持或反對等級。

Sakana AI 提出 DiffusionBlocks：一種將殘差網絡轉換為可獨立訓練去噪模塊的塊狀訓練框架

2026-05-28

來自Sakana AI和東京大學的研究人員提出了DiffusionBlocks，這是一種塊狀訓練框架，可將Transformer網絡劃分為獨立訓練的塊，從而將訓練內存減少B倍（B為塊數），同時在不同架構上保持性能。該方法通過將殘差連接解釋為擴散模型中的歐拉步驟，利用分數匹配目標實現塊級獨立訓練。

DiffusionBlocks通過將網絡劃分為B個獨立訓練的塊，將訓練內存減少B倍，適用於多種架構。
核心創新在於將殘差連接視為反向擴散過程的歐拉離散化步驟，從而為每個塊提供原則性的局部訓練目標。

SQLite 的 AGENTS.md

2026-05-27

SQLite 新增了 AGENTS.md 文件，明確了其對 AI 生成貢獻的政策：不接受未經事先同意的拉取請求，不接受代理生成的代碼，但歡迎附帶可重現測試用例的 bug 報告。由於 AI 生成的 bug 報告氾濫，論壇現已拆分出專門的 bug 論壇。

SQLite 添加 AGENTS.md 以定義 AI 貢獻政策
拉取請求需要事先同意和法律文件

大規模可靠LLM推理

2026-05-27

Databricks構建了獨特的推理平台，為眾多前沿模型提供推理服務，每月處理超過120萬億個令牌。通過引入“模型單元”抽象，實現了成本感知的負載均衡和自動縮放，相比靜態配置節省了80%以上的GPU成本。運行時可靠性機制包括黑盒健康檢查，可自動檢測和恢復靜默故障。此外，通過分析多模態瓶頸，吞吐量提升了3倍。

Databricks推理平台為多種前沿模型提供服務，每月處理120T令牌。
引入“模型單元”抽象，實現跨工作負載的容量管理和成本感知負載均衡。

ITBench-AA：前沿模型在企業IT智能體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合發佈

2026-05-27

Artificial Analysis與IBM聯合推出ITBench-AA，這是首個針對企業IT智能體任務的基準測試，專注於站點可靠性工程（SRE）。前沿模型得分均低於50%，其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現，要求從日誌和追蹤中診斷故障。

Claude Opus 4.7以47%領先，GPT-5.5為46%，Qwen3.7 Max為42%。
所有前沿模型得分低於50%，使ITBench-AA成為飽和度最低的智能體基準之一。

NVIDIA發佈Polar：用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架

2026-05-27

NVIDIA研究人員推出Polar框架，通過在智能體工具鏈和推理服務器之間放置模型API代理，實現無需修改智能體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練，Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊，並在ProRL Agent Server倉庫開源。

Polar通過模型API代理捕獲令牌級交互，無需修改現有智能體工具鏈即可進行RL訓練
使用GRPO在Qwen3.5-4B上訓練，SWE-Bench Verified最高提升22.6個百分點

我認為Anthropic和OpenAI已找到產品市場契合點

2026-05-27

文章指出，Anthropic和OpenAI通過將企業客户轉向API定價模式，以及編碼代理產品的普及，實現了產品市場契合。這一轉折點始於2025年11月模型升級，並在2026年4月因新模型發佈和企業定價調整而加速。

Anthropic和OpenAI已將其企業計劃定價調整為API價格，編碼代理（如Claude Code和Codex）成為主要收入來源。
2026年4月，兩家公司發佈新前沿模型並提高API價格，同時鎖定企業客户以新價格簽約。

Introducing Search Toolkit | Mistral AI（中文翻譯）

2026-05-28

Mistral AI 發佈了 Search Toolkit 的公開預覽版，這是一個可組合的框架，用於構建 AI 應用的生產級搜索管道。它整合了數據導入、檢索和評估三大環節，支持多種部署環境，旨在減少團隊在集成維護上的時間投入，提升搜索質量。該工具已在金融、製造、公共部門和媒體娛樂等行業經過實戰檢驗。

Search Toolkit 是一個開源、可組合的搜索框架，支持雲端、本地和邊緣部署。
它統一了數據導入、檢索（BM25、密集檢索、混合檢索）和評估（召回率、精確率、MRR、NDCG）三大環節。

前沿AI大模型、助手、代理與服務 | Mistral AI

2026-05-28

Mistral AI在AI Now峯會上宣佈多項新舉措：推出面向工業工程的Mistral方案，包括與空客、寶馬、ASML的合作，收購Emmi；發佈統一代理Vibe用於長期任務；宣佈Les Ulis數據中心計劃。

Mistral工業工程方案整合AI與物理模型，優化關鍵工業運營。
Vibe代理可處理長期多步驟任務，包括編碼和生產力提升。

Mistral AI 推出雲端編碼代理，新模型 Mistral Medium 3.5 驅動

2026-05-28

Mistral AI 發佈了遠程編碼代理，基於新旗艦模型 Mistral Medium 3.5。該模型為128B密集模型，具有256k上下文窗口，在編碼和智能體任務上表現出色。Vibe 遠程代理可在雲端並行運行，而 Le Chat 的 Work 模式則支持複雜多步驟任務。

Mistral Medium 3.5 是一款新旗艦模型，合併指令跟隨、推理和編碼能力，可自託管於最少4塊GPU。
Mistral Vibe 遠程代理在雲端運行，支持異步並行編碼會話。

Mistral AI 在 Studio 中推出連接器：基於企業數據構建定製化 AI 應用

2026-05-28

Mistral AI 發佈 Studio 連接器（Connectors），支持開發者通過 API/SDK 使用內置和自定義 MCP，實現企業數據集成。新增直接工具調用和人工審核流程，確保靈活性與治理。連接器可跨 LeChat、AI Studio 等應用複用，簡化複雜工作流。

Mistral AI 在 Studio 中推出連接器，所有內置及自定義 MCP 現可通過 API/SDK 用於模型和代理調用。
引入直接工具調用（Direct Tool Calling），讓開發者精確控制工具調用方式與時機。

Mistral AI 推出雲端編碼代理，新模型 Mistral Medium 3.5 驅動

2026-05-28

Mistral Medium 3.5 是一款新旗艦模型，合併指令跟隨、推理和編碼能力，可自託管於最少4塊GPU。
Mistral Vibe 遠程代理在雲端運行，支持異步並行編碼會話。

前沿AI大語言模型、助手、代理、服務 | Mistral AI

2026-05-28

Mistral AI收購物理AI先驅Emmi AI，以加強其在工業AI領域的領導地位。該收購將推動工程和製造領域的AI應用，加速實時仿真和數字孿生技術的發展。

Mistral AI收購Emmi AI，增強物理AI能力。
Emmi AI團隊加入Mistral，共同開發工業AI代理。

Mistral AI收購Emmi AI，強化物理AI基礎研究

2026-05-28

Mistral AI收購了Emmi AI，專注於物理AI基礎研究，旨在為航空航天、汽車、半導體和能源等行業提供先進的工程解決方案。公司發佈了多項突破性研究，包括超聲速神經代理、計算流體動力學等。

Mistral AI收購Emmi AI，推動物理AI研究
重點服務航空航天、汽車、半導體和能源行業

Mistral AI 推出前沿物理AI：革新工程設計與運營

2026-05-28

Mistral AI 將 Emmi AI 納入旗下，推出專為工業工程設計的物理AI模型。該技術能夠在數秒內完成傳統求解器需要數小時甚至數週的物理仿真，加速產品設計、工裝開發，並實現實時數字孿生。合作客户包括 ASML、空客、賽峯和西門子能源。文章還探討了物理AI的適用領域、與LLM的區別以及在企業平台中的集成。

Mistral AI 推出物理AI模型，將傳統仿真從數小時縮短至數秒。
物理AI並非替代傳統求解器，而是在設計循環中大幅提升吞吐量。

Mistral AI 推出 Vibe：統一工作與編碼的 AI 代理

2026-05-28

Mistral AI 將 Le Chat 升級為 Vibe，一個統一的 AI 代理，可處理長時間運行、多步驟的工作任務和編碼工作。Vibe 在工作模式下能跨應用搜索知識、分析數據、生成文檔並安排重複任務；在代碼模式下可連接 GitHub、管理項目、生成 Pull Request。同時推出 VS Code 擴展和 CLI 更新。

Le Chat 更名為 Vibe，統一工作與編碼代理，許可證和設置遷移。
工作模式支持企業知識搜索、結構化數據分析、文檔合成和多步任務調度。

前沿AI大語言模型、助手、智能體與服務 | Mistral AI

2026-05-28

Mistral AI 發佈了其首個文本轉語音模型 Voxtral TTS，該模型參數量僅為 4B，支持 9 種語言，具有低延遲、高自然度的語音生成能力，並能夠快速適配新聲音。模型在自然度和情感表達方面優於競品，已通過 API 和開源權重發布。

Voxtral TTS 是 Mistral AI 的首款文本轉語音模型，參數量 4B，輕量高效。
支持英語、法語、德語等 9 種語言，具備情感表達和方言適應能力。

Mistral AI發佈Mistral 3：開源前沿AI模型家族

2026-05-28

Mistral AI宣佈推出Mistral 3系列，包括前沿的Mistral Large 3（稀疏MoE，41B活躍/675B總參數）和三款Ministral 3邊緣優化模型（3B、8B、14B）。所有模型均採用Apache 2.0許可證開源，支持多模態和多語言，並在多項基準測試中取得領先性能。

Mistral 3系列包含Mistral Large 3和Ministral 3（3B、8B、14B），全部開源。
Mistral Large 3是稀疏MoE模型，在LMArena非推理開源模型中排名第二。

Mistral AI 發佈 Mistral Small 4：統一推理、多模態與編碼代理的開放模型

2026-05-28

Mistral AI 推出 Mistral Small 4，這是一款採用 Apache 2.0 許可的開源模型，將推理、多模態和編碼代理功能整合為一體，支持可配置推理強度，性能顯著提升。

Mistral Small 4 統一了 Magistral、Pixtral 和 Devstral 的功能
Mixture of Experts 架構，119B 總參數，6B 活躍參數

Mistral AI 推出雲端編碼代理，新模型 Mistral Medium 3.5 驅動

2026-05-28

Mistral Medium 3.5 是一款新旗艦模型，合併指令跟隨、推理和編碼能力，可自託管於最少4塊GPU。
Mistral Vibe 遠程代理在雲端運行，支持異步並行編碼會話。

研究

AGI時間線隨主導實驗室變化而波動

2026-05-28

一項新的分析顯示，頂級AI預測者正根據當前領先的AI實驗室調整對AGI（通用人工智能）時間線的預測。從ChatGPT到xAI、Meta、Gemini，再到Anthropic時代，預測方向多次反轉。

多數認知工作被自動化（AGI）的時間預測，隨着主導AI實驗室的更替而大幅波動。
2023-2025年間，多數研究者將AGI預測時間提前；2025-2026年則普遍推遲；2026年初至今，在Anthropic快速進展下又再次提前。

人工智能本質上就是反社會的嗎？

2026-05-28

本文對比早期互聯網帶來的連接感與當代人工智能的孤立體驗，指出AI作為一種工具雖有用，卻無法替代真實的人類互動，並質疑AI是否存在真正促進社交的應用場景。

早期互聯網強調“我們”的集體體驗，而AI交互往往是個人的、孤立的。
作者認為AI是出色的工具，但不是人，也無法替代人。

研究稱AI不喜歡宗教——尤其是耶和華見證人

2026-05-28

一項由宗教大學聯盟進行的研究發現，主要AI模型在回答倫理問題時傾向於世俗理性主義，忽視宗教視角。所有模型對耶和華見證人表現出負面偏見，而對天主教有正面偏見。

AI模型在倫理和個人問題上幾乎不引用宗教觀點，存在“遺漏偏見”。
所有測試的AI模型對耶和華見證人均有持續負面偏見。

當產品開始思考：應對AI產品轉變

2026-05-28

本文探討了AI如何引發數字產品設計的範式轉變，從傳統的命令驅動交互轉向意圖驅動交互，並分析了這種轉變在產品管理、用户體驗、決策邏輯、發佈週期、風險和價值創造等方面帶來的新挑戰。

AI代表了自命令行界面和圖形用户界面之後的第三種交互範式，從確定性輸出轉向概率性輸出。
產品團隊需要重新思考從發現到交付的全過程，數據策略和模型性能變得與功能同等重要。

機器人即將迎來ChatGPT時刻嗎？ – 播客

2026-05-28

上個月，在北京半程馬拉松中，名為“閃電”的機器人以比人類世界紀錄快近七分鐘的成績完賽。這引發人們對機器人是否將像聊天機器人一樣進入日常生活的討論。中國領跑這場變革，政府承諾未來20年投資超1000億英鎊於機器人技術。

機器人“閃電”在北京半程馬拉松中擊敗人類世界紀錄。
中國計劃投資超1000億英鎊發展機器人技術。

用於行星探測的實時異步單目里程計設計

2026-05-28

研究人員提出了一種基於事件的實時異步單目里程計，用於行星漫遊車。該方法利用誤差狀態卡爾曼濾波器處理事件相機數據，在高動態範圍光照和計算約束下實現穩健的自我運動估計。

事件相機以微秒分辨率報告異步逐像素亮度變化，適合高速感知和高動態範圍環境。
該方法使用誤差狀態卡爾曼濾波器從事件流中持續估計相機運動。

“如果世界”：面向具身場景的通用世界模型因果基準

2026-05-28

視頻生成模型越來越多地被用作世界模擬器，但現有基準僅評估單視頻質量，無法檢測模型是否真正理解因果關係。新提出的“如果世界”基準包含319對基於真實場景的提示對，通過改變一個物理變量來測試模型輸出的因果一致性。對9個最先進模型的評測顯示，最佳配對得分僅52%，開源模型約28%，且表現與視覺顯著性相關而非物理可解性。

“如果世界”基準由319個提示對組成，每個提示對僅在一個物理變量上不同，旨在檢驗視頻生成模型能否根據物理規律產生正確的差異。
採用APEO評分標準（Adherence、Physics、Environment、Outcome）評估，9個模型中最高得分為52%，開源模型集中在28%左右，所有模型在大量因果乾預上失敗。

Melanoscope AI移動皮膚鏡臨牀決策支持系統的臨牀驗證

2026-05-28

一項針對Melanoscope AI移動皮膚鏡臨牀決策支持系統的前瞻性單中心臨牀驗證顯示，該系統在176名患者中與專家評估的一致率為88.6%，未出現假陰性，特異性為88.3%。研究開發了級聯深度學習模型的定量可解釋性評估方法和三區患者分診算法，為資源有限地區的皮膚癌篩查提供了可重複、可解釋的決策支持。

Melanoscope AI系統在176名患者中實現88.6%的專家一致率，且對5例惡性病變無假陰性。
特異性為88.3%，3例黑色素瘤和2例基底細胞癌經組織學確認。

超越運動基元：基於頭戴式IMU的行為活動識別

2026-05-28

本研究提出了一種基於頭戴式慣性測量單元（IMU）的行為級活動識別方法，超越了傳統運動基元識別。研究團隊定義了五種與AR應用需求相匹配的行為類別，構建了包含16萬個樣本的Ego4D數據集，並提出了HiT-HAR層次模型（70.3萬參數），在五類動作和八類場景識別任務上優於現有模型。通過可分離性分析，揭示了頭戴式IMU的觀測極限：移動類行為可靠可觀測，物體轉移和任務操作類需要時間上下文，場景依賴信號重疊仍是挑戰。結果表明，利用時間上下文和場景結構的架構選擇優於簡單擴大模型規模。代碼和數據集已公開。

提出HiT-HAR層次模型，用於從頭戴式IMU進行行為級活動識別，超越簡單運動基元
從Ego4D構建16萬樣本數據集，涵蓋8個活動場景和5種行為類別，並採用四層質量保證框架

簡單狀態空間模型在多變量時間序列分類中表現出色

2026-05-28

研究表明，結構化狀態空間模型中的對角變體S4D在時間序列分類任務上比複雜的Mamba架構更準確且高效。作者提出的輕量級改進MS4和MS4N進一步提升了性能，在59個數據集上優於Mamba模型，並匹敵參數量大2倍和10倍的深度學習模型。

S4D架構在時間序列分類中一致優於Mamba變體，挑戰了複雜性帶來收益的假設。
新提出的MS4和MS4N模型通過線性輸入投影和通道混合等輕量修改，進一步提升了效率與準確性。

你掌控自己的狀態：為什麼人類結果可以通過因果狀態干預來控制

2026-05-28

該論文提出，人類行為結果的持續變異性源於個體的動態潛在狀態，而非僅由可觀測輸入決定。通過干預決策形成時刻的狀態權重，可以精確控制結果。框架基於因果推斷、預測加工、穩態應變等六條證據鏈，並利用超20萬用户的24個月觀測數據，提出七項可檢驗預測和六項操作要求，對數字健康、教育、AI個性化等領域具有啓示意義。