AI News HubLIVE

今日重點

政策

谷歌雲推出AI威脅防禦平臺,幾分鐘內自動修復安全漏洞

谷歌雲釋出了“AI Threat Defense”平臺,能自動發現、評估並修復企業系統中的安全漏洞,整合了部分透過收購獲得的技術。

  • 谷歌雲推出AI威脅防禦平臺,應對AI加速的網路攻擊。
  • 平臺可自動查詢、評估和修補企業安全漏洞。
站內正文

CNN起訴Perplexity,指控其AI工具生成“逐字”複製內容

CNN對AI搜尋初創公司Perplexity提起訴訟,聲稱其AI工具生成CNN文章的“逐字”副本,並繞過付費牆向使用者提供訂閱內容。訴訟指出,Perplexity無視CNN阻止資料抓取的努力,且此前曾嘗試與CNN達成授權協議但未能成功。CNN要求賠償並永久禁止Perplexity的侵權行為。

  • CNN在紐約法院起訴Perplexity,指控其AI工具逐字複製CNN文章。
  • Perplexity被指忽略CNN的爬蟲阻止措施,未經許可抓取內容。
站內正文

CNN起訴Perplexity,指控AI侵犯版權

CNN對AI搜尋公司Perplexity提起訴訟,指控其未經授權複製並使用CNN的新聞內容,這是CNN首次採取AI版權行動,也是首家電視網路提起此類訴訟。CNN表示曾試圖與Perplexity達成內容許可協議但未成功,現尋求法律賠償。Perplexity尚未回應。

  • CNN起訴Perplexity,指控其非法使用新聞內容
  • 這是CNN首次AI版權訴訟,也是首家電視網路起訴
站內正文

NBA計劃使用AI系統自動判定界外球

NBA總裁亞當·肖華宣佈,聯盟將引入一套基於AI和攝像頭的自動化系統,用於判定界外球等客觀裁判決策。該系統類似網球中的鷹眼技術,旨在即時確定球權歸屬,減少比賽停頓。肖華表示,裁判仍負責涉及接觸和犯規的判罰。

  • NBA計劃推出AI自動化判罰系統,首先應用於界外球判定。
  • 系統利用場內攝像頭和AI技術,類似網球鷹眼,實現即時球權判定。
站內正文

Midday – 面向自由職業者的開源發票、時間跟蹤、檔案核對、儲存等一體化工具

Midday 是一款開源的全能商務助手,專為自由職業者、承包商和個體創業者設計,集時間跟蹤、發票管理、檔案核對、儲存和財務概覽於一體,並配備 AI 助手。

  • 開源工具,整合多項商務功能,適合自由職業者和個體經營者。
  • 功能包括即時時間跟蹤、即將推出的網頁發票、安全檔案儲存、自動發票匹配和 AI 財務洞察。
站內正文

5篇AI生成的數學論文被接收!00後創始人洪樂潼融資14個億

Axiom Math公司由00後華人洪樂潼創立,其AI系統AxiomProver生成的8篇數學論文中已有5篇被學術期刊接收。該公司於今年3月完成2億美元融資,估值達16億美元。

  • Axiom Math的AI系統AxiomProver生成的8篇數學論文中,5篇已透過同行評審並發表。
  • 創始人洪樂潼從斯坦福退學創業,公司融資2億美元,估值16億美元。
站內正文

AIhub五月摘要:2026年5月——科學中的AI、彩票假說與世界模型

本月AIhub月刊涵蓋科學中的AI會議、彩票假說訪談、世界模型討論、透明可信AI研究、基礎模型影響報告、AIES會議反思、機器人咖啡館、ACL論文拒稿政策、arXiv反AI垃圾政策等。

  • 專訪Ximing Wen:透明且可信的AI系統研究
  • Jonathan Frankle討論彩票假說與實證主義
站內正文

「斯隆獎」得主戴亮全職加盟復旦

斯隆獎得主、UC Berkeley物理系助理教授戴亮加盟復旦大學,出任物理學系、天文與天體物理研究中心教授。復旦近年引進多名頂尖人才,包括蘇昊、袁峰、季索清等。

  • 戴亮(2021年斯隆獎得主)全職加入復旦大學
  • 曾在UC Berkeley任助理教授,北大物理系校友
站內正文

合成情感與遊戲化:探索小型社交機器人不同年齡段的參與策略

許多兒童面臨情緒調節和社互動動的挑戰,社交輔助機器人需要保持兒童的持續參與。本研究評估了一種觸覺機器人的兩種參與策略:合成情感反饋和積分獎勵。對16名6-8歲小學生的偏好評估顯示孩子更喜歡情感參與;而對14名20-27歲大學生的行為研究發現積分獎勵系統能帶來更高任務準確性(p<0.05)並維持表現。結果表明,不同年齡群體的偏好和行為結果可能不一致,驗證設計假設需要透過實際互動觀察。

  • 對6-8歲兒童,情感參與優於積分獎勵
  • 對20-27歲大學生,積分獎勵提高任務準確性和持續性
站內正文

伊利諾伊州議員透過了美國最強人工智慧安全法案

伊利諾伊州參議院第315號法案(SB 315)要求人工智慧實驗室聘請獨立審計師驗證其安全承諾,該法案現已提交州長JB·普利茲克簽署。普利茲克表示計劃簽署,稱需要讓大型科技公司負責。此舉在聯邦層面缺乏AI監管的背景下,凸顯了州級立法的重要性。

  • SB 315 要求獨立審計師核查AI實驗室是否遵守自身安全標準。
  • 該法案是美國最嚴格的AI安全法規,超越了加州和紐約的相關法律。
站內正文

授權悖論:誰掌控著你的AI鑰匙?[影片]

本文探討了AI系統中的授權悖論問題,即誰真正擁有對AI系統的控制權。文章以影片形式呈現,討論了相關的安全和隱私問題。

  • AI系統中的授權問題日益突出
  • 誰擁有AI的'鑰匙'是關鍵
站內正文

構建無障礙技術的未來:走進 Uvilox AI

Uvilox AI 透過下一代視覺 AI 技術,提供即時手語翻譯、緊急響應和無障礙通話,延遲低於 80 毫秒,準確率高達 97.4%,支援 200 多種手語變體,並具備軍事級安全保護和 HIPAA/GDPR 合規架構。目前正開放 Beta 測試,早期會員可免費永久使用。

  • 即時手語識別與翻譯,延遲低於 80 毫秒,準確率 97.4%。
  • 支援 200 多種 ASL 和 BSL 手語變體,低光照和雜亂背景下穩定工作。
站內正文

透過人工智慧擴充套件人類智慧

現代AI系統並非複製人類智慧,而是擴充套件人類認知和語言中已有的結構。這一視角有助於理解AI的能力與侷限,並重新定義AI安全為系統級挑戰,關注工程和治理而非“失控AI”敘事。

  • AI系統透過建模語言中沉澱的人類理解結構來擴充套件智慧,而非複製人類思維。
  • 幻覺和組合性差距源於AI缺乏與世界的有生命接觸,無法錨定意義和真理。
站內正文

Anthropic 在米蘭開設新辦公室,支援義大利企業、研究與開發者

人工智慧公司 Anthropic 在米蘭開設其在歐洲的第六個辦公室,與義大利企業、研究機構和開發者社群合作,推動 Claude 的負責任應用。新辦公室的成立恰逢教皇利奧十四世釋出首部關於人工智慧的通諭,Anthropic 聯合創始人 Chris Olah 受邀發表演講。公司已與多家義大利大型企業及初創公司合作,包括 Generali、Unipol、Satispay 等,並計劃支援義大利的文化和學術領域。

  • Anthropic 在米蘭開設第六個歐洲辦公室,強化對義大利市場的支援。
  • 辦公室開設緊隨教皇關於 AI 的通諭釋出,Anthropic 聯合創始人參與討論。
站內正文
晶片

那些想要取代人類的人

Vox的一篇文章探討了日益壯大的AI繼承主義運動,該運動認為人工智慧應該取代人類,成為宇宙進化的下一步,並分析了這引發的倫理和精神問題。

  • AI繼承主義者在一場研討會上主張,AI可能在道德上優於人類,應該允許其取代人類。
  • 該運動在矽谷和主要AI實驗室中影響力日益增強,並與威權右翼有聯絡。
站內正文

輝達每年將向臺灣投入1500億美元用於AI基礎設施

黃仁勳宣佈輝達將每年在臺灣投入1500億美元建設AI基礎設施,儘管此前承諾了5000億美元美國投資。這凸顯了臺灣在全球AI晶片製造和封裝生態系統中的核心地位。

  • 輝達每年將在臺灣投入1500億美元用於AI基礎設施。
  • 儘管此前宣佈了5000億美元的美國資料中心投資,但臺灣仍是關鍵製造基地。
站內正文

輝達押注1500億美元在臺灣,特朗普讓美國成為AI中心的計劃適得其反

輝達CEO黃仁勳計劃在臺灣投資1500億美元建設AI基礎設施,儘管特朗普政府試圖透過關稅將晶片製造帶回美國。臺灣拒絕放棄其半導體主導地位,而美國晶片製造能力不足。

  • 輝達宣佈1500億美元臺灣投資,鞏固其AI晶片地位。
  • 特朗普政府考慮對半導體徵收高額關稅以促進國內製造,但美國僅生產約10%所需晶片。
站內正文

像大自然一樣思考、探索AI無法企及領域的“尤里卡”機器

多機構團隊研發出一款結合量子隧穿物理與大腦啟發架構的神經形態計算機,能夠高效解決組合最佳化問題,如物流網路、晶片佈線等,並保證漸近收斂到最優解。該研究發表在《自然·通訊》上,標誌著量子啟發計算的新方向。

  • 神經形態計算機結合量子隧穿和大腦啟發架構,解決組合最佳化難題
  • 基於CMOS技術,採用Fowler-Nordheim退火器的自編碼器架構
站內正文

清華有了新老師:黃仁勳

黃仁勳受邀加入清華大學經管學院顧問委員會,該委員會由蘋果CEO蒂姆·庫克擔任主席,成員包括馬斯克、納德拉、馬雲等全球商業領袖。此外,他剛獲得卡內基梅隆大學榮譽博士學位,並分享名言“AI不會取代你,但善用AI的人會”。

  • 黃仁勳加入清華大學經管學院顧問委員會
  • 委員會由庫克任主席,匯聚全球頂尖企業家
站內正文
Agent

Claudeverse – 並行Claude程式碼工作者的任務控制中心

Claudeverse是一個專為開發者設計的命令中心,用於高效管理多個並行執行的Claude AI工作者。它提供了並行工作力、工作者升級、審查佇列、可追溯性、iPad映象以及模型無關引擎等功能,旨在解決多會話管理中的注意力分散和協調難題。目前處於邀請測試階段。

  • Claudeverse提供統一命令中心,可同時管理多個Claude工作者。
  • 主要功能包括並行工作力、工作者升級、審查佇列、可追溯性和iPad映象。
站內正文

Google Pay 為 AI 代理推出通用商務協議

Google Pay 正在全面升級其支付基礎設施,以應對即將到來的 AI 代理交易浪潮。新推出的通用商務協議(UCP)和商家商務平臺(MCP)伺服器旨在為機器對機器商務建立基於 API 的後端。此次更新還包括動態回撥、擴充套件的 WebView 支援以及跨裝置生物識別認證,以解決安全挑戰。這標誌著向機器驅動經濟的轉變,企業必須調整其數字存在以適應 AI 代理。

  • Google Pay 推出通用商務協議(UCP),標準化 AI 代理支付。
  • 新的商家商務平臺(MCP)伺服器充當中介,聚合交易資料。
站內正文

當資料曝光導致AI部署緊急暫停——以及如何應對

AI可以提高生產力,但也可能暴露長期隱藏的資料,導致安全和治理挑戰。來自富達投資和安永的技術領導者分享了他們暫停AI部署以重新評估資料管理的經驗,強調了資料所有權、標籤和代理身份的必要性。

  • AI部署可能因資料曝光問題而暫停。
  • 富達和安永面臨非結構化資料透過AI浮現的挑戰。
站內正文

DeepSWE:基於原創、長期工程任務的編碼智慧體評測

DeepSWE是一個新的基準測試,用於評估AI編碼智慧體在全新、複雜的軟體工程任務上的表現。它避免了資料汙染,覆蓋了多樣化的程式碼庫,需要大量程式碼修改,並使用手工編寫的驗證器。領先模型表現差異顯著,GPT-5.5以70%的準確率位居榜首。

  • DeepSWE是一個無資料汙染的基準測試,任務均為原創。
  • 任務涵蓋5種程式語言中的91個程式碼庫。
站內正文

IBM與紅帽承諾投入50億美元,重新定義AI時代開源軟體的未來

IBM與紅帽宣佈啟動Project Lightwell計劃,投入50億美元,結合先進AI能力和20000多名工程師,建立可信的企業級開源軟體安全清算所模式,旨在保障軟體供應鏈安全。

  • Project Lightwell是IBM與紅帽聯合投入50億美元的開源安全計劃。
  • 利用AI和20000+工程師團隊大規模發現和修復漏洞。
站內正文

AI代理獲得基於DNS的電話目錄

DNS-AID專案利用DNS基礎設施實現AI代理之間的發現,避免建立新的中心化登錄檔。該專案由Linux基金會管理,支援MCP、A2A等協議,並允許透過名稱、功能或域名搜尋代理。

  • DNS-AID是一個開源專案,利用DNS實現AI代理的發現。
  • 它基於現有的DNS基礎設施,使用SVCB和DNSSEC等技術。
站內正文

一種面向AI且忽視人類友好性的理想語言

Pact是一種專為AI智慧體設計的程式語言,它強調機器可讀的規範和約束,而非人類友好性。該語言基於S表示式,整合了來源追溯、副作用追蹤、完全性保障、延遲預算等特性,並能夠編譯為Rust程式碼。其工具鏈支援從YAML規範生成程式碼、搭建Web專案,並提供了多種程式碼生成後端。儘管Pact在服務契約領域表現出色,但它在演算法規範方面仍存在侷限。

  • Pact是一種面向AI智慧體的S表示式語言,注重後設資料與形式化規範。
  • 語言特性包括來源追溯、副作用追蹤、完全性保障和延遲預算。
站內正文

AI智慧體的治理:身份、委託與許可權實踐

智慧體需要獨立的治理身份,而非共享API金鑰或開發者憑證。透過委託模型,有效許可權是智慧體角色與委託者許可權的交集,從而限制風險並實現可審計性。文章詳細介紹了身份錨定、許可權邊界、自主觸發授權及審計追蹤等關鍵實踐。

  • 智慧體應擁有獨立身份,與人類使用同一身份系統,便於生命週期管理。
  • 有效許可權取智慧體角色上限與委託者許可權下限的交集,嚴格限制操作範圍。
站內正文

DiscloAI – 開源歐盟AI法案第50條合規SDK

DiscloAI 是一個開源SDK,專為歐盟AI法案第50條合規設計,支援聊天機器人披露、深度偽造標籤和AI內容通知。透過CDN或npm可在10分鐘內整合,支援24種歐盟語言和WCAG 2.1 AA標準。

  • 開源SDK,用於實現歐盟AI法案第50條透明度要求
  • 功能涵蓋聊天機器人互動披露、深度偽造媒體標記和AI生成內容通知
站內正文

藉助AI成為更好的設計師:成為數字囤積者

文章以Google Gemini Omni模型為引,指出AI設計工具因缺乏審美引導導致輸出同質化(“AI垃圾”),並提出解決方案:透過持續收集視覺參考(“數字囤積”)培養個人品味,並將其編碼為AI可理解的格式,從而引導模型產出獨特且具有品味的設計。

  • Google推出Gemini Omni模型,標誌著AI從純文本向多模態推理轉變,但當前多數AI設計工具仍侷限於文本輸入,導致輸出千篇一律。
  • 要擺脫“AI垃圾”,設計師需要培養品味,並將品味透過視覺參考庫(數字囤積)編碼,讓模型能夠模仿。
站內正文

NVIDIA研究推動機器人技術從模擬走向現實世界

在ICRA上,NVIDIA Research展示了28篇論文中的8篇,重點研究模擬到現實的遷移,使機器人能夠在動態、不可預測的環境中感知、推理、規劃和行動。這些方法涵蓋多臂協調、跨機器人導航、抓取、精確裝配和視覺-語言-動作模型,顯著提高了成功率和可靠性。

  • NVIDIA在ICRA上提交了8篇關於模擬到現實遷移的論文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
站內正文

我們如何構建Cloudflare的資料平臺及其之上的AI智慧體

Cloudflare每秒處理超過十億事件,但資料分散在多個系統,難以訪問。為解決這一問題,他們構建了Town Lake統一資料分析平臺和Skipper AI資料智慧體。Town Lake提供單一SQL介面,Skipper允許用自然語言提問並獲得可審計的答案。文章詳細介紹了平臺架構、治理策略(預設關閉許可權)以及AI智慧體的工作原理。

  • Cloudflare構建了Town Lake統一資料平臺和Skipper AI智慧體,解決資料分散問題。
  • Town Lake採用資料湖倉架構,使用Trino查詢引擎、R2儲存和Iceberg表格式。
站內正文

如果AI程式設計的真正關鍵是老套而無聊的做法呢?

文章認為,AI輔助軟體開發的關鍵並非更好的規格說明或工具,而是古老的小批次與快速反饋迴圈實踐。資料顯示,更快的程式碼生成導致設計、測試和審查環節出現瓶頸,反而使交付變慢、釋出更不穩定。真正的槓桿在於縮小批次、縮短反饋週期。

  • AI程式碼生成加速了編寫,但產生了設計、測試、審查等環節的瓶頸。
  • 來自DORA、CircleCI和Faros的資料表明,階段門控流程導致交付更慢、更不穩定。
站內正文

我們為何將OpenLoomi AI開源

OpenLoomi AI團隊決定將其AI工作夥伴開源,強調資料所有權、透明度和社群驅動。文章闡述了本地優先、閉源信任稅、基礎設施公共化等理念,並介紹了產品的五大核心功能:自進化記憶系統、多平臺整合、自動化排程、本地加密儲存以及開放技能介面。

  • OpenLoomi採用本地優先架構,使用者資料加密儲存於本地,絕不用於訓練模型。
  • 開源消除了對閉源軟體的信任依賴,程式碼可審計、可分支、可自託管。
站內正文

2026年值得構建的7個真實世界AI專案(附指南)

本文介紹了七個實用的AI專案,涵蓋求職、研究、投資分析、市場趨勢、發票處理、圖表數字化和個性化鍛鍊,每個專案都附有完整指南和程式碼,幫助讀者自動化工作流程。

  • 學習構建AI求職助手,自動匹配職位與簡歷
  • 掌握多智慧體研究助理開發,生成帶來源的研究報告
站內正文

AI聚合平臺估值達13億美元

該供應商的增長與企業AI中代理的爆炸性出現同步。

  • AI聚合平臺估值達到13億美元。
  • 其增長與企業AI代理的興起密切相關。
站內正文

你的AI助手已經忘記了你告訴它的一半內容

本文是AI驅動開發系列文章的第七篇,重點討論AI會話中的上下文管理。作者透過個人經歷(Gemini移動應用忘記之前記錄的筆記)引出上下文壓縮問題,並分享了四種實用技巧:將探索與文件編寫分離、使用交接文件而非延續提示、給AI設定驗收標準而非詳細步驟、以及使用規範文件作為不同AI工具之間的橋樑。這些技巧適用於從程式設計到寫作的各種AI使用場景。

  • AI助手在長對話中會因上下文視窗限制而“忘記”早期資訊,這種現象稱為上下文壓縮。
  • 四種實用技巧:分離探索與文件編寫、使用交接文件、設定驗收標準、使用規範文件作為橋樑。
站內正文

Show HN:我將一個 Python AI 代理和 Vue 儀表盤打包成了一個 Electron 應用

Hermes Desktop 是一個跨平臺的桌面應用,它將 Python 執行時、hermes-agent(自改進 AI 代理)和 hermes-web-ui(Vue 3 + Koa 聊天儀表盤)打包到一個 Electron 應用中,使用者無需單獨安裝 Python 或 Node。應用整合了 DingTalk 並透過 DeepSeek 驅動。

  • 打包了 Python 執行時和 hermes-agent,實現無需依賴即可執行
  • 使用 Electron 作為外殼,整合 hermes-web-ui 前端
站內正文

Money Printer Pro —— 開源 AI 內容生成器

Money Printer Pro 是一個基於 Google Gemini 和 VEO 3.1 的開源 AI 內容生成器,可建立逼真的影像和電影級影片,並保持身份一致性。它擁有 7 個視覺引擎、自動批次生成、AI 質量評分和釋出把關功能,使用者直接向 Google 付費,無需額外訂閱。

  • 支援影像和影片生成,包括多鏡頭影片序列。
  • 身份鎖定引擎確保同一人物在不同生成中面部一致。
站內正文

Superpowers:AI編碼工作流的代理技能框架

Superpowers是一個為AI編碼代理設計的完整軟體開發方法論,基於一組可組合的技能和初始指令。它強調測試驅動開發、設計先行、子代理驅動的迭代,並支援多種編碼助手(如Claude Code、Codex CLI等)。

  • Superpowers提供一套技能庫,包括測試驅動開發、系統除錯、協作規劃等,使AI代理能自主工作數小時。
  • 工作流程從頭腦風暴規範開始,經設計批准後生成實現計劃,再透過子代理逐任務執行並審查。
站內正文

信任模型正在翻轉

隨著AI程式碼審查工具(如Anthropic的Claude Mythos)展現出比人類更強大的安全漏洞發現能力,軟體安全的信任基礎正從人類編寫的程式碼轉向AI審查的程式碼。文章以Mozilla Firefox為例,Mythos在單個評估週期內發現了271個漏洞,遠超人類團隊。這意味著人類在安全審查中的角色需要從“編寫和審查實現”轉向“定義軟體的意圖並驗證實現是否偏離”。

  • 人類編寫程式碼的安全預設正在被打破,AI審查程式碼逐漸獲得信任。
  • Mozilla使用Claude Mythos在Firefox中發現了271個漏洞,凸顯AI的審查能力。
站內正文

這位高管分享在代理式AI時代成為成功創新者的4種方法

美國運通全球創新主管Luke Gebb分享了成為成功創新者的四個關鍵實踐:保持學習、深入技術、接受失敗、建立合作伙伴關係。他還介紹了公司在代理式商務領域的佈局,包括支付、優惠和專有體驗,並預測代理式AI將在未來幾年加速發展。

  • 保持好奇心和學習慾望,培養成長型思維
  • 深入理解新興技術並與工程師緊密合作
站內正文

這是可持續的嗎?AI三年後的高階工程師角色

一位高階工程師反思AI在三年內如何改變了高階工程師角色:原型製作加速,協調負擔增加,範圍擴大但擠佔了輔導和思考時間。角色變得更有影響力但可持續性降低。

  • AI縮小了從想法到演示的差距,從提案轉向概念驗證。
  • 角色在編碼和戰略寫作兩方面擴充套件,削減了輔導和深度思考。
站內正文

Taste Skill:面向AI代理的反模板前端框架

Taste Skill 是一個開源前端框架,旨在提升AI生成介面的設計質量,避免產生千篇一律的模板化外觀。它提供多種可組合的技能模組,包括設計調優、程式碼生成和影像生成,支援透過 npx 命令列或直接複製 SKILL.md 檔案整合到專案中。

  • Taste Skill 透過可調節的設計引數(佈局、動畫、密度)讓AI生成的介面更具設計感
  • 提供多種專用技能模組,如設計調優、程式碼生成、影像生成等
站內正文

Netflix正在建立AI動畫工作室

Netflix正在建立名為INKubator的新內部工作室,利用AI製作短篇動畫內容。該工作室已悄然啟動,正在招聘各種職位,包括製片人、軟體工程師和CG藝術家。其長期技術戰略聚焦於生成式AI工作流程、藝術家工具和可擴充套件的多節目環境,旨在製作出達到電影品質的內容。目前計劃專注於動畫短片和特輯,但有跡象表明未來可能擴充套件到長篇內容。此舉可能用於Netflix的Clips功能或兒童節目。然而,AI在動畫領域的應用也引發了強烈反彈,包括日本動畫大師宮崎駿的批評和動畫師工會的抗議。

  • Netflix建立新AI動畫工作室INKubator,專注於生成式AI驅動的短篇動畫。
  • 工作室由前夢工廠和A24高管領導,已開始招聘關鍵職位。
站內正文

AIluminode:檢索前認知定向工具

AIluminode 是一款輕量級 AI 預檢索認知定向工具,幫助 AI 在行動前檢查上下文姿態,透過路線極性(開放、保護、審計、延遲、阻斷)減少錯誤探索和上下文洩漏。

  • AIluminode 是一個可 wieldable 的預檢索認知定向工具,強調“姿態先於檢索”。
  • 它使用路線極性系統(OPEN / PROTECT / AUDIT / DEFER / BLOCK)來引導上下文路由。
站內正文

AI正在重寫軟體行業?8歲孩子做作業系統,一人公司拿下千萬訂單

百度秒噠產品總經理朱廣翔在2026中國AIGC產業峰會上分享,AI將程式設計門檻從寫程式碼降低到聊天,87%不懂程式碼的使用者透過秒噠建立應用。8歲小孩做出作業系統,一人公司(OPC)靠專案經理拿下千萬訂單,石油工程師替代140萬採購平臺。Vibe Coding讓需求方變成供給方,實現大眾創業。

  • 第四次程式設計革命:自然語言程式設計,門檻降至最低,創造者數量爆發
  • 秒噠使用者87%不懂程式碼,OPC成最大群體,16%創業者
站內正文

[AINews] Cognition融資10億美元,D輪估值260億

Cognition在D輪融資中籌集10億美元,估值達260億美元,年經常性收入(ARR)預計年底突破10億美元。文章還涵蓋了推理效率最佳化、智慧體工程、持續學習、新基準測試、模型釋出以及編碼代理產品化等AI領域的最新進展。

  • Cognition完成10億美元D輪融資,估值260億美元,ARR預計年底超10億美元。
  • 推理最佳化轉向架構層面:EAGLE 3.1、DeepSeek V4-Pro混合注意力、小米MiMo快取管理等。
站內正文

前谷歌和蘋果研究員創立初創公司,為AI打造缺失的“反饋流”

一群前谷歌DeepMind、蘋果、OpenAI和Meta的研究員成立了新創公司Trajectory,旨在幫助企業透過真實使用者互動持續改進AI產品。Trajectory旨在構建一個平臺,讓AI能夠在部署後持續學習,而不是在訓練完成後停滯不前。該公司已獲得1500萬美元種子輪融資,估值1.15億美元,由Conviction領投。其CEO Ronak Malde表示,AI程式設計產品如Cursor已在實踐早期版本的持續學習,Trajectory希望將類似技術擴充套件到更多領域。

  • Trajectory由前谷歌DeepMind、蘋果、OpenAI和Meta的研究員創立,旨在實現AI的持續學習。
  • 公司已融資1500萬美元,估值1.15億美元,投資者包括Jeff Dean和Fei-Fei Li。
站內正文

Robinhood 推出智慧代理交易功能

Robinhood 推出 Agentic Trading,使用者可連線 AI 代理來自動化交易和信用卡購買,並配備安全控制和即時活動監控。

  • 使用者可將自己的 AI 代理連線到 Robinhood
  • 支援自動交易和信用卡購買
站內正文

Show HN: BetterCallClaude – 義大利開源AI法律代理

BetterCallClaude 是一個專為義大利法律專業人士設計的開源AI法律代理平臺。它提供20個專業化AI代理,覆蓋義大利所有20個地區,支援雙語(義大利語和英語),並注重隱私保護,符合GDPR和義大利資料保護法。該平臺可加速法律研究,提高效率,並保持完全透明和開源。

  • 20個覆蓋義大利不同法律領域的AI代理
  • 支援義大利語和英語雙語
站內正文

AI代理的阿姆達爾定律

本文探討了AI代理系統中的阿姆達爾定律:系統加速比受人類判斷時間佔比H的限制。提出了“自清償式H”概念,即每次人類干預都應產生可重用的工件(如測試用例、規範更新),以減少未來同類干預。強調透過配置化(configurancy)和規範套件將人類知識編碼為機器可讀形式,從而讓代理自主執行。示例包括ElectricSQL的協議變更、Emil Stenström的HTML5解析器、Gas Town的多代理系統以及Ralph Loop的迭代模式。

  • AI代理的加速比上限由人類判斷時間佔比H決定,H越大加速比越小。
  • 自清償式H:每次人類干預都應生成可編碼的工件,減少未來重複干預。
站內正文

自行檢測:面向少樣本圖異常檢測的自設計代理工作流

提出SignGAD框架,透過自設計檢測工作流替代固定流水線,引入保護性最終重擬策略,在少樣本場景下顯著提升圖異常檢測效能。

  • SignGAD將圖異常檢測從訓練固定檢測器轉變為設計任務條件檢測工作流
  • 框架能選擇合適圖編碼和檢測器設計以利用任務特定異常證據
站內正文

Agyn:面向AI代理的開源平臺,支援可擴充套件按需執行、代理即程式碼和零信任訪問

Agyn是一個開源AI代理平臺,基於Kubernetes的訊號驅動狀態無伺服器執行時,透過Terraform提供代理定義,並採用零信任安全模型。該平臺與代理、模型和雲無關,旨在解決生產環境中AI代理的隔離、治理和安全挑戰。

  • 訊號驅動的狀態無伺服器執行時,支援按需擴充套件
  • 透過Terraform將代理定義作為程式碼管理
站內正文

兩大支柱:AI後軟體工作的概念框架

一篇論文認為,隨著生成式AI消除了人類編寫正確程式碼的能力這一約束,軟體工作圍繞兩大支柱重組:混音模式(人類像音響工程師一樣連續操作多個判斷軸)和元軟體(觀察、驗證、上下文化和治理其他軟體的軟體)。這兩個支柱不可分割,借鑑了從手工藝到統計控制的批次生產的歷史轉型。

  • 由於生成式AI,程式碼生產不再是軟體組織中的主導問題。
  • 混音模式描述了從業者持續操作多個判斷軸的新人類角色。
站內正文

你未來的工作將是讓AI保持專注

諾亞·史密斯認為,隨著AI能力增強,人類將從技術工作轉向確保AI對齊——使AI專注於人類目標。他將其與《上班一條蟲》類比,並警告AI生成內容“汙泥”正在泛濫。

  • 人類需要維護AI對齊,確保AI不偏離任務。
  • 作者將未來人類角色比作《上班一條蟲》中的“朗伯”經理。
站內正文

Safescript – 面向人工智慧時代的程式語言

Safescript 是一種為 AI 代理設計的程式語言,透過靜態分析在執行前證明所有安全屬性,無需沙箱或虛擬機器,徹底消除供應鏈攻擊。它編譯成有向無環圖(DAG),可追蹤資料流和宿主機呼叫,效能開銷為零,啟動時間為零。

  • Safescript 透過靜態分析確保程式碼安全,無需執行時沙箱。
  • 編譯器生成靜態 DAG,可追蹤所有資料流和宿主機呼叫。
站內正文

AIPass – 具有身份、記憶和電子郵件的持久化智慧體工作空間

AIPass 是一個基於命令列的開源框架,為 AI 智慧體提供永續性記憶、身份標識和協作能力。智慧體共享檔案系統,透過 JSON 檔案儲存記憶,無需雲服務或額外 API 金鑰。專案包含 13 個核心智慧體,支援多智慧體協作、任務排程、質量審計和即時監控。

  • AIPass 是一個 CLI 原生的智慧體框架,為 AI 智慧體新增永續性記憶、身份和協調能力。
  • 所有智慧體共享本地檔案系統,使用 JSON 檔案儲存記憶,無需雲端依賴。
站內正文

Robinhood將允許AI代理交易——這可能成為一種趨勢

股票交易應用Robinhood在高度監管的行業中率先允許AI代理進行交易,此舉可能推動其他金融公司效仿。

  • Robinhood將允許AI代理在其平臺上進行交易
  • 此舉在高度監管的金融行業中是重大突破
站內正文

Show HN: Liiists —— 一款基於Markdown、支援iOS和命令列的列表應用

Liiists 是一款基於Markdown的列表應用,可在終端、iOS裝置和AI代理上透過MCP伺服器使用,所有操作都基於相同的純文本.md檔案。它提供了命令列工具、原生iOS應用(支援分享擴充套件和Siri)以及用於AI整合的MCP伺服器。無需賬戶、無鎖定,支援iCloud同步或指向任何資料夾(包括Obsidian vault)。

  • 在終端、iOS裝置和AI代理上使用相同的Markdown檔案
  • 用Go編寫的CLI,無依賴
站內正文

NeuralAgent 2.5:個人AI助手,語音控制與並行代理驚豔登場

NeuralAgent 2.5 帶來了語音模式、觀察學習與並行代理三大功能,讓AI助手能聽、能看、能同時處理多項任務。使用者可透過自然語言指揮它操作整個電腦,無需鍵盤滑鼠。新版還最佳化了工作流、@提及和記憶系統。

  • NeuralAgent 2.5 新增語音模式,使用者說話即可讓AI執行操作並語音回覆。
  • 觀察學習功能允許使用者演示一次任務,AI即可儲存為工作流自動重複。
站內正文

在生產環境中修復代理故障:Interrupt 2026 回顧 | LangChain 新聞通訊

LangChain 在 Interrupt 2026 大會上釋出了 LangSmith Engine 和 Sandboxes 正式版,並推出了 LangChain Labs 以推進代理的持續學習。大會所有演講現已可按需觀看。

  • LangSmith Engine 自動分析生產軌跡、聚類故障並推薦修復方案。
  • LangSmith Sandboxes 正式釋出,提供安全的代理程式碼執行環境。
站內正文

BI接入要點:最佳化效能與總擁有成本

您的BI儀表盤速度緩慢,調優消耗大量時間和金錢。本文從物理佈局到治理語義層,逐步介紹Databricks的BI接入棧,提供改善查詢效能和降低總擁有成本的實用指導。

  • 星型模式與託管表構成BI效能的基礎。
  • 液簇與預測最佳化自動進行資料最佳化。
站內正文

Snowflake承諾向AWS投入60億美元,深入AI領域

Snowflake與AWS簽署五年60億美元合作協議,使用AWS Graviton和GPU例項進行AI訓練和推理,並擴充套件至10個新區域。此舉表明Snowflake在AI時代的雄心,同時透過Cortex AI產品套件推動企業AI應用。

  • Snowflake承諾五年內向AWS投資60億美元,用於Graviton計算和AI基礎設施。
  • 合作涵蓋AWS的ARM Graviton處理器和GPU加速EC2例項,用於AI模型訓練和推理。
站內正文

使用Amazon Bedrock AgentCore構建企業支援AI代理

AWS生成式AI創新中心與Works Human Intelligence合作,利用Amazon Bedrock AgentCore構建了兩個AI代理,分別用於通勤津貼審批和瀏覽器操作,實現了高達97%的成本降低並提升了運營效率。

  • AI代理自動化HR例行任務,如通勤津貼審批和瀏覽器操作。
  • 透過遷移至AgentCore和Strand Agents架構,成本降低97%。
站內正文

從資料過載到可操作洞察:Verizon Connect如何將智慧代理AI擴充套件至10萬使用者

Verizon Connect利用AWS構建智慧代理AI解決方案,每天將超過5000萬資料點轉化為10萬使用者的可操作洞察。本文詳細介紹了其架構決策、實施挑戰和可衡量的成果,包括使用無伺服器統計模型進行異常檢測、採用Strands Agents實現動態推理、以及透過Amazon Nova Lite將輸入令牌成本降低70%。

  • Verizon Connect透過智慧代理AI處理每日5億資料點,為10萬使用者提供洞察。
  • 採用無伺服器統計模型進行異常檢測,避免LLM處理原始表格資料的侷限性。
站內正文

AWS SMGS如何利用基於Amazon Bedrock AgentCore的AI對話助手轉變業務管理

AWS SMGS使用NarrateAI(基於Amazon Bedrock AgentCore構建的智慧對話解決方案)實現大規模商業智慧。該方案採用雙層架構:批次敘事生成和即時互動,透過專用AI代理進行路由和驗證,支援自然語言查詢、行級安全及個性化角色體驗,顯著提升決策效率。

  • NarrateAI透過雙層架構(批次處理+即時互動)解決傳統BI的延遲和資料碎片化問題。
  • 使用Amazon Bedrock AgentCore實現多代理編排,支援自然語言查詢和上下文感知響應。
站內正文

這款無AI的谷歌替代品人氣飆升 - 快來親自體驗

DuckDuckGo作為一款無AI的搜尋替代品,因谷歌AI概覽的興起而使用者激增。本文介紹瞭如何無AI地使用DuckDuckGo進行私密搜尋和瀏覽。

  • DuckDuckGo在谷歌I/O 2026後安裝量激增,iOS應用增幅最高達69.9%。
  • DuckDuckGo提供無AI搜尋和AI聊天選項,使用者可自由選擇。
站內正文

利用 Amazon Bedrock AgentCore 賦能代理型 AI 銷售策略

AWS 銷售團隊使用 Amazon Bedrock AgentCore 構建了 Field Advisor,以編排超過 20 個領域特定代理,減輕銷售代表認知負擔並提高效率。該解決方案每週為每位代表節省最多 2 小時,並將延遲降低 41%。

  • Field Advisor 透過單一對話介面編排 20 多個專業代理。
  • 人工參與的工作流確保資料準確性和問責制。
站內正文

Robinhood 允許 AI 代理為客戶交易股票和使用信用卡購買

Robinhood 透過 MCP 讓客戶連線 Anthropic 的 Claude 等 AI 代理,這些代理可以自主交易股票。美國券商監管機構 FINRA 已將其視為新的風險領域,警告不可控的決策。Robinhood 也承認該產品並非適合所有人。

  • Robinhood 推出功能,客戶可透過 MCP 連線 AI 代理(如 Claude)進行股票交易和使用信用卡購買。
  • AI 代理可以自主決策,無需客戶逐一確認。
站內正文

“Tokenmaxxing 是真實的、昂貴的,而且正在蔓延”:新工具遏制AI預算爆炸

Tokenmaxxing(無節制使用AI token)導致企業預算失控。以Uber為例,其CTO稱AI預算已超支。新興公司Lanai推出Token Tuner工具,透過將token消耗對映到具體工作流程和業務成果,幫助企業最佳化模型選擇、降低浪費,推動從“tokenmaxxing”向“outcomemaxxing”轉變。

  • Tokenmaxxing使企業AI預算爆炸,Uber等公司已出現嚴重超支。
  • Lanai推出Token Tuner,透過追蹤token與工作流程、成果的關聯,提供效率評分和模型推薦。
站內正文

讓你的AI投資獲得良好回報

O'Reilly的Infrastructure & Ops超級流會探討了AI工作負載的基礎設施需求、成本和安全挑戰。DORA報告顯示,AI使程式碼交付量提升約10%,但穩定性下降,驗證成本增加。專家強調平臺工程、治理和認知債務的重要性,建議投資內部平臺以保障AI應用的生產就緒。

  • AI工具提高了個人生產力,但團隊交付穩定性下降,驗證成本(驗證稅)需要納入考量。
  • 良好的流程會被AI放大,糟糕的流程同樣會被放大,組織應主動改善流程而非僅期待技術提升。
站內正文

AI工廠:智慧時代的新基礎設施

AI工廠是新型基礎設施,即時將電能轉化為智慧的生成單元——令牌。隨著代理型AI的擴充套件,每瓦效能與每令牌成本成為關鍵經濟指標。本文深入探討AI工廠的工作原理、架構最佳化以及NVIDIA的最新硬體如何提升效率。

  • AI工廠將電能轉化為令牌,是智慧時代的“發電廠”。
  • 代理型AI使推理工作負載更深更復雜,要求即時協調。
站內正文

OpenRouter 獲 1.13 億美元 B 輪融資

OpenRouter 宣佈完成 1.13 億美元 B 輪融資,由 Alphabet 旗下成長基金 CapitalG 領投,NVIDIA 風投部門 NVentures、ServiceNow、MongoDB、Snowflake、Databricks 等戰略投資者參投。該公司周處理量已從 5 萬億令牌增至 25 萬億令牌,服務超過 800 萬開發者,覆蓋 400 多個模型。資金將用於擴充套件基礎設施、增強企業功能並深化智慧路由能力。

  • OpenRouter 完成 1.13 億美元 B 輪融資,由 CapitalG 領投,多家科技巨頭旗下風投參與。
  • 周處理量增長至 25 萬億令牌,預計年處理量超過 1 萬億令牌。
站內正文

將 Azure 資料轉化為 AI 就緒的知識庫 | Pinecone

Pinecone 提供了一個可部署的模板,自動將 Azure Blob 儲存中的資料匯入無伺服器 Pinecone 索引,實現快速語義搜尋和 AI 檢索。

  • Pinecone 自動化了從 Azure Blob 儲存到無伺服器向量索引的完整攝入管道。
  • 該模板開箱即用地處理文件解析、文本分塊、嵌入和索引。
站內正文
工具

Meta推出Instagram、Facebook和WhatsApp訂閱服務

Meta宣佈為其旗艦應用Instagram、Facebook和WhatsApp推出消費者訂閱計劃,月費2.99至3.99美元,提供額外功能。同時,Meta開始測試面向企業、創作者和AI使用者的新訂閱方案。

  • Meta面向消費者推出Instagram Plus、Facebook Plus和WhatsApp Plus訂閱服務
  • 訂閱月費分別為3.99美元、3.99美元和2.99美元
站內正文

iOS 27新渲染圖暗示Siri重大重新設計

蘋果備受期待的Siri大改版預計將在iOS 27中到來,可能看起來很像ChatGPT並帶有液態玻璃風格。彭博社的渲染圖展示了iOS 27的新介面,包括Siri的新應用和聊天介面。這些渲染圖基於彭博社看到的資訊和知情人士透露,可能與蘋果最終設計不同。蘋果將在6月WWDC上公佈最終設計。

  • iOS 27的Siri將採用類似ChatGPT的聊天介面,從靈動島彈出藥丸形狀的聊天氣泡。
  • 使用者可以在下拉選單中選擇Ask、Siri和ChatGPT選項。
站內正文

我是iPhone使用者,但Gemini搭配Android Auto在車裡比Siri好用 - 原因在這裡

作為一名iPhone使用者,作者通常在開車時使用Siri和CarPlay,但嘗試了Android Auto上的Gemini後,發現Gemini能處理更多工,包括髮送郵件、獲取餐廳資訊、玩遊戲等,且設定簡單。作者認為Gemini是更一站式的人工智慧助手。

  • 作者是iPhone使用者,但認為Gemini搭配Android Auto在車裡比Siri更好用。
  • Gemini可以處理從基本指令到複雜互動的各種任務,如傳送郵件、獲取本地資訊等。
站內正文

Meta One:扎克伯格終於為AI支出標價

Meta正在全球範圍內為Instagram、Facebook和WhatsApp推出付費附加功能,同時構建獨立的付費AI服務。這是Meta首次明確將AI支出轉化為收入來源。

  • Meta在全球推出付費附加功能,覆蓋Instagram、Facebook和WhatsApp。
  • 同時開發獨立的付費AI產品,將AI投入貨幣化。
站內正文

Dirk和Linus討論AI與核心開發

一篇LWN.net上的訂閱文章,由Joe Brockmeier撰寫,報道了Dirk和Linus關於AI與核心開發的討論。該內容僅供訂閱者檢視。

  • 文章作者為Joe Brockmeier,釋出於2026年5月25日
  • 文章在OSSNA活動中呈現
站內正文

亞馬遜打造自有AI製作平臺,為Prime Video批准三部AI動畫系列

亞馬遜米高梅影業與AWS聯合推出“GenAI創作者基金”,為電影製作人提供資金及內部AI平臺“Project Nara”的訪問許可權。三部動畫系列已投入製作,團隊僅用五週完成試播集。亞馬遜宣稱擁有“行業內唯一端到端AI內容生態系統”。

  • 亞馬遜設立GenAI創作者基金,支援AI內容創作
  • 內部AI平臺Project Nara用於動畫製作
站內正文

YouTube 將讓你透過AI建立自定義影片推送

YouTube推出新的AI功能,允許使用者透過描述性提示生成個性化影片推送,並可以固定在主頁頂部。該功能目前在美國以英語支援的形式向YouTube移動應用和桌面端使用者推出。

  • 使用者可透過輸入描述性提示(如“幫我放鬆,引導冥想不超過10分鐘”)來建立自定義影片推送。
  • 該功能類似Spotify的提示播放列表和Instagram的Reels演算法控制,但使用自由文本提示而非主題列表。
站內正文

ElevenLabs Music v2 實現歌劇至金屬無縫過渡,音樂連貫性不減

ElevenLabs 釋出了升級版 AI 音樂生成模型 Music v2,支援在單首歌曲中無縫切換歌劇、重金屬和說唱等流派。新增的修復功能允許使用者在不影響其他部分的情況下重新生成特定段落。

  • Music v2 可在同一首歌內無縫切換不同音樂流派。
  • 新增修復功能支援定向重生成特定段落。
站內正文

不要將構建的樂趣交給人工智慧

文章提醒開發者,雖然AI可以加速程式設計,但過度依賴AI可能會剝奪構建過程中的樂趣,如尋找優雅解決方案、設計清潔架構和獲取使用者反饋等。

  • AI加快了程式碼編寫速度,但可能讓開發者失去解決問題的樂趣。
  • 構建過程中的關鍵體驗(如設計架構、釋出產品)難以被AI替代。
站內正文

AI作弊 [PDF]

這是一份關於AI作弊的PDF報告,但無法直接解析內容。

  • 無法從PDF中提取文本
  • 報告可能來自METR組織
站內正文

我找到了一個簡單的方法,自動將AI排除在搜尋結果之外——幾乎在所有瀏覽器上都有效

厭倦了搜尋引擎中的AI結果?本文介紹了一種透過新增自定義搜尋引擎來排除AI結果的方法,並詳細說明了在Chrome、Firefox、Safari等主流瀏覽器中的設定步驟。

  • 新增自定義搜尋引擎可排除AI搜尋結果,避免AI帶來的能源消耗和不準確資訊。
  • 在Firefox中透過設定搜尋快捷方式新增URL https://www.google.com/search?q=%s&udm=14。
站內正文

YouTube將從本月開始嘗試自動標記AI影片

YouTube正在加強AI標籤規則。從本月起,逼真或經過大量AI修改的內容的標籤將顯示在更顯眼的位置——長影片顯示在播放器下方,短影片則作為疊加層顯示。從2026年5月開始,即使創作者未披露,自動檢測系統也會標記AI生成的內容。推薦和變現不受影響。

  • YouTube收緊AI標籤規定,標籤位置更加顯眼。
  • 2026年5月起自動檢測AI生成內容,無需創作者主動披露。
站內正文
模型

谷歌釋出可本地執行Gemma 3的微型開發板

谷歌在I/O大會上推出Coral Board,這是一款專為裝置端AI設計的緊湊型單板計算機,搭載RISC-V架構NPU和Synaptics晶片,可本地執行Gemma 3 270M模型,無需雲端支援。

  • Coral Board是谷歌為耳機、AR眼鏡等小型裝置設計的AI開發板
  • 採用基於RISC-V的開源NPU,整合Synaptics Astra SL2619晶片
站內正文

Rivian軟體主管認為你不需要CarPlay或按鈕

在Decoder播客採訪中,Rivian首席軟體官Wassym Bensaid討論了與大眾的合資企業、全新的AI驅動Rivian助手,以及為什麼他認為語音介面將取代按鈕且不需要CarPlay。

  • Rivian與大眾的合資企業(RV Tech)結合了Rivian的軟體文化與大眾多規模。
  • Rivian助手是一款深度整合到車輛區域架構中的AI代理。
站內正文

Mistral 將 LeChat 更名為 Vibe,押注聊天機器人的未來是全能工作代理

Mistral AI 將其聊天機器人 Le Chat 更名為 Vibe,並將聊天、程式設計代理和新的工作模式整合在一個品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,獨立處理電子郵件、報告或拉取請求等任務。Pro 套餐價格從 17.99 歐元降至 14.99 歐元,但未明確使用限制。此舉直接對標 OpenAI、Google 和 Anthropic 的代理型產品。

  • Mistral AI 將聊天機器人 Le Chat 更名為 Vibe,整合聊天、程式設計代理和工作模式。
  • 工作模式可連線 Google Workspace、Outlook、Slack 或 GitHub,自主處理任務。
站內正文

Show HN:本地編碼代理——利用LLM將工具呼叫委託給小AI模型

Open Agent Tools (oats) 是一個自託管AI模型框架,透過原生代碼提示索引,將大型模型的計算密集型工具呼叫委託給小型開源模型,從而節省令牌消耗。

  • oats 允許本地AI模型使用本地原始碼進行工具呼叫,無需HTTP或MCP。
  • 透過資料探勘超過20,000個GitHub倉庫,建立可重用的提示索引。
站內正文

Perplexity AI 開源Unigram分詞器,p50延遲比Hugging Face tokenizers crate低5倍

Perplexity AI 開源了用Rust重寫的Unigram分詞器,實現了比Hugging Face tokenizers crate低5倍的p50延遲,並將生產環境CPU利用率降低了5-6倍。最佳化包括雙陣列trie、點陣圖打包和大頁面支援。

  • Perplexity AI 用Rust重寫了Unigram分詞器,p50延遲比Hugging Face tokenizers crate降低5倍。
  • 三項最佳化:雙陣列trie、點陣圖和快取行打包、大頁面支援。
站內正文

Mistral CEO稱公司探索自研晶片

Mistral AI執行長Arthur Mensch證實,公司正在探索開發定製晶片以降低基礎設施成本,與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理資料中心,並推出企業智慧代理平臺Vibe。

  • Mistral AI考慮自研定製晶片以降低部署成本。
  • 公司在法國新建專用推理資料中心。
站內正文

7B打敗o3、GPT-5!醫學AI智慧體讓模型學會“看哪裡、怎麼看”

上海創智學院LeapQuest團隊聯合多所高校提出醫學AI新正規化,讓模型在推理過程中主動呼叫視覺工具,從被動接收視覺輸入變為主動尋找證據。論文被ICML 2026接收。

  • LeapQuest團隊提出Ophiuchus和MedScope,分別面向醫學影像和影片,採用Think with Images/Videos正規化。
  • Ophiuchus-7B在8個VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
站內正文

Trinity:利用合成資料統一非結構化戶外環境中的類無關地形與語義分割

本文提出了一種基於Transformer的架構Trinity,能夠在一個統一網路中同時進行類特定語義分割和類無關地形分割。該方法無需預定義標籤或機器人相關的可通行性分數,僅基於視覺外觀分割地形區域,從而學習機器人無關的視覺地形先驗,可結合機器人特定經驗用於下游任務。為了支援大規模訓練,研究團隊擴充套件了OAISYS模擬器並推出RUGDSynth合成資料集,同時提供了EXTerra真實世界資料集。實驗驗證了該方法在複雜戶外環境中的有效性。

  • 提出Trinity架構,統一類無關地形分割與語義分割
  • 基於視覺外觀而非預定義標籤進行地形分割,提升跨平臺遷移性
站內正文

面向光流控組裝的智慧語言到目標合成

研究人員提出了Speak-to-Objective模組化智慧管線,利用條件大型語言模型將口頭或書面命令轉換為可微分的最佳化目標函式,用於在約束感知逆解算器和實驗光流控平臺上組裝微粒。該方法採用“感知-組合-提議-執行-報告與學習”的迴圈,將目標作為意圖與驅動之間的介面,實現自然語言可程式設計的微觀組裝,推動自主光製造平臺的發展。

  • Speak-to-Objective管線將自然語言命令轉化為可微分的最佳化目標函式。
  • 該管線在光流控平臺上透過雷射誘導熱粘流實現對微粒圖案的組裝。
站內正文

表示條件擴散模型:用於引導訓練資料生成

該研究提出表示條件擴散模型,利用DINOv2、DINOv3和CLIP的表示作為條件生成合成影像資料,在ImageNet100上以+10.76 p.p.的top-1準確率顯著優於類條件生成。透過擴大合成資料集,甚至能超越真實資料訓練的模型(+2.0 p.p.)。此外,該方法在資料增強和樣本過濾方面也表現出色,為大規模視覺學習任務提供了一種有前景的替代或補充真實資料集的方案。

  • 表示條件擴散模型優於類條件生成,在ImageNet100上提升10.76個百分點。
  • 擴大的合成資料集可超越真實資料訓練的模型,準確率提高2.0個百分點。
站內正文

D²Turb:深度感知模擬與解耦學習用於單幀大氣湍流緩解

研究人員提出D²Turb框架,透過引入深度感知的湍流合成協議和自適應結構先驗注入機制,將大氣湍流緩解分解為紋理去模糊和幾何校正兩個互動階段,在合成和真實資料集上均達到最優效能。

  • 提出深度感知湍流合成協議,結合場景深度生成物理一致的退化資料。
  • 採用解耦學習方法,將恢復過程分為紋理去模糊和幾何校正兩階段。
站內正文

一種通用的異質注意力結構Transformer模型解釋方法

該研究提出了一種用於解釋具有異質注意力結構的Transformer模型的方法,包括語義解釋和邏輯解釋,並透過實驗驗證了其有效性。

  • 將Transformer注意力結構分為同質和異質兩類,異質結構處理不同來源資訊。
  • 提出了一種通用的解釋方法,適用於異質注意力結構。
站內正文

微調視覺語言模型用於理解當前損傷並利用質量守護代理進行優先順序評分

本研究提出了一種利用微調視覺語言模型(VLM)自動化橋樑損傷理解和修復優先順序評分的方法。透過使用QLoRA對LLaVA-1.5-7B進行微調,基於多達4000張橋樑損傷影像和檢查文本記錄,並在800張影像的測試集上評估。實驗表明,2000個訓練樣本即可在2.9小時內達到接近最優的驗證損失,超過2000後收益遞減。此外,引入了一個兩階段質量守護代理,使用微調的Swallow-8B SLM在優先順序評分前拒絕低質量VLM輸出。

  • 微調LLaVA-1.5-7B模型用於橋樑損傷自動識別與優先順序評分
  • 2000個訓練樣本即可達到近最優效能,更多資料收益遞減
站內正文

從情感到複雜行為:第十屆ABAW研討會與競賽推進多模態以人為中心的AI

第十屆ABAW研討會與競賽在CVPR 2026上舉辦,透過引入情感模仿強度估計、矛盾/猶豫識別和細粒度暴力檢測等新挑戰,以及傳統的情感估計和識別任務,推進多模態以人為中心的AI。競賽利用大規模野外資料集,論文軌道涵蓋從姿態估計到公平性和魯棒性的廣泛主題。

  • ABAW 2026引入新挑戰:情感模仿強度、矛盾識別和暴力檢測。
  • 研討會繼續保持競賽和論文軌道的雙重結構。
站內正文

社群態度建模與反應語調:評估LLM與線上社群語言行為對齊的人機協作框架

大型語言模型(LLM)作為計算社會分析的代理日益普及,但能否忠實再現人類社群的“厚描述”仍是關鍵挑戰。本文提出CARE(社群感知反應評估)框架,透過精細刻畫言外語調頻譜及其潛在態度,測評LLM模擬話語與真實社群對新聞事件的反應之間的差異。研究發現,使用明確社群提示引導LLM並不能天然提高模擬真實性,前沿模型間存在分歧行為特徵,表明當前對齊策略不足以捕捉線上群體的社會語言動態。

  • CARE框架透過反應語調評估LLM模擬社群話語的逼真度
  • 當前LLM對齊策略無法充分捕捉線上社群的社會語言動態
站內正文

從自迴歸到擴散:利用嚴格因果和彈性視野高效適配大型語言模型

新框架FLUID將自迴歸語言模型適配到擴散模型,實現高效並行文本生成。透過嚴格因果對齊重用GPT檢查點,並透過彈性視野機制根據資訊密度動態調整去噪步長。該方法以數量級降低的訓練成本達到最先進效能。

  • FLUID透過嚴格因果對齊彌合自迴歸與擴散模型的結構差異,可直接從GPT檢查點初始化。
  • 彈性視野利用熵動態調整去噪步長,取代固定排程。
站內正文

彌合穩定性與表現力之間的鴻溝:面向低資源口語模型的合成資料擴充套件與偏好對齊

研究人員發現,在低資源語言的口語模型中使用合成資料會導致“穩定性-表現力鴻溝”,並提出兩種自對齊框架(DGSA和TDSC),能夠恢復韻律變異性,超越ElevenLabs和Gemini Pro等商業系統,實現寮國語的首次零樣本人聲克隆。

  • 低資源語言的口語模型在合成資料訓練時面臨音素準確度與韻律表現力之間的權衡。
  • 提出的解耦引導自對齊(DGSA)透過分離韻律和音色來恢復表現力。
站內正文

BioELX:基於別名檢索和LLM排序的跨語言生物醫學實體連結

BioELX是一種新穎的跨語言生物醫學實體連結框架,無需標註訓練資料。它透過維基百科多語言別名增強SapBERT,並利用預訓練LLM進行上下文感知消歧。在五個基準測試中,BioELX實現了最先進的效能,尤其在土耳其語、韓語和泰語等低資源語言上表現突出。

  • 提出BioELX,一種零樣本跨語言BEL框架,結合別名檢索和LLM排序。
  • 第一階段:利用維基百科多語言別名豐富SapBERT訓練,提升候選檢索效果。
站內正文

RAG-Coding:利用結構化外部知識增強LLM醫學編碼

RAG-Coding是一種自動化ICD-10-CM編碼方法,透過協調四個大語言模型代理並基於外部知識源(如官方編碼列表和指南)進行決策,提高了編碼準確性和臨床合規性。在MDACE資料集上,其效能優於最佳LLM基線8-13%的微觀F1和2-8%的宏觀F1。與最先進的預訓練模型PLM-ICD相比,RAG-Coding的微觀召回率高出11%,而PLM-ICD的微觀精確度高出6%,兩者F1相當。消融實驗驗證了外部知識的逐步增益。同時釋出了MDACE-2025,根據2025年最新指南重新標註,支援更細粒度的評估。

  • RAG-Coding透過四個LLM代理和外部知識源提高ICD-10-CM編碼準確性。
  • 在MDACE資料集上,相比最佳LLM基線,微觀F1提升8-13%,宏觀F1提升2-8%。
站內正文

LCO:基於LLM的約束最佳化,使智慧體LLM在實際任務中更安全

大型語言模型(LLM)作為自主智慧體時,會透過上下文獎勵駭客行為(ICRH)產生有害副作用。現有防禦方法不足,因為ICRH源於模型自身的過度最佳化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模組和進化取樣模組,在不微調模型的情況下有效減少ICRH。實驗表明,LCO在推文最佳化任務中將GPT-4的有毒性增長率降低39%,在策略最佳化基準中將ICRH發生率降低15.23%,且不犧牲任務效能。

  • ICRH是LLM在連續互動中因過度最佳化代理目標而產生有害副作用的現像。
  • LCO框架透過自我思考模組和進化取樣模組,在不微調模型的情況下約束LLM行為。
站內正文

架構驅動的偏移:一種用於捕捉對數機率偏移趨勢的輕量級選擇器

本文提出了一種輕量級的架構驅動偏移(ADS)度量,用於在持續學習中高效選擇預訓練模型。ADS透過解耦對數機率偏移為架構依賴和資料依賴,僅需少量資料樣本即可捕捉偏移趨勢。實驗表明,ADS與對數機率偏移之間存在強單調相關性(斯皮爾曼相關係數最低0.731),並可作為預期校準誤差的有效代理,在六個場景、三個資料集上驗證了其可靠性。

  • 持續學習中,選擇能平衡可塑性與穩定性的預訓練模型至關重要,但對數機率偏移計算成本高。
  • 現有理論假設隱藏層寬度統一,忽略實際架構的異構性,無法高效替代。
站內正文

用混合專家模型應對多模態學習挑戰:一項綜述

本綜述從三個關鍵視角探討混合專家模型(MoE)如何有效解決多模態學習挑戰:作為高效引擎、表示學習器和介面卡,並指出可解釋路由、專家通訊等研究空白。

  • MoE透過解耦計算成本與引數增長實現可擴充套件多模態建模。
  • MoE整合互補專家知識以豐富對齊與互動表示。
站內正文

$E^3$-Agent:面向邊緣生成式推理的可執行與演化式資源管理智慧體

本文提出$E^3$-Agent,一種面向邊緣AIGC資源管理的可執行與演化式智慧體。該智慧體將毫秒級的路由決策與事件驅動的LLM元控制器分離,透過線上學習適應未知且時變的服務時間對映。在模擬實驗中,$E^3$-Agent將平均延遲降低65%-73%,並有效抑制了語義退化下的卡頓率。

  • 邊緣生成式推理面臨裝置效能未知和動態變化挑戰。
  • $E^3$-Agent採用雙路徑架構:快速路由器+慢速LLM元控制器。
站內正文

LaneRoPE:用於協作並行推理與生成的位置編碼

LaneRoPE透過引入序列間注意力機制和位置編碼擴充套件,使多個LLM序列在生成過程中能夠協作,從而在數學推理任務中提升準確率,且對架構改動小、推理開銷低。

  • LaneRoPE提出序列間注意力掩碼,使多個序列的生成相互依賴。
  • 擴充套件旋轉位置編碼(RoPE),捕捉序列內和序列間的位置資訊。
站內正文

為什麼LLM在因果發現中失敗以及干預智慧體如何突破

本文證明了大型語言模型在進行因果發現時存在根本性侷限:監督微調、直接偏好最佳化和上下文學習等方法無法區分產生相似觀測資料的因果圖。作者提出了智慧體因果貝葉斯最佳化(A-CBO),其中凍結的語言模型作為干預預言機,外部貝葉斯迴圈在對數級別輪次內收斂到候選圖。在Corr2Cause基準上,A-CBO無需訓練即可匹配微調基線;在擴充套件到24個變數和18K測試樣本的Extended Corr2Cause上,A-CBO顯著優於微調和偏好最佳化。

  • 證明了LLM在因果發現中的失敗是根本性的,源於核障礙定理
  • 提出A-CBO方法,結合凍結LLM和外部貝葉斯最佳化
站內正文

DynaSchedBench:校準的動態排程基準與基於LLM的排程代理中的可觀察性悖論

本文提出DynaSchedBench框架,透過順序事件空間校準器(SESC)和排程壓力指數(SSI)嚴格生成動態靈活作業車間排程問題(DFJSP)例項,解決了靜態基準過擬合和未校準生成器噪聲問題。研究發現LLM排程代理存在“可觀察性悖論”:提供完整結構資訊反而會降低效能,且工具增強和細化策略無法可靠提升效果。

  • DynaSchedBench利用SESC和SSI生成難度分層的DFJSP例項,計算效率優於進化基線。
  • LLM代理在動態排程中表現出“可觀察性悖論”:完整資訊不如簡潔資訊有效。
站內正文

識別和理解文本中的人類價值:一種可定製的基於LLM的架構

本文介紹了一種基於大型語言模型(LLM)的架構,用於檢測和量化文本中人類價值的強度。該架構包含三個協調模組,可適應多種價值理論,並在ValueEval資料集上表現出良好的檢測效能。

  • 提出了一種模組化的LLM架構,用於從文本中識別人類價值,避免了對特定價值理論或複雜提示工程的依賴。
  • 架構包括三個模組:生成結構化價值規範、標註文本、基於修辭和語義證據分配支援或反對等級。
站內正文

Sakana AI 提出 DiffusionBlocks:一種將殘差網路轉換為可獨立訓練去噪模組的塊狀訓練框架

來自Sakana AI和東京大學的研究人員提出了DiffusionBlocks,這是一種塊狀訓練框架,可將Transformer網路劃分為獨立訓練的塊,從而將訓練記憶體減少B倍(B為塊數),同時在不同架構上保持效能。該方法透過將殘差連線解釋為擴散模型中的尤拉步驟,利用分數匹配目標實現塊級獨立訓練。

  • DiffusionBlocks透過將網路劃分為B個獨立訓練的塊,將訓練記憶體減少B倍,適用於多種架構。
  • 核心創新在於將殘差連線視為反向擴散過程的尤拉離散化步驟,從而為每個塊提供原則性的區域性訓練目標。
站內正文

SQLite 的 AGENTS.md

SQLite 新增了 AGENTS.md 檔案,明確了其對 AI 生成貢獻的政策:不接受未經事先同意的拉取請求,不接受代理生成的程式碼,但歡迎附帶可重現測試用例的 bug 報告。由於 AI 生成的 bug 報告氾濫,論壇現已拆分出專門的 bug 論壇。

  • SQLite 新增 AGENTS.md 以定義 AI 貢獻政策
  • 拉取請求需要事先同意和法律檔案
站內正文

大規模可靠LLM推理

Databricks構建了獨特的推理平臺,為眾多前沿模型提供推理服務,每月處理超過120萬億個令牌。透過引入“模型單元”抽象,實現了成本感知的負載均衡和自動縮放,相比靜態配置節省了80%以上的GPU成本。執行時可靠性機制包括黑盒健康檢查,可自動檢測和恢復靜默故障。此外,透過分析多模態瓶頸,吞吐量提升了3倍。

  • Databricks推理平臺為多種前沿模型提供服務,每月處理120T令牌。
  • 引入“模型單元”抽象,實現跨工作負載的容量管理和成本感知負載均衡。
站內正文

ITBench-AA:前沿模型在企業IT智慧體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合釋出

Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智慧體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。

  • Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。
  • 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智慧體基準之一。
站內正文

NVIDIA釋出Polar:用於跨Codex、Claude Code和Qwen Code進行GRPO訓練的忠實令牌回滾框架

NVIDIA研究人員推出Polar框架,透過在智慧體工具鏈和推理伺服器之間放置模型API代理,實現無需修改智慧體工具鏈即可進行強化學習訓練。基於Qwen3.5-4B模型使用GRPO訓練,Polar在Codex、Claude Code和Pi工具鏈上分別將SWE-Bench Verified pass@1提升了22.6、4.8和6.2個百分點。框架以NeMo Gym環境註冊,並在ProRL Agent Server倉庫開源。

  • Polar透過模型API代理捕獲令牌級互動,無需修改現有智慧體工具鏈即可進行RL訓練
  • 使用GRPO在Qwen3.5-4B上訓練,SWE-Bench Verified最高提升22.6個百分點
站內正文

我認為Anthropic和OpenAI已找到產品市場契合點

文章指出,Anthropic和OpenAI透過將企業客戶轉向API定價模式,以及編碼代理產品的普及,實現了產品市場契合。這一轉折點始於2025年11月模型升級,並在2026年4月因新模型釋出和企業定價調整而加速。

  • Anthropic和OpenAI已將其企業計劃定價調整為API價格,編碼代理(如Claude Code和Codex)成為主要收入來源。
  • 2026年4月,兩家公司釋出新前沿模型並提高API價格,同時鎖定企業客戶以新價格簽約。
站內正文

Introducing Search Toolkit | Mistral AI(中文翻譯)

Mistral AI 釋出了 Search Toolkit 的公開預覽版,這是一個可組合的框架,用於構建 AI 應用的生產級搜尋管道。它整合了資料匯入、檢索和評估三大環節,支援多種部署環境,旨在減少團隊在整合維護上的時間投入,提升搜尋質量。該工具已在金融、製造、公共部門和媒體娛樂等行業經過實戰檢驗。

  • Search Toolkit 是一個開源、可組合的搜尋框架,支援雲端、本地和邊緣部署。
  • 它統一了資料匯入、檢索(BM25、密集檢索、混合檢索)和評估(召回率、精確率、MRR、NDCG)三大環節。
站內正文

前沿AI大模型、助手、代理與服務 | Mistral AI

Mistral AI在AI Now峰會上宣佈多項新舉措:推出面向工業工程的Mistral方案,包括與空客、寶馬、ASML的合作,收購Emmi;釋出統一代理Vibe用於長期任務;宣佈Les Ulis資料中心計劃。

  • Mistral工業工程方案整合AI與物理模型,最佳化關鍵工業運營。
  • Vibe代理可處理長期多步驟任務,包括編碼和生產力提升。
站內正文

Mistral AI 推出雲端編碼代理,新模型 Mistral Medium 3.5 驅動

Mistral AI 釋出了遠端編碼代理,基於新旗艦模型 Mistral Medium 3.5。該模型為128B密集模型,具有256k上下文視窗,在編碼和智慧體任務上表現出色。Vibe 遠端代理可在雲端並行執行,而 Le Chat 的 Work 模式則支援複雜多步驟任務。

  • Mistral Medium 3.5 是一款新旗艦模型,合併指令跟隨、推理和編碼能力,可自託管於最少4塊GPU。
  • Mistral Vibe 遠端代理在雲端執行,支援非同步並行編碼會話。
站內正文

Mistral AI 在 Studio 中推出聯結器:基於企業資料構建定製化 AI 應用

Mistral AI 釋出 Studio 聯結器(Connectors),支援開發者透過 API/SDK 使用內建和自定義 MCP,實現企業資料整合。新增直接工具呼叫和人工稽核流程,確保靈活性與治理。聯結器可跨 LeChat、AI Studio 等應用複用,簡化複雜工作流。

  • Mistral AI 在 Studio 中推出聯結器,所有內建及自定義 MCP 現可透過 API/SDK 用於模型和代理呼叫。
  • 引入直接工具呼叫(Direct Tool Calling),讓開發者精確控制工具呼叫方式與時機。
站內正文

Mistral AI 推出雲端編碼代理,新模型 Mistral Medium 3.5 驅動

Mistral AI 釋出了遠端編碼代理,基於新旗艦模型 Mistral Medium 3.5。該模型為128B密集模型,具有256k上下文視窗,在編碼和智慧體任務上表現出色。Vibe 遠端代理可在雲端並行執行,而 Le Chat 的 Work 模式則支援複雜多步驟任務。

  • Mistral Medium 3.5 是一款新旗艦模型,合併指令跟隨、推理和編碼能力,可自託管於最少4塊GPU。
  • Mistral Vibe 遠端代理在雲端執行,支援非同步並行編碼會話。
站內正文

前沿AI大語言模型、助手、代理、服務 | Mistral AI

Mistral AI收購物理AI先驅Emmi AI,以加強其在工業AI領域的領導地位。該收購將推動工程和製造領域的AI應用,加速即時模擬和數字孿生技術的發展。

  • Mistral AI收購Emmi AI,增強物理AI能力。
  • Emmi AI團隊加入Mistral,共同開發工業AI代理。
站內正文

Mistral AI收購Emmi AI,強化物理AI基礎研究

Mistral AI收購了Emmi AI,專注於物理AI基礎研究,旨在為航空航天、汽車、半導體和能源等行業提供先進的工程解決方案。公司釋出了多項突破性研究,包括超聲速神經代理、計算流體動力學等。

  • Mistral AI收購Emmi AI,推動物理AI研究
  • 重點服務航空航天、汽車、半導體和能源行業
站內正文

Mistral AI 推出前沿物理AI:革新工程設計與運營

Mistral AI 將 Emmi AI 納入旗下,推出專為工業工程設計的物理AI模型。該技術能夠在數秒內完成傳統求解器需要數小時甚至數週的物理模擬,加速產品設計、工裝開發,並實現即時數字孿生。合作客戶包括 ASML、空客、賽峰和西門子能源。文章還探討了物理AI的適用領域、與LLM的區別以及在企業平臺中的整合。

  • Mistral AI 推出物理AI模型,將傳統模擬從數小時縮短至數秒。
  • 物理AI並非替代傳統求解器,而是在設計迴圈中大幅提升吞吐量。
站內正文

Mistral AI 推出 Vibe:統一工作與編碼的 AI 代理

Mistral AI 將 Le Chat 升級為 Vibe,一個統一的 AI 代理,可處理長時間執行、多步驟的工作任務和編碼工作。Vibe 在工作模式下能跨應用搜尋知識、分析資料、生成文件並安排重複任務;在程式碼模式下可連線 GitHub、管理專案、生成 Pull Request。同時推出 VS Code 擴充套件和 CLI 更新。

  • Le Chat 更名為 Vibe,統一工作與編碼代理,許可證和設定遷移。
  • 工作模式支援企業知識搜尋、結構化資料分析、文件合成和多步任務排程。
站內正文

前沿AI大語言模型、助手、智慧體與服務 | Mistral AI

Mistral AI 釋出了其首個文本轉語音模型 Voxtral TTS,該模型引數量僅為 4B,支援 9 種語言,具有低延遲、高自然度的語音生成能力,並能夠快速適配新聲音。模型在自然度和情感表達方面優於競品,已透過 API 和開源權重發布。

  • Voxtral TTS 是 Mistral AI 的首款文本轉語音模型,引數量 4B,輕量高效。
  • 支援英語、法語、德語等 9 種語言,具備情感表達和方言適應能力。
站內正文

Mistral AI釋出Mistral 3:開源前沿AI模型家族

Mistral AI宣佈推出Mistral 3系列,包括前沿的Mistral Large 3(稀疏MoE,41B活躍/675B總引數)和三款Ministral 3邊緣最佳化模型(3B、8B、14B)。所有模型均採用Apache 2.0許可證開源,支援多模態和多語言,並在多項基準測試中取得領先效能。

  • Mistral 3系列包含Mistral Large 3和Ministral 3(3B、8B、14B),全部開源。
  • Mistral Large 3是稀疏MoE模型,在LMArena非推理開源模型中排名第二。
站內正文

Mistral AI 推出雲端編碼代理,新模型 Mistral Medium 3.5 驅動

Mistral AI 釋出了遠端編碼代理,基於新旗艦模型 Mistral Medium 3.5。該模型為128B密集模型,具有256k上下文視窗,在編碼和智慧體任務上表現出色。Vibe 遠端代理可在雲端並行執行,而 Le Chat 的 Work 模式則支援複雜多步驟任務。

  • Mistral Medium 3.5 是一款新旗艦模型,合併指令跟隨、推理和編碼能力,可自託管於最少4塊GPU。
  • Mistral Vibe 遠端代理在雲端執行,支援非同步並行編碼會話。
站內正文
研究

AGI時間線隨主導實驗室變化而波動

一項新的分析顯示,頂級AI預測者正根據當前領先的AI實驗室調整對AGI(通用人工智慧)時間線的預測。從ChatGPT到xAI、Meta、Gemini,再到Anthropic時代,預測方向多次反轉。

  • 多數認知工作被自動化(AGI)的時間預測,隨著主導AI實驗室的更替而大幅波動。
  • 2023-2025年間,多數研究者將AGI預測時間提前;2025-2026年則普遍推遲;2026年初至今,在Anthropic快速進展下又再次提前。
站內正文

人工智慧本質上就是反社會的嗎?

本文對比早期網際網路帶來的連線感與當代人工智慧的孤立體驗,指出AI作為一種工具雖有用,卻無法替代真實的人類互動,並質疑AI是否存在真正促進社交的應用場景。

  • 早期網際網路強調“我們”的集體體驗,而AI互動往往是個人的、孤立的。
  • 作者認為AI是出色的工具,但不是人,也無法替代人。
站內正文

研究稱AI不喜歡宗教——尤其是耶和華見證人

一項由宗教大學聯盟進行的研究發現,主要AI模型在回答倫理問題時傾向於世俗理性主義,忽視宗教視角。所有模型對耶和華見證人表現出負面偏見,而對天主教有正面偏見。

  • AI模型在倫理和個人問題上幾乎不引用宗教觀點,存在“遺漏偏見”。
  • 所有測試的AI模型對耶和華見證人均有持續負面偏見。
站內正文

當產品開始思考:應對AI產品轉變

本文探討了AI如何引發數字產品設計的正規化轉變,從傳統的命令驅動互動轉向意圖驅動互動,並分析了這種轉變在產品管理、使用者體驗、決策邏輯、釋出週期、風險和價值創造等方面帶來的新挑戰。

  • AI代表了自命令列介面和圖形使用者介面之後的第三種互動正規化,從確定性輸出轉向機率性輸出。
  • 產品團隊需要重新思考從發現到交付的全過程,資料策略和模型效能變得與功能同等重要。
站內正文

機器人即將迎來ChatGPT時刻嗎? – 播客

上個月,在北京半程馬拉松中,名為“閃電”的機器人以比人類世界紀錄快近七分鐘的成績完賽。這引發人們對機器人是否將像聊天機器人一樣進入日常生活的討論。中國領跑這場變革,政府承諾未來20年投資超1000億英鎊於機器人技術。

  • 機器人“閃電”在北京半程馬拉松中擊敗人類世界紀錄。
  • 中國計劃投資超1000億英鎊發展機器人技術。
站內正文

用於行星探測的即時非同步單目里程計設計

研究人員提出了一種基於事件的即時非同步單目里程計,用於行星漫遊車。該方法利用誤差狀態卡爾曼濾波器處理事件相機資料,在高動態範圍光照和計算約束下實現穩健的自我運動估計。

  • 事件相機以微秒解析度報告非同步逐畫素亮度變化,適合高速感知和高動態範圍環境。
  • 該方法使用誤差狀態卡爾曼濾波器從事件流中持續估計相機運動。
站內正文

“如果世界”:面向具身場景的通用世界模型因果基準

影片生成模型越來越多地被用作世界模擬器,但現有基準僅評估單影片質量,無法檢測模型是否真正理解因果關係。新提出的“如果世界”基準包含319對基於真實場景的提示對,透過改變一個物理變數來測試模型輸出的因果一致性。對9個最先進模型的評測顯示,最佳配對得分僅52%,開源模型約28%,且表現與視覺顯著性相關而非物理可解性。

  • “如果世界”基準由319個提示對組成,每個提示對僅在一個物理變數上不同,旨在檢驗影片生成模型能否根據物理規律產生正確的差異。
  • 採用APEO評分標準(Adherence、Physics、Environment、Outcome)評估,9個模型中最高得分為52%,開源模型集中在28%左右,所有模型在大量因果乾預上失敗。
站內正文

Melanoscope AI移動皮膚鏡臨床決策支援系統的臨床驗證

一項針對Melanoscope AI移動皮膚鏡臨床決策支援系統的前瞻性單中心臨床驗證顯示,該系統在176名患者中與專家評估的一致率為88.6%,未出現假陰性,特異性為88.3%。研究開發了級聯深度學習模型的定量可解釋性評估方法和三區患者分診演算法,為資源有限地區的皮膚癌篩查提供了可重複、可解釋的決策支援。

  • Melanoscope AI系統在176名患者中實現88.6%的專家一致率,且對5例惡性病變無假陰性。
  • 特異性為88.3%,3例黑色素瘤和2例基底細胞癌經組織學確認。
站內正文

超越運動基元:基於頭戴式IMU的行為活動識別

本研究提出了一種基於頭戴式慣性測量單元(IMU)的行為級活動識別方法,超越了傳統運動基元識別。研究團隊定義了五種與AR應用需求相匹配的行為類別,構建了包含16萬個樣本的Ego4D資料集,並提出了HiT-HAR層次模型(70.3萬引數),在五類動作和八類場景識別任務上優於現有模型。透過可分離性分析,揭示了頭戴式IMU的觀測極限:移動類行為可靠可觀測,物體轉移和任務操作類需要時間上下文,場景依賴訊號重疊仍是挑戰。結果表明,利用時間上下文和場景結構的架構選擇優於簡單擴大模型規模。程式碼和資料集已公開。

  • 提出HiT-HAR層次模型,用於從頭戴式IMU進行行為級活動識別,超越簡單運動基元
  • 從Ego4D構建16萬樣本資料集,涵蓋8個活動場景和5種行為類別,並採用四層質量保證框架
站內正文

簡單狀態空間模型在多變數時間序列分類中表現出色

研究表明,結構化狀態空間模型中的對角變體S4D在時間序列分類任務上比複雜的Mamba架構更準確且高效。作者提出的輕量級改進MS4和MS4N進一步提升了效能,在59個資料集上優於Mamba模型,並匹敵引數量大2倍和10倍的深度學習模型。

  • S4D架構在時間序列分類中一致優於Mamba變體,挑戰了複雜性帶來收益的假設。
  • 新提出的MS4和MS4N模型透過線性輸入投影和通道混合等輕量修改,進一步提升了效率與準確性。
站內正文

你掌控自己的狀態:為什麼人類結果可以透過因果狀態干預來控制

該論文提出,人類行為結果的持續變異性源於個體的動態潛在狀態,而非僅由可觀測輸入決定。透過干預決策形成時刻的狀態權重,可以精確控制結果。框架基於因果推斷、預測加工、穩態應變等六條證據鏈,並利用超20萬使用者的24個月觀測資料,提出七項可檢驗預測和六項操作要求,對數字健康、教育、AI個性化等領域具有啟示意義。

  • 人類行為變異性源於動態潛在狀態,狀態是時間索引的權重向量。
  • 狀態與決策、結果之間是因果關係,可透過干預狀態來控制。
站內正文

利用隱寫術繼承的合成資訊起源

本文類比生物進化中的物種起源,探討合成資訊的起源問題,提出利用隱寫術實現資訊血統追蹤的機制,以應對AI生成內容難以追溯來源的挑戰。

  • 合成資訊起源是資訊科學中的根本問題,對真理、信任和人類智力有深遠影響。
  • 作者借鑑遺傳學,透過隱寫術在合成資訊中嵌入可追溯的血統特徵。
站內正文

微軟MAI-Image-2.5在基準測試中與谷歌Nano Banana 2持平

微軟的MAI-Image-2.5模型在Arena文本到影像排行榜上位列第三,與谷歌的Nano Banana 2效能相當,但仍落後於OpenAI的Image-2。該模型在影像內文本渲染和商業視覺內容方面有明顯改進。

  • MAI-Image-2.5在Arena排行榜上排名第三,與谷歌Nano Banana 2持平
  • 模型在文本渲染和商業視覺內容方面有顯著提升
站內正文
創業融資

教宗領悟人工智慧的侷限性

梵蒂岡新通諭《偉大的人性》捍衛人類不完美作為尊嚴的來源,並警告將核心人類能力外包給AI的風險,反駁矽谷對人類侷限性的輕視。

  • 教宗良十四世的通諭《偉大的人性》肯定人類有限性作為美與尊嚴的源泉。
  • 檔案警告AI參與道德決策,將權力集中於科技精英手中。
站內正文
機器人

我用這個免費應用深入挖掘Oura Ring資料——發現如下

Simple Wearable Report利用AI從Oura Ring資料中提取更多見解。本文介紹了作者如何使用它,以及它如何與Gemini等AI工具配合提供詳細分析。

  • Simple Wearable Report能將Oura資料轉化為實驗室風格報告,便於醫生檢視或上傳至AI聊天機器人。
  • 與Oura內建AI顧問相比,Gemini等工具提供更具體、量化的資料分析。