AI News HubLIVE

來源分布

  • Hacker News AI13
  • The Decoder5
  • ZDNet AI5
  • Product Hunt AI3
  • Analytics Vidhya2
  • Artificial Intelligence News2
  • arXiv Computational Linguistics2
  • Last Week in AI2

主題分布

  • Agent33
  • 模型14
  • 政策11
  • 晶片11
  • 研究11
  • 工具7
  • 機器人6
  • 創業融資2

日期線

  • 2026-05-2810
  • 2026-05-217
  • 2026-05-257
  • 2026-05-267
  • 2026-05-277
  • 2026-05-225
  • 2026-05-244
  • 2026-05-202

最新動態

Google Pay 為 AI 代理推出通用商務協議

Google Pay 正在全面升級其支付基礎設施,以應對即將到來的 AI 代理交易浪潮。新推出的通用商務協議(UCP)和商家商務平臺(MCP)伺服器旨在為機器對機器商務建立基於 API 的後端。此次更新還包括動態回撥、擴充套件的 WebView 支援以及跨裝置生物識別認證,以解決安全挑戰。這標誌著向機器驅動經濟的轉變,企業必須調整其數字存在以適應 AI 代理。

  • Google Pay 推出通用商務協議(UCP),標準化 AI 代理支付。
  • 新的商家商務平臺(MCP)伺服器充當中介,聚合交易資料。
站內正文

AGI時間線隨主導實驗室變化而波動

一項新的分析顯示,頂級AI預測者正根據當前領先的AI實驗室調整對AGI(通用人工智慧)時間線的預測。從ChatGPT到xAI、Meta、Gemini,再到Anthropic時代,預測方向多次反轉。

  • 多數認知工作被自動化(AGI)的時間預測,隨著主導AI實驗室的更替而大幅波動。
  • 2023-2025年間,多數研究者將AGI預測時間提前;2025-2026年則普遍推遲;2026年初至今,在Anthropic快速進展下又再次提前。
站內正文

藉助AI成為更好的設計師:成為數字囤積者

文章以Google Gemini Omni模型為引,指出AI設計工具因缺乏審美引導導致輸出同質化(“AI垃圾”),並提出解決方案:透過持續收集視覺參考(“數字囤積”)培養個人品味,並將其編碼為AI可理解的格式,從而引導模型產出獨特且具有品味的設計。

  • Google推出Gemini Omni模型,標誌著AI從純文本向多模態推理轉變,但當前多數AI設計工具仍侷限於文本輸入,導致輸出千篇一律。
  • 要擺脫“AI垃圾”,設計師需要培養品味,並將品味透過視覺參考庫(數字囤積)編碼,讓模型能夠模仿。
站內正文

我是iPhone使用者,但Gemini搭配Android Auto在車裡比Siri好用 - 原因在這裡

作為一名iPhone使用者,作者通常在開車時使用Siri和CarPlay,但嘗試了Android Auto上的Gemini後,發現Gemini能處理更多工,包括髮送郵件、獲取餐廳資訊、玩遊戲等,且設定簡單。作者認為Gemini是更一站式的人工智慧助手。

  • 作者是iPhone使用者,但認為Gemini搭配Android Auto在車裡比Siri更好用。
  • Gemini可以處理從基本指令到複雜互動的各種任務,如傳送郵件、獲取本地資訊等。
站內正文

Mistral 將 LeChat 更名為 Vibe,押注聊天機器人的未來是全能工作代理

Mistral AI 將其聊天機器人 Le Chat 更名為 Vibe,並將聊天、程式設計代理和新的工作模式整合在一個品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,獨立處理電子郵件、報告或拉取請求等任務。Pro 套餐價格從 17.99 歐元降至 14.99 歐元,但未明確使用限制。此舉直接對標 OpenAI、Google 和 Anthropic 的代理型產品。

  • Mistral AI 將聊天機器人 Le Chat 更名為 Vibe,整合聊天、程式設計代理和工作模式。
  • 工作模式可連線 Google Workspace、Outlook、Slack 或 GitHub,自主處理任務。
站內正文

你的AI助手已經忘記了你告訴它的一半內容

本文是AI驅動開發系列文章的第七篇,重點討論AI會話中的上下文管理。作者透過個人經歷(Gemini移動應用忘記之前記錄的筆記)引出上下文壓縮問題,並分享了四種實用技巧:將探索與文件編寫分離、使用交接文件而非延續提示、給AI設定驗收標準而非詳細步驟、以及使用規範文件作為不同AI工具之間的橋樑。這些技巧適用於從程式設計到寫作的各種AI使用場景。

  • AI助手在長對話中會因上下文視窗限制而“忘記”早期資訊,這種現象稱為上下文壓縮。
  • 四種實用技巧:分離探索與文件編寫、使用交接文件、設定驗收標準、使用規範文件作為橋樑。
站內正文

Money Printer Pro —— 開源 AI 內容生成器

Money Printer Pro 是一個基於 Google Gemini 和 VEO 3.1 的開源 AI 內容生成器,可建立逼真的影像和電影級影片,並保持身份一致性。它擁有 7 個視覺引擎、自動批次生成、AI 質量評分和釋出把關功能,使用者直接向 Google 付費,無需額外訂閱。

  • 支援影像和影片生成,包括多鏡頭影片序列。
  • 身份鎖定引擎確保同一人物在不同生成中面部一致。
站內正文

前谷歌和蘋果研究員創立初創公司,為AI打造缺失的“反饋流”

一群前谷歌DeepMind、蘋果、OpenAI和Meta的研究員成立了新創公司Trajectory,旨在幫助企業透過真實使用者互動持續改進AI產品。Trajectory旨在構建一個平臺,讓AI能夠在部署後持續學習,而不是在訓練完成後停滯不前。該公司已獲得1500萬美元種子輪融資,估值1.15億美元,由Conviction領投。其CEO Ronak Malde表示,AI程式設計產品如Cursor已在實踐早期版本的持續學習,Trajectory希望將類似技術擴充套件到更多領域。

  • Trajectory由前谷歌DeepMind、蘋果、OpenAI和Meta的研究員創立,旨在實現AI的持續學習。
  • 公司已融資1500萬美元,估值1.15億美元,投資者包括Jeff Dean和Fei-Fei Li。
站內正文

彌合穩定性與表現力之間的鴻溝:面向低資源口語模型的合成資料擴充套件與偏好對齊

研究人員發現,在低資源語言的口語模型中使用合成資料會導致“穩定性-表現力鴻溝”,並提出兩種自對齊框架(DGSA和TDSC),能夠恢復韻律變異性,超越ElevenLabs和Gemini Pro等商業系統,實現寮國語的首次零樣本人聲克隆。

  • 低資源語言的口語模型在合成資料訓練時面臨音素準確度與韻律表現力之間的權衡。
  • 提出的解耦引導自對齊(DGSA)透過分離韻律和音色來恢復表現力。
站內正文

我用這個免費應用深入挖掘Oura Ring資料——發現如下

Simple Wearable Report利用AI從Oura Ring資料中提取更多見解。本文介紹了作者如何使用它,以及它如何與Gemini等AI工具配合提供詳細分析。

  • Simple Wearable Report能將Oura資料轉化為實驗室風格報告,便於醫生檢視或上傳至AI聊天機器人。
  • 與Oura內建AI顧問相比,Gemini等工具提供更具體、量化的資料分析。
站內正文

Google將展示廣告整合到AI優先的需求生成平臺

Google宣佈將其展示廣告(Display Ads)整合到AI驅動的需求生成(Demand Gen)平臺中,標誌著傳統數字廣告模式的終結。這一變化要求營銷團隊放棄手動廣告控制,轉向依賴Google AI進行自動化的廣告創意組合、投放和最佳化。同時,傳統指標如點選率(CTR)和每次點選成本(CPC)的重要性下降,廣告主需關注更廣泛的業務成果。

  • Google將展示廣告(GDN)整合到AI驅動的需求生成平臺,結束近二十年的傳統廣告模式。
  • 廣告主不再手動選擇網站或調整受眾,而是提供創意素材,由AI自動測試並最佳化組合。
站內正文

我的眼科醫生開錯了電腦驗光處方,AI幫我修正了

一位患者的驗光醫生給出了錯誤且不合適的電腦眼鏡處方,導致無法正常使用電腦。藉助ChatGPT、Claude和Gemini等AI工具,他重新計算了適配其實際用眼距離的處方,併成功配鏡。故事警示患者需與醫生充分溝通,同時展示了AI在特定場景下的輔助能力。

  • 醫生給患者開具了基於錯誤距離的電腦眼鏡處方,原處方實際為閱讀距離。
  • 透過ChatGPT、Claude和Gemini三個AI分析,一致指出問題並給出修正數值。
站內正文

上週AI資訊#341 - 馬斯克敗訴OpenAI,Google IO更新,OpenAI解決埃爾德什問題

本週AI頭條:馬斯克對OpenAI的1500億美元訴訟被駁回;Google I/O 2026釋出多項AI更新,包括Gemini 3.5 Flash和Gemini Spark;OpenAI的AI解決了一個80年曆史的數學問題;美國《Take It Down Act》生效,要求平臺48小時內刪除深度偽造內容;SpaceX IPO後計劃以600億美元收購AI編碼初創公司Cursor。

  • 馬斯克對OpenAI的1500億美元訴訟被陪審團駁回,OpenAI準備IPO。
  • Google I/O 2026推出Gemini 3.5 Flash、Gemini Spark、Gemini Omni等重大AI更新。
站內正文

Crew44:將程式設計智慧體轉變為專業團隊

Crew44 是一款本地優先的開源工具,可將多個 AI 程式設計智慧體(如 Claude Code、Codex、Gemini、Cursor)組織成協同工作的專業團隊。無需賬戶、免費、MIT 許可,支援記憶與技能積累。

  • Crew44 將多個 AI 程式設計智慧體整合到一個本地工作區,形成協同團隊。
  • 支援建立專家角色(如聯合創始人、工程師、產品主管),併為每個角色繫結合適的執行時/模型。
站內正文

AI代理馬具:將LLM轉變為數字工人的粘合劑

AI模型在原始智慧方面似乎已達到平臺期,下一階段的進步來自於圍繞模型構建的“代理馬具”。本文介紹了代理馬具的概念,包括工具、記憶和人類參與,並比較了Google、LangChain、OpenAI、Anthropic等公司的解決方案。

  • AI模型智慧提升放緩,代理馬具成為新焦點。
  • 代理馬具為LLM提供工具、記憶和糾錯能力。
站內正文

我佩戴了谷歌的Fitbit Air進行一週健康追蹤——它是一款價格更低的Whoop強勁對手

谷歌最新無螢幕健康追蹤器Fitbit Air售價僅100美元,是Whoop的強力競爭對手。經過一週的跑步、力量訓練、瑜伽等測試,我們發現這款裝置輕便舒適,電池續航約一週,配合AI健康教練提供全面的追蹤體驗。雖然無螢幕設計減少了干擾,但在運動中檢視資料需要開啟手機應用。訂閱Google Health Premium可解鎖AI教練的高階功能。

  • Fitbit Air售價100美元,比Whoop更實惠。
  • 無螢幕設計促進更健康的追蹤習慣,但運動中檢視資料不便。
站內正文

AI週刊第496期:Anthropic的國防級模型現已全民可用

本週AI新聞要點:Anthropic公開了此前僅限國防承包商使用的頂級模型Mythos,使五角大樓級AI能力向開發者開放;DeepMind CEO哈薩比斯將AGI時間線提前至2029年;Starlette框架爆出嚴重認證繞過漏洞,影響數百萬AI代理;CrowdStrike等聯合摧毀Glassworm殭屍網路;法國巴黎銀行與Mistral達成主權AI安全合作;中國限制阿里和深度求索頂尖AI工程師出境;Uber AI預算超支、ClickUp裁員並引入數千AI代理,同時MIT技術評論資料顯示AI暴露崗位失業率更低,奧特曼撤回白領失業預言。

  • Anthropic釋出Mythos模型,原本僅限NSA和五角大樓使用,現可透過標準API訪問。
  • 深度思維CEO哈薩比斯將AGI實現時間從5-10年縮短至2029年。
站內正文

Zero.xyz:讓你的AI代理訪問超過4000種工具、API和服務

Zero.xyz是一個免費工具,能讓AI代理透過統一API訪問超過4000種工具和服務,無需配置API金鑰。它相容Claude Code、Codex、Gemini等多種CLI代理,並提供5美元免費額度。

  • Zero.xyz提供超過4000種工具和服務的統一訪問介面
  • 無需API金鑰或配置,簡化AI代理的操作流程
站內正文

關於接下來會發生什麼的一些想法,2026年5月

2026年AI領域將繼續快速發展,開源模型在智慧體能力上仍落後於閉源模型,谷歌的Gemini尚未對Claude Code和Codex構成有力競爭,美國開源模型正在崛起,Anthropic與OpenAI競爭激烈,現有權力結構開始介入AI發展。

  • 開源模型在智慧體能力上落後閉源模型約12個月。
  • 谷歌Gemini在智慧體工具方面無明顯競爭優勢。
站內正文

桑達爾·皮查伊談AI、搜尋未來及網路變革

在Google I/O大會後的Decoder訪談中,CEO桑達爾·皮查伊深入討論了Google的AI優先轉型、搜尋的劇變、與出版商的緊張關係以及對AGI的展望。

  • Google合併Brain和DeepMind為Google DeepMind,並集中AI基礎設施團隊。
  • 搜尋體驗引入AI概覽和Gemini Spark代理平臺,從根本上改變資訊獲取方式。
站內正文

序列知識 #866:你需要了解的三款文本擴散模型

文本擴散模型挑戰了傳統自迴歸語言生成正規化,將生成過程視為從噪聲或掩碼開始、逐步精煉的編輯過程。文章介紹了該領域的三個關鍵系統:LLaDA(證明擴散可擴充套件為大型語言模型)、Mercury(實現商業速度優勢)和Gemini Diffusion(前沿驗證),它們共同代表了新架構類的三階段:科學證明、工業部署和前沿驗證。

  • 文本擴散模型透過迭代去噪而非逐詞生成文本,利用雙向上下文。
  • LLaDA證明了擴散模型可以擴充套件到真正的大語言模型規模。
站內正文

留給人類數學家的懸賞不多了!谷歌DeepMind一口氣解決9道埃爾德什問題

谷歌DeepMind釋出AlphaProof Nexus,基於Gemini 3.1 Pro和Lean編譯器,一口氣解決了9道埃爾德什開放問題,另有44個OEIS猜想、一道15年代數幾何難題等,每道題成本僅幾百美元。

  • AlphaProof Nexus解決了9道埃爾德什問題,其中最長懸置56年。
  • 系統由四個智慧體組成,最簡單版本僅靠大模型加編譯器反饋就完成任務。
站內正文

LWiAI 播客 #246:Gemini 3.5 + Omni、馬斯克敗訴、OpenAI 對決 Erdős

谷歌在 I/O 大會上推出 Gemini 3.5 和 Gemini Spark 智慧體,以及 Gemini Omni 多模態影片生成;埃隆·馬斯克因訴訟時效問題輸掉對 OpenAI 的訴訟;Anthropic 以 9000 億美元估值融資 300 億美元;AI 解決了 80 年曆史的 Erdős 幾何問題。

  • 谷歌釋出 Gemini 3.5 和持續執行的智慧體 Gemini Spark,支援 MCP 工具。
  • Gemini Omni 可將影像、音訊和文本轉換為影片。
站內正文

ContextVault – 適用於ChatGPT、Claude、Gemini的本地優先AI對話記錄器

ContextVault是一款瀏覽器擴充套件,可在所有主要LLM平臺(如ChatGPT、Claude和Gemini)上即時捕獲AI對話,並將其本地儲存在IndexedDB中。支援一鍵匯出為Markdown或ZIP格式,確保您的對話資料不會離開您的裝置。該工具免費、開源,無需賬戶或後端,注重隱私。

  • 即時捕獲來自ChatGPT、Claude、Gemini等7個LLM平臺的AI對話。
  • 所有資料本地儲存在IndexedDB中,無雲端同步或第三方訪問。
站內正文

谷歌Deepmind的AlphaProof Nexus僅花幾百美元就解決了幾十年未解的數學難題

谷歌Deepmind的AlphaProof Nexus系統自主解決了九個開放的愛爾迪什問題,包括兩個困擾數學家56年的難題,每個問題的推理成本僅需幾百美元。與OpenAI的自然語言方法不同,該系統使用Lean編譯器自動驗證每一步證明。不過,整體成功率僅為2.5%。

  • AlphaProof Nexus自主解決了九個開放的愛爾迪什問題,其中兩個已存在56年。
  • 每個問題的推理成本僅為幾百美元。
站內正文

HTML Deployer:一鍵將AI生成的HTML轉化為線上網站

HTML Deployer是一款Chrome擴充套件,可從ChatGPT、Claude和Gemini中提取AI生成的HTML,並提供預覽、下載ZIP或直接釋出到Netlify、GitHub、FTP或自託管伺服器的功能。適合開發者、創始人、營銷人員、機構和初學者。

  • 支援從ChatGPT、Claude和Gemini提取HTML程式碼塊。
  • 提供預覽、ZIP匯出和直接釋出到雲端儲存、FTP或自託管伺服器。
站內正文

我看到了Android Auto的未來,現在Google讓我對自己的車感到恐懼

Google即將推出的Android Auto更新帶來了重新設計的介面,採用Material 3 Expressive設計、自定義小部件、沉浸式導航以及更深入的Gemini整合。作者的演示讓他印象深刻,並期待今年晚些時候的更新。

  • 新的Android Auto介面採用Material 3 Expressive設計,具有三面板佈局和自定義小部件。
  • Google Maps獲得沉浸式導航,顯示詳細的3D建築和地形。
站內正文

Google Antigravity 2.0:完整開發者指南(I/O 2026)

Google 在 I/O 2026 上釋出了 Antigravity 2.0,這是一次從 AI 輔助編碼到多智慧體編排的平臺級轉變。新版本包括獨立桌面應用、CLI、SDK 和託管智慧體,預設使用 Gemini 3.5 Flash,速度提升 4 倍。

  • Antigravity 2.0 是一個全新的平臺,專注於多智慧體編排,而非簡單的 IDE 更新。
  • 新功能包括獨立桌面應用、Go 語言編寫的 CLI、SDK 以及透過 Gemini API 提供的託管智慧體。
站內正文

AI模型常給出正確答案卻指向錯誤來源

北京大學研究人員發現,像GPT和Gemini這樣的領先AI模型在文件分析中經常引用不支援的文本段落,即使答案正確,引用的證據也常常錯誤。他們稱之為“歸因幻覺”,對法律和醫學等監管領域構成風險。新的CiteVQA基準是首個系統測試該問題的工具。

  • AI模型在文件分析中常引用不支援的證據,導致“歸因幻覺”
  • 即使答案正確,引用的文本段落也常錯誤
站內正文

AI能猜出你知道什麼?大型語言模型從溝通日誌中評估人類領域知識的效能比較

研究評估了七個大型語言模型(包括Gemini、Claude和GPT系列)從長期Slack日誌中推斷個人領域知識的能力。分析27,188條來自43名使用者的訊息,對比零樣本估計與27名參與者的自我報告技能評分。Gemini 2.5 Flash表現最佳(MAE 21.13%),而GPT模型誤差較大。研究發現,估計準確性僅微弱依賴於訊息數量,表明更多文本並不能保證更好的推斷。該結果展示了自動專業知識對映的可行性和當前侷限性,強調需要隱私保護部署和更豐富的結構感知知識表示。

  • 員工常難以識別“誰知道什麼”,導致組織效率損失
  • Gemini 2.5 Flash在零樣本評估中取得最低誤差(MAE 21.13%)
站內正文

Show HN:即時AI音樂序列代理

Pretzel 是一個實驗性的即時AI音樂代理,透過一個網路同步的音樂序列生成器,讓所有使用者與同一AI代理聊天並聽到相同的音樂。該專案在Google IO駭客松中誕生,旨在讓使用者表達情緒並即時更新音樂。

  • Pretzel 是一個由AI控制的網路同步音樂序列生成器。
  • 所有使用者與同一AI代理互動,聽到相同的音樂。
站內正文

Deepmind的哈薩比斯認為人類處於“奇點山麓”,而LeCun稱當前AI並不智慧

Yann LeCun認為當前AI系統並非真正智慧。Demis Hassabis則認為人類已“站在奇點的山麓”。Gemini聯合負責人Oriol Vinyals則持折中觀點:今天的模型在七年前看起來像是AGI,但它們仍無法從經驗中學習或產生真正的突破。

  • Yann LeCun表示當前AI系統沒有真正的智慧。
  • Demis Hassabis認為人類已進入奇點時代的初期。
站內正文

The Sequence Radar #865:上週AI回顧:Karpathy、Google、Colossus與即將到來的IPO浪潮

上週AI領域迎來重大轉折:Google釋出Gemini Omni及代理優先平臺;Andrej Karpathy加入Anthropic,專注於利用Claude加速預訓練研究;Anthropic與xAI達成價值450億美元的Colossus算力租賃協議;Cerebras IPO成功,市值近950億美元;SpaceX、OpenAI和Anthropic計劃在未來六個月內相繼上市,總估值可能超過3萬億美元。此外,多項前沿研究釋出,包括HRM-Text高效預訓練正規化、AI評審員效果評估、NVIDIA的聯合AR-擴散模型等。

  • Google在I/O大會上推出Gemini Omni多模態模型和代理優先平臺Antigravity,整合TPU 8i實現垂直整合。
  • Andrej Karpathy加入Anthropic,組建團隊利用Claude加速預訓練研究,標誌著自我改進迴圈的實質性進展。
站內正文

為什麼不應在Copilot、Gemini等AI工具中使用預設模型選擇

數學家Adam Kucharski向Microsoft Copilot提供了完全相同的資料集,僅更改國家標籤,結果Copilot生成了詳細的刻板印象而非準確結果。思考模型能夠識別這種錯誤,但需要使用者主動選擇。

  • Microsoft Copilot在分析資料時會憑空捏造國家差異,輸出刻板印象。
  • 思考模型能識別這種把戲,但使用者需知道何時切換模型。
站內正文

OpenAI 和 Nvidia 正在使用 Google 的 SynthID 為 AI 內容新增水印

Google 的 SynthID 水印系統正被 OpenAI、Nvidia、ElevenLabs 和 Kakao 採用,標誌著 AI 內容檢測向共享行業標準轉變。

  • SynthID 直接將水印嵌入畫素和音訊波形,使其比後設資料更難移除。
  • OpenAI、Nvidia、ElevenLabs 和 Kakao 現在將 SynthID 用於其影像、影片和語音生成工具。
站內正文

加強新加坡的AI未來:新的國家合作伙伴關係

Google DeepMind宣佈與新加坡政府及多家機構建立新的國家AI合作伙伴關係,重點推動醫療、教育、科學和可持續發展領域的負責任AI應用,預計到2040年將帶來33億新元的經濟價值。

  • 合作涵蓋公共部門轉型、企業增長和勞動力培訓,聚焦醫療、科學發現和教育。
  • 具體專案包括AI臨床輔助研究、大流行病防範、為盲人運動員開發的跑步助手,以及教育領域的Gemini應用。
站內正文

回顧Google I/O 2026的對話舞臺

在今年的I/O大會上,對話舞臺匯聚了谷歌領導者、科學家和創意先驅,共同探討人工智慧、量子計算、機器人技術和創造力等領域的突破性進展。

  • 谷歌CEO桑達爾·皮查伊與未來前進創始人馬特·伯曼對話,解讀I/O重大公告。
  • 谷歌團隊與Logan Kilpatrick討論AI代理如何改變生產力。
站內正文

Nota:AI 筆記與語音應用正式釋出

Nota 是一款全新的 AI 筆記應用,支援語音、掃描、塗鴉和文本輸入,可在 iPhone、iPad、Mac 和 Apple Watch 上使用。它提供 45 種語言的語音轉錄,使用者可自由選擇 OpenAI、Claude、Gemini 等 AI 模型,並且注重隱私和本地優先。免費版即可使用無限本地筆記。

  • 支援四種輸入方式:語音、掃描、塗鴉和文本
  • 語音轉錄覆蓋 45 種語言
站內正文

微軟釋出Fara1.5:瀏覽器計算機使用代理家族(4B/9B/27B)在Online-Mind2Web上超越OpenAI Operator和Gemini 2.5計算機使用

微軟研究院釋出了Fara1.5,這是一個瀏覽器計算機使用代理模型家族,包括4B、9B和27B三種規模。其中Fara1.5-27B在Online-Mind2Web基準測試中達到72%的任務成功率,超過了OpenAI Operator(58.3%)和Gemini 2.5 Computer Use(57.3%)。該釋出還包含了FaraGen1.5,一個用於生成訓練軌跡的合成資料流水線。

  • Fara1.5是微軟研究院推出的瀏覽器計算機使用代理模型,基於Qwen3.5,有4B、9B和27B三種引數規模。
  • Fara1.5-27B在Online-Mind2Web上取得72%的分數,領先於OpenAI Operator和Gemini 2.5 Computer Use。
站內正文

使用OpenMythos構建迴圈深度Transformer:MLA、GQA、稀疏MoE與迴圈縮放推理

本教程介紹如何利用OpenMythos庫在Google Colab中構建端到端的迴圈深度Transformer工作流。我們建立了MLA和GQA兩種注意力變體,比較引數量,並透過譜半徑檢查迴圈注入矩陣的穩定性。在合成組合推理任務(預測數字鏈模固定值的和)上訓練模型,研究迴圈迴圈如何使單一模型重用引數進行更深層次的計算。最終展示在推理時增加迴圈次數如何在不改變引數的情況下提升推理深度。

  • 使用OpenMythos構建支援MLA和GQA的迴圈深度Transformer,並比較引數量。
  • 透過譜半徑驗證迴圈注入矩陣的穩定性。
站內正文

AI基礎設施新獨角獸:Exa、Modal、TurboPuffer融資動態

本週AI新聞相對平靜,但基礎設施領域迎來重大融資:TurboPuffer實現1億美元ARR且盈利;Exa以22億美元估值融資2.5億美元;Modal以47億美元估值融資3.55億美元。其他亮點包括RAEv2表示學習框架、Gated DeltaNet-2注意力機制、以及Codex和Gemini的智慧體工具更新。

  • TurboPuffer達到1億美元ARR並實現盈利;Exa和Modal完成大規模融資。
  • 新模型架構如RAEv2和Gated DeltaNet-2在收斂速度和長上下文檢索方面表現出色。
站內正文

Google I/O 2026 重大發布:AI 代理進入搜尋,全新模型與工具亮相

Google I/O 2026 展示了從回答型AI到行動型AI的轉變,AI代理進入搜尋,推出Gemini 3.5 Flash、個人代理Spark、影片生成模型Omni,以及大量開發者工具。

  • Google 搜尋引入 AI 代理,可執行購物、編碼、提醒等任務
  • Gemini 3.5 Flash 成為預設模型,速度快 4 倍,專注於代理和編碼
站內正文

Gembokwarkop:Base64-Vigenere 與人工智慧的對決

一個名為 Gembokwarkop 的專案將 Base64 編碼與 Vigenere 密碼結合,形成一種“日常使用”的加密方案。作者測試了 ChatGPT、Gemini 和 Claude 等 AI 模型,結果從無法破解到完全胡編亂造,展現了 AI 在密碼分析上的有趣侷限。

  • 方案:先 Base64 編碼,再 Vigenere 密碼加密。
  • ChatGPT 承認其弱點但無法在沒有金鑰的情況下解密。
站內正文

千問3.7問鼎國產模型冠軍,全球前五

Artificial Analysis最新榜單顯示,阿里Qwen3.7-Max以56.6分位列全球第五、國產第一,效能接近GPT、Claude、Gemini最強模型。該模型專為Agent設計,在程式設計、智慧體、推理等核心能力上實現大幅突破,即將上線阿里雲百鍊提供API服務。

  • Qwen3.7-Max在Artificial Analysis榜單得分56.6,全球第五、國產第一
  • 效能逼近GPT-5.4、Gemini3.1 Pro Preview、Claude-Opus4.7
站內正文

Show HN:Gemini Omni Flash 使用說明和AI影片生成器

Gemini Omni Flash 的可用性取決於 Google AI 計劃、地區和賬戶狀態。如果無法訪問,建議比較其他 AI 影片生成工具。

  • Gemini Omni Flash 的可用性因 Google AI 計劃、區域和賬戶狀態而異。
  • 免費積分可能無法解鎖所有影片模型。
站內正文

【AINews】OpenAI GPT-next 花不到1000美元推翻80年曆史的Erdős平面單位距離問題

今日AI新聞彙總:OpenAI的通用推理模型在不到1000美元的成本下推翻了著名的Erdős平面單位距離問題,獲得數學家高度認可;Cohere釋出Command A+開源模型,採用Apache 2.0許可;Google推出Gemini 3.5 Flash和Omni等多款更新;多項基準測試顯示當前AI代理在複雜工程任務中仍表現不佳。

  • OpenAI內部模型以低於1000美元的計算成本否定了Erdős平面單位距離問題,這是通用AI解決公開數學難題的里程碑。
  • Cohere釋出Command A+作為Apache 2.0開源模型,約218B MoE引數,可在2×H100上執行。
站內正文

唯唯諾諾綜合徵:具身機器人代理中的棄權行為基準測試

視覺語言模型(VLM)被用作具身代理的高層規劃器,但它們在面對模糊、不可行或基於錯誤前提的指令時往往無法棄權。新提出的RoboAbstention基準框架基於五個機器人資料集的影像生成了6,069條可驗證指令,評估發現即使是最先進的模型也表現不佳:Gemini 2.5 Flash僅在39.0%的指令中正確棄權,而具身規劃器Gemini Robotics ER 1.6 Preview僅16.5%。防禦性提示和上下文學習可將棄權率提升至93.6%以上,但仍未完全解決該問題。

  • VLM作為機器人規劃器時,缺乏對模糊或不可行指令的棄權能力。
  • RoboAbstention透過結構化視覺基礎、確定性約束推導和模板生成,構建了包含6,069條可驗證指令的資料集。
站內正文

Google AI Pro訂閱計劃悄然降級

谷歌悄悄將每月20美元的Google AI Pro計劃從固定訊息限制改為基於積分的配額系統。使用者反映,複雜提示詞單次即可消耗13%至30%的配額,引發不滿。新限制適用於所有Gemini功能,包括谷歌相簿等服務,可能促使重度使用者轉向新的每月100美元的Ultra計劃。

  • Google AI Pro計劃改用基於積分的配額系統,不再有固定訊息限制。
  • 複雜提示詞和AI工具會消耗大量可用配額。
站內正文

谷歌希望搜尋欄在人工智慧改造中代表你行事

谷歌在年度開發者大會上宣佈,其搜尋欄將升級為AI代理,可代表使用者預訂餐廳、追蹤新聞和管理購物清單。同時推出Gemini Spark個人AI助手和最新的Gemini 3.5 Flash模型。這些功能可能影響新聞網站的流量和收入。

  • 谷歌搜尋將內建始終線上的AI代理,可代表使用者執行任務。
  • Gemini Spark個人AI助手面向高階訂閱者,下週在美國上線。
站內正文

“解決所有疾病”,你說呢?

谷歌DeepMind執行長在Google I/O上聲稱要“解決所有疾病”,引發了對AI在醫療領域作用的討論。本文分析了這一雄心背後的現實,包括AlphaFold和AlphaGenome等工具的潛力與侷限,以及公眾對AI健康宣告的誤解風險。

  • Demis Hassabis在Google I/O上宣佈Gemini for Science,旨在加速藥物發現,最終解決所有疾病。
  • AI在醫療研究中的應用歷史悠久,但重大突破需要時間,通常需20年或更久。
站內正文

公司導航