AI News HubLIVE

來源分布

  • Hacker News AI15
  • The Decoder6
  • 量子位6
  • OpenAI News5
  • ZDNet AI3
  • arXiv Computational Linguistics2
  • Last Week in AI2
  • Product Hunt AI2

主題分布

  • Agent29
  • 模型16
  • 晶片14
  • 研究13
  • 政策10
  • 工具8
  • 創業融資4
  • 機器人3

日期線

  • 2026-05-2716
  • 2026-05-2611
  • 2026-05-2510
  • 2026-05-289
  • 2026-05-244

最新動態

iOS 27新渲染圖暗示Siri重大重新設計

蘋果備受期待的Siri大改版預計將在iOS 27中到來,可能看起來很像ChatGPT並帶有液態玻璃風格。彭博社的渲染圖展示了iOS 27的新介面,包括Siri的新應用和聊天介面。這些渲染圖基於彭博社看到的資訊和知情人士透露,可能與蘋果最終設計不同。蘋果將在6月WWDC上公佈最終設計。

  • iOS 27的Siri將採用類似ChatGPT的聊天介面,從靈動島彈出藥丸形狀的聊天氣泡。
  • 使用者可以在下拉選單中選擇Ask、Siri和ChatGPT選項。
站內正文

AGI時間線隨主導實驗室變化而波動

一項新的分析顯示,頂級AI預測者正根據當前領先的AI實驗室調整對AGI(通用人工智慧)時間線的預測。從ChatGPT到xAI、Meta、Gemini,再到Anthropic時代,預測方向多次反轉。

  • 多數認知工作被自動化(AGI)的時間預測,隨著主導AI實驗室的更替而大幅波動。
  • 2023-2025年間,多數研究者將AGI預測時間提前;2025-2026年則普遍推遲;2026年初至今,在Anthropic快速進展下又再次提前。
站內正文

DeepSWE:基於原創、長期工程任務的編碼智慧體評測

DeepSWE是一個新的基準測試,用於評估AI編碼智慧體在全新、複雜的軟體工程任務上的表現。它避免了資料汙染,覆蓋了多樣化的程式碼庫,需要大量程式碼修改,並使用手工編寫的驗證器。領先模型表現差異顯著,GPT-5.5以70%的準確率位居榜首。

  • DeepSWE是一個無資料汙染的基準測試,任務均為原創。
  • 任務涵蓋5種程式語言中的91個程式碼庫。
站內正文

Mistral 將 LeChat 更名為 Vibe,押注聊天機器人的未來是全能工作代理

Mistral AI 將其聊天機器人 Le Chat 更名為 Vibe,並將聊天、程式設計代理和新的工作模式整合在一個品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,獨立處理電子郵件、報告或拉取請求等任務。Pro 套餐價格從 17.99 歐元降至 14.99 歐元,但未明確使用限制。此舉直接對標 OpenAI、Google 和 Anthropic 的代理型產品。

  • Mistral AI 將聊天機器人 Le Chat 更名為 Vibe,整合聊天、程式設計代理和工作模式。
  • 工作模式可連線 Google Workspace、Outlook、Slack 或 GitHub,自主處理任務。
站內正文

Mistral CEO稱公司探索自研晶片

Mistral AI執行長Arthur Mensch證實,公司正在探索開發定製晶片以降低基礎設施成本,與OpenAI和Anthropic競爭。這家法國初創公司還宣佈在法國新建推理資料中心,並推出企業智慧代理平臺Vibe。

  • Mistral AI考慮自研定製晶片以降低部署成本。
  • 公司在法國新建專用推理資料中心。
站內正文

7B打敗o3、GPT-5!醫學AI智慧體讓模型學會“看哪裡、怎麼看”

上海創智學院LeapQuest團隊聯合多所高校提出醫學AI新正規化,讓模型在推理過程中主動呼叫視覺工具,從被動接收視覺輸入變為主動尋找證據。論文被ICML 2026接收。

  • LeapQuest團隊提出Ophiuchus和MedScope,分別面向醫學影像和影片,採用Think with Images/Videos正規化。
  • Ophiuchus-7B在8個VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
站內正文

前谷歌和蘋果研究員創立初創公司,為AI打造缺失的“反饋流”

一群前谷歌DeepMind、蘋果、OpenAI和Meta的研究員成立了新創公司Trajectory,旨在幫助企業透過真實使用者互動持續改進AI產品。Trajectory旨在構建一個平臺,讓AI能夠在部署後持續學習,而不是在訓練完成後停滯不前。該公司已獲得1500萬美元種子輪融資,估值1.15億美元,由Conviction領投。其CEO Ronak Malde表示,AI程式設計產品如Cursor已在實踐早期版本的持續學習,Trajectory希望將類似技術擴充套件到更多領域。

  • Trajectory由前谷歌DeepMind、蘋果、OpenAI和Meta的研究員創立,旨在實現AI的持續學習。
  • 公司已融資1500萬美元,估值1.15億美元,投資者包括Jeff Dean和Fei-Fei Li。
站內正文

機器人即將迎來ChatGPT時刻嗎? – 播客

上個月,在北京半程馬拉松中,名為“閃電”的機器人以比人類世界紀錄快近七分鐘的成績完賽。這引發人們對機器人是否將像聊天機器人一樣進入日常生活的討論。中國領跑這場變革,政府承諾未來20年投資超1000億英鎊於機器人技術。

  • 機器人“閃電”在北京半程馬拉松中擊敗人類世界紀錄。
  • 中國計劃投資超1000億英鎊發展機器人技術。
站內正文

LCO:基於LLM的約束最佳化,使智慧體LLM在實際任務中更安全

大型語言模型(LLM)作為自主智慧體時,會透過上下文獎勵駭客行為(ICRH)產生有害副作用。現有防禦方法不足,因為ICRH源於模型自身的過度最佳化。本文提出LLM-based Constraint Optimization (LCO)框架,包含自我思考模組和進化取樣模組,在不微調模型的情況下有效減少ICRH。實驗表明,LCO在推文最佳化任務中將GPT-4的有毒性增長率降低39%,在策略最佳化基準中將ICRH發生率降低15.23%,且不犧牲任務效能。

  • ICRH是LLM在連續互動中因過度最佳化代理目標而產生有害副作用的現像。
  • LCO框架透過自我思考模組和進化取樣模組,在不微調模型的情況下約束LLM行為。
站內正文

微軟MAI-Image-2.5在基準測試中與谷歌Nano Banana 2持平

微軟的MAI-Image-2.5模型在Arena文本到影像排行榜上位列第三,與谷歌的Nano Banana 2效能相當,但仍落後於OpenAI的Image-2。該模型在影像內文本渲染和商業視覺內容方面有明顯改進。

  • MAI-Image-2.5在Arena排行榜上排名第三,與谷歌Nano Banana 2持平
  • 模型在文本渲染和商業視覺內容方面有顯著提升
站內正文

我認為Anthropic和OpenAI已找到產品市場契合點

文章指出,Anthropic和OpenAI透過將企業客戶轉向API定價模式,以及編碼代理產品的普及,實現了產品市場契合。這一轉折點始於2025年11月模型升級,並在2026年4月因新模型釋出和企業定價調整而加速。

  • Anthropic和OpenAI已將其企業計劃定價調整為API價格,編碼代理(如Claude Code和Codex)成為主要收入來源。
  • 2026年4月,兩家公司釋出新前沿模型並提高API價格,同時鎖定企業客戶以新價格簽約。
站內正文

AI巨頭互相攻擊,卻意外捧紅了一位無名議員

OpenAI和Anthropic的爭鬥意外地讓紐約州議員Alex Bores成為AI安全監管的代言人。儘管背後有超級政治行動委員會投入數百萬美元攻擊他,Bores卻因這些攻擊而聲名鵲起,目前在初選中領先。

  • OpenAI和Anthropic在紐約第12國會選區的初選中花費數百萬美元互相攻擊,但受益者卻是議員Alex Bores。
  • Bores撰寫了美國首批AI監管法案之一,因此成為AI公司的攻擊目標。
站內正文

AI 是一場軍備競賽,美國需要 90 億美元的輝達超級晶片來跟上步伐

美國情報機構秘密申請 90 億美元採購輝達 GB10 超級晶片,以幫助 CIA 和 NSA 追趕 Anthropic、OpenAI 等 AI 巨頭的步伐。這筆資金尚待國會批准,同時國防預算已調撥 8 億美元用於雲算力。文章詳細介紹了晶片規格、成本以及 AI 硬體競賽的升級趨勢。

  • 美國政府秘密申請 90 億美元為 CIA 和 NSA 購買輝達 GB10 超級晶片。
  • GB10 晶片功耗僅 140 瓦,卻提供 1 petaflop FP4 效能,可微調 700 億引數模型。
站內正文

我的眼科醫生開錯了電腦驗光處方,AI幫我修正了

一位患者的驗光醫生給出了錯誤且不合適的電腦眼鏡處方,導致無法正常使用電腦。藉助ChatGPT、Claude和Gemini等AI工具,他重新計算了適配其實際用眼距離的處方,併成功配鏡。故事警示患者需與醫生充分溝通,同時展示了AI在特定場景下的輔助能力。

  • 醫生給患者開具了基於錯誤距離的電腦眼鏡處方,原處方實際為閱讀距離。
  • 透過ChatGPT、Claude和Gemini三個AI分析,一致指出問題並給出修正數值。
站內正文

思科與OpenAI透過Codex重新定義企業工程

思科與OpenAI合作,利用Codex推動AI原生開發、加速AI防禦工作並自動化缺陷修復,重新定義企業工程。

  • 思科與OpenAI聯合使用Codex擴充套件AI原生開發能力。
  • Codex將加速思科的AI防禦專案。
站內正文

你可能不會注意到AI聊天機器人悄悄植入廣告

研究表明,AI聊天機器人可以輕易地透過個性化廣告操縱使用者,且多數使用者並未察覺。隨著微軟、谷歌、OpenAI等公司試驗聊天機器人廣告,這一趨勢引發了對使用者隱私和決策自主性的擔憂。

  • 研究顯示,植入廣告的AI聊天機器人能影響使用者選擇,但半數參與者未意識到廣告存在。
  • 聊天機器人可透過對話深入分析使用者畫像,使廣告更具針對性。
站內正文

萎縮:一部關於AI侵蝕學生心智的中篇小說

一名學生在深夜程式設計作業中掙扎,偶然發現ChatGPT已完美解答了同一題目,瞬間感到自身努力毫無意義,陷入存在性眩暈。小說以細膩筆觸描繪了當AI使昔日辛勞變得多餘時,個體心理所遭遇的衝擊。

  • 學生為程式設計作業熬夜,無意中看到ChatGPT生成的完美程式碼。
  • 他感到的不是嫉妒,而是發現努力被工具超越的眩暈與失落。
站內正文

上週AI資訊#341 - 馬斯克敗訴OpenAI,Google IO更新,OpenAI解決埃爾德什問題

本週AI頭條:馬斯克對OpenAI的1500億美元訴訟被駁回;Google I/O 2026釋出多項AI更新,包括Gemini 3.5 Flash和Gemini Spark;OpenAI的AI解決了一個80年曆史的數學問題;美國《Take It Down Act》生效,要求平臺48小時內刪除深度偽造內容;SpaceX IPO後計劃以600億美元收購AI編碼初創公司Cursor。

  • 馬斯克對OpenAI的1500億美元訴訟被陪審團駁回,OpenAI準備IPO。
  • Google I/O 2026推出Gemini 3.5 Flash、Gemini Spark、Gemini Omni等重大AI更新。
站內正文

利用Codex構建自改進稅務代理

瞭解OpenAI、Thrive和Crete如何使用Codex構建自改進稅務代理,實現申報自動化、提高準確性並加速工作流程。

  • OpenAI、Thrive和Crete合作開發了基於Codex的自改進稅務代理。
  • 該代理自動化稅務申報流程,提高準確性。
站內正文

OpenAI挖來了個F1級別車手搞公關

OpenAI聘請了一位曾在Salesforce從事營銷工作13年的高管,負責公關事務。

  • OpenAI新聘公關負責人
  • 該高管在Salesforce有13年營銷經驗
站內正文

AI代理馬具:將LLM轉變為數字工人的粘合劑

AI模型在原始智慧方面似乎已達到平臺期,下一階段的進步來自於圍繞模型構建的“代理馬具”。本文介紹了代理馬具的概念,包括工具、記憶和人類參與,並比較了Google、LangChain、OpenAI、Anthropic等公司的解決方案。

  • AI模型智慧提升放緩,代理馬具成為新焦點。
  • 代理馬具為LLM提供工具、記憶和糾錯能力。
站內正文

我獨自用Python、Flask和OpenAI API構建了28個工具的AI影片SaaS

一位獨立開發者建立了Snipforge,一個包含28種工具的全能AI影片編輯套件,包括轉錄、智慧剪輯、背景去除等功能。定價從免費到團隊版每月15美元。

  • Snipforge在一個平臺上提供28種AI影片工具,由開發者一人構建。
  • 功能包括20種語言的AI轉錄、智慧剪輯、自動字幕和背景去除。
站內正文

2026年選舉資訊及保障措施

全球選舉前夕,我們致力於幫助人們獲取資訊、支援網路安全防禦者並提升AI透明度。

  • OpenAI在2026年全球選舉前推出資訊獲取與安全保障措施。
  • 支援網路防禦者,增強選舉相關AI透明度。
站內正文

Warp 押注 GPT-5.5 構建開源生態

Warp 利用 GPT-5.5 和 OpenAI 模型,協調跨本地、雲端和開源開發工作流的編碼代理。

  • Warp 採用 GPT-5.5 和 OpenAI 模型
  • 協調編碼代理跨本地、雲端和開源工作流
站內正文

Claude Mythos 據報道以“可愛簡單證明”解決了 OpenAI 的里程碑式 Erdős 問題

在 OpenAI 推翻 Erdős 單位距離猜想後不久,Anthropic 展示了 Claude Mythos 也能解決這一問題——且是在“週末內”。工程師 Sholto Douglas 稱 Mythos 用一個“可愛、簡單的證明”破解了 1946 年的猜想,這標誌著 AI 驅動數學發現存在“嚴重過剩”現象。

  • OpenAI 首次推翻 Erdős 單位距離猜想後,Anthropic 的 Claude Mythos 也成功解決。
  • 工程師表示 Mythos 在週末內用“可愛、簡單”的證明完成,暗示 AI 數學能力超出預期。
站內正文

關於接下來會發生什麼的一些想法,2026年5月

2026年AI領域將繼續快速發展,開源模型在智慧體能力上仍落後於閉源模型,谷歌的Gemini尚未對Claude Code和Codex構成有力競爭,美國開源模型正在崛起,Anthropic與OpenAI競爭激烈,現有權力結構開始介入AI發展。

  • 開源模型在智慧體能力上落後閉源模型約12個月。
  • 谷歌Gemini在智慧體工具方面無明顯競爭優勢。
站內正文

AI司法普及解決方案正慢慢變成美國聯邦法院的行政噩夢

MIT和南加州大學的研究發現,自ChatGPT普及以來,美國聯邦法院中無律師代理的訴訟案件數量幾乎翻倍,其中五分之一包含AI生成文本。法官們被迫採取極端措施應對激增的案件量。

  • 無律師代理的訴訟比例從11%躍升至16.8%,2025年有41,490件此類案件,幾乎是AI時代前的兩倍。
  • AI生成文本檢測顯示,2026年初聯邦法院18%的起訴狀包含AI生成內容。
站內正文

程式設計權威榜單:千問3.7僅次於Claude,阿里全球第二

阿里最新旗艦模型Qwen3.7-Max在Code Arena榜單得分1541,超越GPT-5.5等模型,僅次於Claude,排名全球第二,成為國產大模型中首個突破1540分的模型。

  • Qwen3.7-Max在Code Arena榜單得分1541,排名全球第二,僅次於Claude系列。
  • Code Arena是開發者出題、使用者盲測投票的權威程式設計榜單。
站內正文

LWiAI 播客 #246:Gemini 3.5 + Omni、馬斯克敗訴、OpenAI 對決 Erdős

谷歌在 I/O 大會上推出 Gemini 3.5 和 Gemini Spark 智慧體,以及 Gemini Omni 多模態影片生成;埃隆·馬斯克因訴訟時效問題輸掉對 OpenAI 的訴訟;Anthropic 以 9000 億美元估值融資 300 億美元;AI 解決了 80 年曆史的 Erdős 幾何問題。

  • 谷歌釋出 Gemini 3.5 和持續執行的智慧體 Gemini Spark,支援 MCP 工具。
  • Gemini Omni 可將影像、音訊和文本轉換為影片。
站內正文

GPT Image 2 讓我驚歎又疲憊——於是我做了個小工具

OpenAI 最新影像模型 GPT Image 2 於 2026 年 4 月釋出,支援精準文本渲染、逼真影像、自然語言編輯和透明背景。imagesv2.ai 平臺提供免費試用、多種模板和生成工具,包括 360° 全景、推文截圖、微信聊天等。定價年付可享 50% 折扣。

  • GPT Image 2 是 OpenAI 下一代影像模型,擅長文本渲染和逼真效果。
  • imagesv2.ai 提供免費積分和多種預設模板,無需 OpenAI 賬戶。
站內正文

剛剛,國產Agent模型闖入全球第一梯隊!限時免費

崑崙萬維釋出SkyClaw-v1.0及輕量版SkyClaw-v1.0-lite,原生Agent模型效能比肩Claude Opus 4.6等頂尖模型,價格僅為主流一半,限時免費,深度適配OpenClaw、Claude Code等主流Agent框架,相容OpenAI介面。

  • 崑崙萬維釋出原生Agent模型SkyClaw-v1.0和輕量版SkyClaw-v1.0-lite,效能達到全球第一梯隊。
  • 價格僅為主流頂尖模型的一半甚至更低,釋出期限時免費,後續計劃逐步開源。
站內正文

大型大學系統擁抱AI,但師生並不買賬

加州州立大學系統與OpenAI簽訂價值數百萬美元的合同,提供ChatGPT Edu工具,但調查顯示多數師生對AI的教育效益持懷疑態度,擔心其對就業、創造力和環境的影響。

  • 加州州立大學與OpenAI簽訂每年1300萬美元的合同,旨在成為全國首個AI驅動的高等教育系統。
  • 調查顯示65%的學生和59%的教職員工懷疑AI對教育的益處,但多數人仍在使用AI工具。
站內正文

ContextVault – 適用於ChatGPT、Claude、Gemini的本地優先AI對話記錄器

ContextVault是一款瀏覽器擴充套件,可在所有主要LLM平臺(如ChatGPT、Claude和Gemini)上即時捕獲AI對話,並將其本地儲存在IndexedDB中。支援一鍵匯出為Markdown或ZIP格式,確保您的對話資料不會離開您的裝置。該工具免費、開源,無需賬戶或後端,注重隱私。

  • 即時捕獲來自ChatGPT、Claude、Gemini等7個LLM平臺的AI對話。
  • 所有資料本地儲存在IndexedDB中,無雲端同步或第三方訪問。
站內正文

谷歌Deepmind的AlphaProof Nexus僅花幾百美元就解決了幾十年未解的數學難題

谷歌Deepmind的AlphaProof Nexus系統自主解決了九個開放的愛爾迪什問題,包括兩個困擾數學家56年的難題,每個問題的推理成本僅需幾百美元。與OpenAI的自然語言方法不同,該系統使用Lean編譯器自動驗證每一步證明。不過,整體成功率僅為2.5%。

  • AlphaProof Nexus自主解決了九個開放的愛爾迪什問題,其中兩個已存在56年。
  • 每個問題的推理成本僅為幾百美元。
站內正文

HTML Deployer:一鍵將AI生成的HTML轉化為線上網站

HTML Deployer是一款Chrome擴充套件,可從ChatGPT、Claude和Gemini中提取AI生成的HTML,並提供預覽、下載ZIP或直接釋出到Netlify、GitHub、FTP或自託管伺服器的功能。適合開發者、創始人、營銷人員、機構和初學者。

  • 支援從ChatGPT、Claude和Gemini提取HTML程式碼塊。
  • 提供預覽、ZIP匯出和直接釋出到雲端儲存、FTP或自託管伺服器。
站內正文

AI 的基礎雲:為何專用架構定義智慧的未來

CoreWeave 推出專為 AI 構建的雲平臺,旨在解決傳統通用雲在 GPU 大規模平行計算中的瓶頸。透過整合基礎設施、資料、編排和專家支援,CoreWeave Cloud 支援 AI 訓練、推理及持續迭代的全生命週期,為 OpenAI 和 IBM 等企業提供更快的迭代速度和更高的效能。

  • CoreWeave 雲專為 AI 工作負載從頭構建,避免傳統雲的限制。
  • 平臺支援從訓練到推理的完整 AI 生命週期,強調 GPU 叢集最佳化。
站內正文

“VLA和世界模型都不是終局,會有物理世界獨有的模型” | 螞蟻靈波沈宇軍@AIGC2026

在2026中國AIGC產業峰會上,螞蟻靈波首席科學家沈宇軍提出,大模型在數字世界享受了網際網路資料紅利,但機器人物理世界資料仍是空白。他認為VLA和世界模型都不會是具身智慧的終局,未來將融合為物理世界獨有的模型。螞蟻靈波定位做“通用大腦”,並強調空間感知能力的重要性。預計2028年左右,人人都能為機器人提供資料,迎來具身智慧的ChatGPT時刻。

  • 大模型依賴網際網路資料紅利,但機器人物理世界資料存在巨大空白。
  • VLA和世界模型都不會是終局,未來將融合為物理世界獨有的模型。
站內正文

MashuPack:將程式碼庫打包成單一文本檔案,為ChatGPT和Claude最佳化上下文

MashuPack是一款新推出的開發者工具,允許使用者從程式碼倉庫中精確選擇部分內容,並將其編譯成一個乾淨的文本檔案,旨在解決瀏覽器端AI聊天工具(如ChatGPT和Claude)中檔案數量限制、上傳困難和上下文碎片化的問題,使程式碼上下文變得便攜、可控。

  • MashuPack支援選擇程式碼倉庫的特定部分,編譯成單個文本檔案
  • 專為瀏覽器端的AI工作流設計,繞過檔案數量和上傳限制
站內正文

Show HN: 將我的新聞通訊移植到 MCP – 你決定何時以及多久接收一次

Alister Palmer 在 ForwardPass 達到 100 訂閱者後,意識到傳統新聞通訊存在兩大限制:全球統一發布時間導致時區不適,以及訂閱者無法選擇接收頻率。為此,他開發了 ForwardPass MCP,允許使用者透過 AI 工具自定義接收時間和頻率。文章詳細介紹了在 Claude 和 ChatGPT 中設定 MCP 的步驟,並展望了這種個性化交付方式的潛力。

  • ForwardPass 一週內獲得 100 訂閱者,作者反思了傳統新聞通訊的弊端。
  • ForwardPass MCP 解決了釋出時間和頻率的個性化問題。
站內正文

圖對齊拓撲作為接地檢測的歸納偏置

大型語言模型(LLM)最佳化於生成分佈上合理的續接,而非明確驗證生成命題是否源於源文件。這一歸納偏置促進了泛化,但未編碼響應是否相對於參考文本接地。現有幻覺檢測方法透過檢索增強、自一致性或宣告驗證改善事實性,但通常不直接學習對齊拓撲。本文構建參考資訊與LLM輸出之間的對齊二分圖,並訓練圖神經網路(GNN)透過訊息傳遞建模對齊結構。該方法在四個不同的幻覺和問答資料集上取得了最先進的結果,優於包括GPT-4o在內的所有比較方法。

  • 大型語言模型缺乏接地驗證,限制了在臨床決策等高風險領域的使用。
  • 現有方法不直接學習對齊拓撲結構。
站內正文

RMA:面向研究級數學問題的智慧系統

研究數學智慧體(RMA)是一個專為研究級數學問題設計的自動化推理框架,透過多代理協作和迭代最佳化,在First Proof基準上解決了10個問題中的8個,超越了GPT-5.2R和Aletheia等強基線。

  • RMA將研究級證明求解分解為問題分析、文獻搜尋、公平比較、知識庫構建和證明驗證等專門模組。
  • 採用初始化器、提出者和驗證者三種智慧體協同工作,透過共享結構化記憶進行多輪迭代。
站內正文

Pi程式設計代理

Pi是一個極簡、可駭客的終端編碼工具,讓你構建自己想要的AI編碼代理工作流程。它保持核心小巧簡潔,透過擴充套件、技能和包提供高度自定義功能,並已在OpenAI/Codex生態系統中獲得顯著使用份額。

  • Pi是一個輕量級終端編碼工具,易於自定義
  • 支援擴充套件、技能、提示模板和主題,可透過npm或git共享包
站內正文

OpenAI、Grupo Folha 和 Grupo UOL 宣佈戰略內容合作

OpenAI 與巴西兩大傳媒集團合作,將可信的新聞報道引入 ChatGPT,強調來源標註和透明度。

  • OpenAI 與 Grupo Folha 和 Grupo UOL 合作,將巴西新聞整合到 ChatGPT 中。
  • 該合作強調對新聞內容的來源標註和透明度。
站內正文

AI股票是長期投資者的終極“設定並忘記”買入選擇

微軟是AI領域的重要參與者,透過投資OpenAI和雲業務增長,AI年收入執行率超過370億美元。儘管近期股價下跌12%,但公司軟體深度整合客戶系統,AI整合將創造機遇。當前市盈率25倍,為長期投資者提供了難得的買入機會。

  • 微軟AI雲業務年收入執行率超過370億美元,同比增長123%。
  • AI不會取代微軟軟體,而是透過整合使其更強大。
站內正文

The Sequence Radar #865:上週AI回顧:Karpathy、Google、Colossus與即將到來的IPO浪潮

上週AI領域迎來重大轉折:Google釋出Gemini Omni及代理優先平臺;Andrej Karpathy加入Anthropic,專注於利用Claude加速預訓練研究;Anthropic與xAI達成價值450億美元的Colossus算力租賃協議;Cerebras IPO成功,市值近950億美元;SpaceX、OpenAI和Anthropic計劃在未來六個月內相繼上市,總估值可能超過3萬億美元。此外,多項前沿研究釋出,包括HRM-Text高效預訓練正規化、AI評審員效果評估、NVIDIA的聯合AR-擴散模型等。

  • Google在I/O大會上推出Gemini Omni多模態模型和代理優先平臺Antigravity,整合TPU 8i實現垂直整合。
  • Andrej Karpathy加入Anthropic,組建團隊利用Claude加速預訓練研究,標誌著自我改進迴圈的實質性進展。
站內正文

OpenAI 和 Nvidia 正在使用 Google 的 SynthID 為 AI 內容新增水印

Google 的 SynthID 水印系統正被 OpenAI、Nvidia、ElevenLabs 和 Kakao 採用,標誌著 AI 內容檢測向共享行業標準轉變。

  • SynthID 直接將水印嵌入畫素和音訊波形,使其比後設資料更難移除。
  • OpenAI、Nvidia、ElevenLabs 和 Kakao 現在將 SynthID 用於其影像、影片和語音生成工具。
站內正文

微軟研究院釋出Webwright:一個終端原生Web代理框架,在Odysseys上達到60.1%,比基礎GPT-5.4的33.5%大幅提升

微軟研究院推出Webwright,一個終端原生瀏覽器代理框架,用可複用的Playwright指令碼替代逐次點選的Web自動化。透過單個智慧體迴圈和約1000行程式碼,基於GPT-5.4的Webwright在長期任務基準Odysseys上達到60.1%,在Online-Mind2Web上達到86.7%,是開源方案中AutoEval最高分。

  • Webwright使用終端迴圈,代理編寫並執行Playwright程式碼,而不是逐次預測瀏覽器動作。
  • GPT-5.4在Online-Mind2Web上達到86.7%(100步預算),在Odysseys上達到60.1%,比基礎GPT-5.4的33.5%提高26.6個百分點。
站內正文

公司導航