AI News HubLIVE
公開文章 211採集文章 220可信度 78刷新頻率 30 分鐘
健康狀態 自動暫停來源類型 媒體原文權限 站內改寫最近入庫 2026-06-13ID the-decoder運行狀態 未啟用

Media source; summary-only unless authorization is obtained.

最新公開文章

微軟CEO薩提亞·納德拉承認自己也是“令牌最大化者”:“這讓人上癮”

微軟CEO薩提亞·納德拉警告不要“令牌最大化”,即對所有問題都使用最強大的AI模型。他認為前沿模型不應浪費在日常任務上,生產力提升的邊際成本必須與令牌成本相匹配。但他也承認自己也是一個令牌最大化者,稱這讓人上癮。

  • 納德拉警告“令牌最大化”現象,即濫用最強大的AI模型處理簡單任務。
  • 他強調前沿模型應保留給複雜問題,日常任務使用更經濟的模型。
站內正文

谷歌研究團隊的Gemini-SQL2在文本到SQL基準測試中大幅領先

谷歌研究團隊的Gemini-SQL2將自然語言轉換為可執行的SQL查詢。基於Gemini 3.1 Pro,它在BIRD基準測試中達到80.04%的準確率,遠超OpenAI和Anthropic。谷歌表示該技術可改善其數據服務的自然語言功能。

  • Gemini-SQL2基於Gemini 3.1 Pro,將自然語言轉化為SQL查詢。
  • 在BIRD基準測試中準確率達80.04%,領先OpenAI和Anthropic。
站內正文

微軟SkillOpt:僅憑一個訓練過的Markdown文件,就能讓GPT-5.5大幅提升

微軟與三所中國大學合作開發了SkillOpt方法,通過訓練指令文檔(技能)來優化AI智能體,靈感來自傳統模型訓練。僅需一個簡單的Markdown文件,即可在程序性任務上將GPT-5.5的性能提升約23個點,且該文件可在不同模型和智能體環境(如Codex和Claude Code)間遷移。

  • SkillOpt將技能文檔視為可訓練的外部狀態,使用獨立優化器模型提出有限編輯,僅接受能提升驗證集性能的更改。
  • 在GPT-5.5上,所有六項基準測試平均提升約23個點,尤其對格式嚴格和工具使用任務效果顯著。
站內正文

Claude Fable 5在FrontierMath最難題上領先GPT-5.5達13個百分點

Anthropic的Claude Fable 5在FrontierMath最難級別上達到88%的準確率,較2026年初Opus 4.5低於10%的成績有巨大飛躍。OpenAI的GPT-5.5在同一級別上約為75%。AI數學能力的提升速度正在加快。

  • Claude Fable 5在FrontierMath最難級別上準確率高達88%
  • 相比Opus 4.5早期低於10%的準確率有顯著提升
站內正文

Meta從“代幣最大化”轉向代幣管理,內部AI成本據稱達數十億美元

Meta內部備忘錄顯示,僅內部使用的AI成本就將達到數十億美元。從2027年起,將通過預算、分配和名為“AI Gateway”的中央儀表板來管理代幣消耗。CTO Andrew Bosworth直言:“並非所有行動都是進步,代幣使用量本身不能衡量任何影響。”

  • Meta內部AI成本預計將達到數十億美元
  • 2027年起實施代幣管理,使用AI Gateway儀表板
站內正文

月之暗面開源模型Kimi K2.7 Code:編程能力不及GPT-5.5和Claude,但價格僅為1/12

月之暗面AI發佈了擁有1萬億參數的開源模型Kimi K2.7 Code,專為編程設計。雖在編碼基準測試中仍落後於GPT-5.5和Claude Opus 4.8,但價格僅為它們的幾分之一。關鍵問題不在於它是否是最好的模型,而是相同預算下,額外的運行次數能否彌補質量差距。

  • Kimi K2.7 Code是月之暗面推出的開源編程模型,擁有1萬億參數。
  • 在編碼基準上落後於GPT-5.5和Claude Opus 4.8。
站內正文

美國政府強制Anthropic對全球用户禁用Claude Fable 5和Mythos 5

美國政府以“越獄風險”為由,命令Anthropic停止Claude Fable 5和Mythos 5的全球服務。Anthropic在遵守的同時公開反駁,稱漏洞很小且同樣存在於GPT-5.5等競品模型中,並警告此舉可能開創先例,阻礙前沿部署。

  • 美國政府要求Anthropic立即關閉Fable 5和Mythos 5的全球訪問。
  • Anthropic認為漏洞微小,且競爭模型如GPT-5.5也存在類似問題。
站內正文

調查:超半數美國人擔心AI會導致失業和獨立思考能力喪失

Anthropic公司對近5.2萬名美國人進行的調查顯示,64%的受訪者擔心AI會導致失業,56%的人擔心會失去獨立思考能力。日常使用AI的用户擔憂較少,但大多數人仍拒絕在職場中使用AI,即使他們認為AI可以處理某些任務。

  • Anthropic調查近5.2萬名美國人
  • 64%擔心失業,56%擔心失去獨立思考
站內正文

OpenAI 推出靈活速率限制重置功能,Codex 編碼代理引發 AI 價格戰

OpenAI 現允許 Codex 用户存儲速率限制重置次數並手動觸發,無需等待固定計劃到期。Go、Plus、Pro 和 Business 計劃用户各獲得一次免費重置,Plus 和 Pro 用户還可邀請好友解鎖額外重置。

  • Codex 用户可保存速率限制重置並隨時手動使用。
  • Go、Plus、Pro、Business 計劃用户各獲一次免費重置。
站內正文

Anthropic的Claude Fable 5性能提升僅5.7%,但成本翻倍

Claude Fable 5在人工智能分析智能指數中以64.9分位居榜首,並在十個基準測試中的五個創下紀錄。但與Opus 4.8相比,性能提升僅5.7%,而令牌價格翻倍。安全過濾器和回退路由進一步推高了成本。

  • Claude Fable 5在AI指數中得分64.9,創下五項基準紀錄。
  • 相比Opus 4.8,性能僅提升5.7%,但成本翻倍。
站內正文

谷歌與FBI首次聯合起訴中國AI詐騙網絡,OpenAI封禁涉華影響力集羣

谷歌和OpenAI幾乎同時揭露了據稱源自中國的利用AI進行欺詐和隱秘影響力活動的行動。谷歌起訴了一個名為“Outsider Enterprise”的中國網絡犯罪團伙,該團伙利用其AI系統Gemini針對數十萬美國人進行金融詐騙。同時,OpenAI封禁了兩個據稱位於中國的ChatGPT集羣,這些集羣試圖操縱美國科技政策辯論。

  • 谷歌與FBI合作起訴中國犯罪網絡,稱其利用Gemini生成虛假網站和消息進行詐騙。
  • OpenAI封禁兩個集羣,分別針對AI數據中心擴張和貿易政策進行影響力操作。
站內正文

AI行業的平台陷阱開始像微軟那樣了

Anthropic正在為其新的Mythos模型限制某些任務的使用,同時開發直接與其最大客户競爭的應用程序。客户、合作伙伴和投資者均在施加壓力。

  • Anthropic對Mythos模型的部分任務進行限速
  • Anthropic開發與客户競爭的應用程序
站內正文

OpenAI收購Ona,推動Codex向長時間自主編碼任務邁進

OpenAI收購了原名Gitpod的初創公司Ona,該公司專注於AI代理和安全的雲端開發環境,旨在增強Codex執行長時間自主編碼任務的能力。

  • OpenAI收購了德國基爾初創公司Ona(原Gitpod)。
  • Ona專注於AI代理和安全雲端開發環境。
站內正文

傑夫·貝佐斯的人工智能初創公司Prometheus完成120億美元融資,估值達410億美元

傑夫·貝佐斯的人工智能初創公司Prometheus已以410億美元的估值完成120億美元融資輪。該公司去年11月才成立,此前已獲得62億美元種子資金。目前尚未推出任何產品,貝佐斯表示現在分享細節還為時過早。

  • Prometheus完成120億美元融資,估值410億美元
  • 公司去年11月成立,初始種子資金62億美元
站內正文

OpenAI與Anthropic:API代幣價格戰一觸即發

據《華爾街日報》報道,OpenAI正考慮降低API代幣價格以從Anthropic手中爭奪客户,一場價格戰正在醖釀中。

  • OpenAI計劃通過降價吸引Anthropic的客户
  • 價格戰可能影響AI API市場格局
站內正文

Dario Amodei的新論文:AI時代的冷戰劇本

Anthropic發佈了一篇全面的論文和兩個政策框架,呼籲對前沿模型進行具有約束力的審計,並將AI描繪為國家間戰略武器。CEO Dario Amodei以《指環王》的樹人比喻政治系統反應緩慢,警告AI能力呈指數級增長,可能在1-2年內出現“強大AI”。公司提出強制性第三方測試、披露要求和阻止風險模型權力,並制定了應對失業的層級計劃。

  • Amodei用《指環王》樹人比喻政治系統反應緩慢,AI威脅迫在眉睫。
  • Anthropic呼籲對前沿模型進行強制性第三方審計,並賦予政府阻止風險模型的權力。
站內正文

谷歌新開放模型DiffusionGemma:通過噪聲而非逐詞生成文本

谷歌發佈26億參數的DiffusionGemma模型,採用擴散方式生成文本,速度是傳統自迴歸模型的四倍,但質量較低,目前作為實驗工具。

  • DiffusionGemma是26億參數模型,通過噪聲擴散生成文本
  • 速度達每秒1000個token,比傳統模型快4倍
站內正文

OpenAI的IPO推遲?阿爾特曼告訴員工預計“一年內”上市

山姆·阿爾特曼告訴員工,他預計OpenAI將在“一年內”進行IPO,但也可能推遲到2027年。他將此歸因於對自我改進AI的謹慎態度,但分析認為Anthropic更強勁的增長數據和即將進行的IPO可能是真正的原因。

  • 阿爾特曼告訴員工OpenAI可能在一年內上市
  • IPO有可能推遲到2027年
站內正文

SpaceX計劃將數據中心送入軌道,馬斯克稱這沒什麼大不了的

SpaceX計劃在IPO前將數據中心送入太空,馬斯克認為這幾乎是微不足道的工程問題。首顆AI衞星的性能相當於一個英偉達GB300機架,但谷歌研究表明實際AI訓練可能需要約一萬顆緊密耦合的衞星。

  • SpaceX計劃發射太空數據中心,馬斯克認為工程難度低。
  • 首顆AI衞星性能堪比單個英偉達GB300機架。
站內正文

德國里程碑裁決:Google AI 概覽視為自身言論,須為虛假答案負責

德國一家地區法院裁定,谷歌對其 AI 搜索摘要的內容直接負責,認為先前的搜索引擎責任豁免不適用於 AI 生成內容。該案中,AI 錯誤地將兩家出版商與欺詐關聯,且所提主張未出現在原始來源中。此裁決可能為全球 AI 內容責任樹立先例。

  • 德國地區法院裁定谷歌對 AI 概覽內容直接負責
  • 法院認為搜索引擎的有限責任保護不適用於 AI 生成的回答
站內正文

北京2950億美元AI基礎設施建設要求80%國產芯片,封鎖美國供應商

中國計劃未來五年投資約2萬億元人民幣建設全國性AI數據中心網絡,其中至少80%的技術來自國內供應商如華為。同時,台灣考慮將向中國走私AI芯片定為刑事犯罪。

  • 中國五年內投資約2萬億元建設AI數據中心網絡
  • 至少80%的芯片等設備來自華為等國內供應商
站內正文

蘋果智能借助谷歌和英偉達再出發

在WWDC 2026上,蘋果展示了重建版Siri,該助手基於與谷歌共同開發的基礎模型,並在複雜查詢時使用英偉達GPU。

  • 蘋果在WWDC 2026上推出了重建版Siri。
  • 新Siri基於與谷歌合作開發的基礎模型。
站內正文

OpenAI表示“完全自動化一切不是我們想要的未來”

OpenAI正從2028年實現全自主AI研究的目標上後退,轉而談論人機“協同”。阿爾特曼和帕喬基還呼籲建立國際機構,必要時可減緩前沿AI發展。

  • OpenAI放棄2028年全自主AI目標,轉向人機協同。
  • CEO阿爾特曼和科學家帕喬基呼籲建立國際監管機構。
站內正文

OpenAI稱上市是“一系列複雜的權衡”,對時機不確定

OpenAI已向SEC秘密提交S-1註冊文件,邁出IPO的第一步。公司表示沒有確定時間表,並稱這是“一系列複雜的權衡”。競爭對手Anthropic近期也提交了IPO文件,增加了壓力。

  • OpenAI秘密提交S-1文件,啓動IPO程序。
  • 公司強調沒有時間表,上市決策複雜。
站內正文

微軟研究表明:詳細描述比模型規模更重要,Lens以38億參數高效生成圖像

微軟研究院推出僅38億參數的文本到圖像模型Lens,利用GPT-4.1生成的8億條詳細描述進行訓練,在多個基準測試中媲美數倍於其規模的模型,訓練計算量僅為同類模型的五分之一。Lens-Turbo可在不到一秒內生成圖像,代碼和權重以MIT許可證開源。

  • Lens使用GPT-4.1生成的8億條詳細描述替代模糊的網絡替代文本,大幅提升訓練效率。
  • 僅38億參數,Lens在基準測試中匹配或超越數倍於其規模的模型。
站內正文

英特爾獲第二春:谷歌與英偉達探索其作為台積電AI芯片替代供應商

谷歌已向英特爾訂購超過300萬顆AI芯片,計劃於2028年交付。英偉達也正在測試英特爾的製造工藝,用於其下一代Feynman架構。此舉正值台積電難以滿足AI芯片需求之際,英特爾長期掙扎的代工業務迎來罕見轉機。

  • 谷歌與英特爾簽訂超過300萬顆AI芯片訂單,交付期為2028年。
  • 英偉達測試英特爾製造工藝,用於其Feynman架構芯片。
站內正文

大多數公司在AI支出上盲目飛行

KPMG調查發現,僅有26%的公司對AI成本有完全可見性,許多公司因代幣計費模式面臨預算失控。

  • KPMG調查:僅26%公司完全掌握AI支出
  • 代幣計費導致財務部門難以預測成本
站內正文

全部來源