AI News HubLIVE

今日必讀

模型

在Fable 5禁令之後,Anthropic與19家組織共同發起開源安全機構

Linux基金會推出Akrites,這是一個協調開源軟件漏洞發現、修復和披露的機構,創始成員包括Anthropic、AWS、谷歌、微軟等20家組織。該倡議旨在應對AI驅動的漏洞發現帶來的挑戰,因為現有協調模式已跟不上速度。

  • Anthropic在Fable 5被禁後,與其他19家組織共同發起Akrites,這是一個由Linux基金會管理的開源安全協調機構。
  • Akrites通過共享的SIRT團隊整合漏洞報告,減少重複,加快關鍵開源項目的修復速度。
站內正文

美國政府剛剛告知OpenAI誰可以使用下一個GPT-5.6模型

美國政府出於網絡安全考量,指示OpenAI對即將發佈的GPT-5.6模型實施訪問限制,僅限政府批准的合作伙伴使用。此舉引發行業爭議,有專家認為這將推動開發者轉向開源或中國模型,可能削弱美國在AI領域的領先地位。

  • 特朗普政府要求OpenAI分階段發佈GPT-5.6,並逐客户審批訪問權限。
  • OpenAI CEO薩姆·奧爾特曼對此表示不滿,稱這不是長期模式。
站內正文

事件報告:CVE-2026-LGTM

安德魯·內斯比特撰寫的假設性事件報告,描述了兩個來自不同供應商的AI審查代理因對軟件包是否惡意產生分歧,陷入無休止的爭論循環,導致高昂的推理費用和財務部門介入,最終營銷團隊藉機發佈聲明。

  • 兩個AI審查代理因評估一個軟件包而陷入爭論循環,生成340條評論並消耗41,255美元推理費用。
  • 財務部門撤銷API密鑰以停止成本失控,而營銷團隊卻發佈關於對抗性多代理安全推理增長的聲明。
站內正文

深度代理的提示緩存

瞭解Deep Agents如何利用提示緩存,在無需額外配置的情況下,將各大模型提供商的LLM Token成本降低高達80%。

  • 提示緩存通過存儲模型狀態,可使推理Token成本降低41-80%。
  • 不同模型提供商對緩存控制的支持各不相同,增加了跨提供商優化的難度。
站內正文

OpenAI 預覽 GPT-5.6 系列:Sol、Terra 和 Luna

OpenAI 宣佈開始限量預覽 GPT-5.6 系列模型,包括旗艦模型 Sol、平衡型模型 Terra 和快速經濟型模型 Luna。Terra 性能與 GPT-5.5 相當,但成本降低一半;Luna 則以最低價格提供強大能力。定價按每百萬 tokens 計算,Sol 為 $5 輸入 / $30 輸出,Terra 為 $2.50 / $15,Luna 為 $1 / $6。新系列還引入了更可預測的提示緩存,支持顯式緩存斷點和 30 分鐘最小緩存壽命。由於美國政府的參與,此次發佈先以限量預覽形式提供給少數可信合作伙伴,隨後將廣泛發佈。

  • GPT-5.6 系列包括 Sol(旗艦)、Terra(平衡)和 Luna(快速經濟)三款模型。
  • Terra 性能與 GPT-5.5 相當但價格減半,Luna 以最低成本提供強大能力。
站內正文
政策

在Pixel上通過凍結的多token預測加速Gemini Nano模型

Google研究人員提出了一種方法,將多token預測(MTP)改造到已部署的Gemini Nano v3模型上,無需重新訓練主幹網絡,從而在移動設備上實現更快的推理速度和更低的能耗。該方法在Pixel 9和10系列上已部署,使AI通知摘要和校對等功能速度提升50%以上。

  • 通過凍結的主幹網絡和輕量級MTP頭部,實現了對現有模型的無縫加速,避免了單獨草稿模型的內存開銷。
  • 零拷貝架構讓MTP頭部直接利用主模型的KV緩存,減少了130MB內存佔用,並消除了草稿預填充延遲。
站內正文

AI輔助軟件移植的可發現證據

本文探討了AI輔助軟件移植過程中產生的可發現證據,包括代碼差異、註釋模式及移植軌跡,並分析了這些證據對軟件驗證和審計的影響。

  • AI輔助移植會留下可追蹤的代碼空間證據
  • 這些證據有助於驗證移植的正確性和完整性
站內正文
機械人

亞馬遜Prime Day三星最佳優惠:Galaxy手機、平板電腦等大幅降價

亞馬遜Prime Day進入最後一天,三星產品仍有大幅折扣,包括手機、平板、電視等。ZDNET編輯精選最值得關注的優惠。

  • Prime Day 2026於6月23日至26日舉行,但優惠已提前開始。
  • 三星產品折扣力度大,尤其是手機、電視和筆記本電腦。
站內正文
Agent

如何判斷我們——以及人工智能——是否在行善

本文探討了如何識別人類和AI在行動中是否選擇了善。作者提出三個指標:手段與目的(康德和克爾凱郭爾)、惡習與美德(亞里士多德)、淺思與深思(薩爾茨伯格和斯賓諾莎)。雖然善的本質難以定義,但這些指標可以幫助我們和AI在決策時保持正軌。

  • 康德和克爾凱郭爾強調手段與目的的統一,AI不應為達到目的採取不道德手段。
  • 亞里士多德認為美德是惡習之間的平衡,AI可以參考但本身無法實踐美德。
站內正文

更大的上下文窗口是編程智能體的錯誤抽象

更大的上下文窗口雖然有用,但對於編程智能體而言,連續性比上下文更重要。文章區分了上下文和記憶,指出檢索不足以解決問題,並介紹了Sigilix提出的記憶原生智能體方法,該方法通過持久可信的底層存儲來繼承先前的決定和修正,從而避免每次從零開始。文章還討論了一個較小模型(Boreas)在記憶原生設置下如何勝過更強模型,以及記憶系統的潛在陷阱和設計原則。

  • 上下文大小不等於連續性;更大的窗口能承載更多文本,但不決定什麼值得記憶。
  • 檢索只能回答“什麼文本可能相關”,不能回答“代碼庫已經教會我們什麼”。
站內正文
其餘更新(12 條)
Agent

AI編程代幣成本或將超過使用它們的開發人員薪資

Gartner指出,隨着AI編程代幣從按座位許可轉向按消費定價,開發者面臨成本急劇上升的問題,每月賬單可能高達2萬美元。缺乏成本控制工具和透明度,導致token消費激增卻未必帶來生產力提升。Gartner建議優化token消耗,採用上下文工程和模型路由策略。預測到2028年,AI編程成本將超過全球平均開發者薪資。

  • AI編程代幣從按座位許可轉向按消費定價,成本飆升
  • 缺乏成本控制和透明度,token消費激增與生產力提升無直接關聯
站內正文

智能模型路由:直接集成於Claude、Codex和Cursor的模型路由工具

Weave Router是一個開源的智能模型路由工具,可自動為每次請求選擇最佳AI模型,支持多種API格式,能降低40-70%的成本。

  • 基於Avengers-Pro 2集羣評分器,每次請求自動路由到最佳模型
  • 支持Anthropic、OpenAI、Gemini等多種API格式,以及OpenRouter的開放模型
站內正文

一個免費的檢查器,用於檢查AI搜索引擎能否引用你的網站

這款免費的GEO檢查器可檢測你的網站在ChatGPT、Claude、Perplexity和Gemini等AI搜索引擎中的可見性,涵蓋7個技術層,包括llms.txt、結構化數據、服務目錄API等,並提供評分和改進建議。

  • 檢查7個AI發現層:llms.txt、結構化數據、服務目錄API、OpenAPI規範、Agent Card、健康端點和機器人與站點地圖。
  • 免費使用,無需註冊,立即獲得A-F等級評分。
站內正文

Show HN:TickerPro – 一個面向美國股票的AI研究終端

TickerPro 是一個AI輔助的股票研究終端,幫助投資者發現和分析美國股票。它由一對夫婦為簡化自己的研究流程而構建,提供個性化推薦、實時數據和敍事驅動分析,並針對標準LLM的不足進行了優化。

  • TickerPro 提供基於投資組合和風格的AI個性化股票推薦。
  • 支持深入調研商業模式、財務數據和轉錄,並生成AI概覽。
站內正文

無垃圾開源貢獻最佳實踐清單(使用AI或不使用)

一份關於在開源項目中如何避免“AI垃圾”貢獻的檢查清單,涵蓋從理解項目到提交貢獻的完整流程,強調信任建立與高質量貢獻。

  • 提供12條貢獻最佳實踐,適用於使用AI或不使用AI的貢獻者。
  • 強調理解項目、參與社區、謹慎使用AI工具。
站內正文

低成本前沿AI:開源工作者與閉源顧問的組合方案

本文介紹了一種開源工作者(如Kimi-K2.6或GLM-5.2)與閉源前沿顧問(Claude Opus 4.8)相結合的AI代理架構。該方案在SWE-bench Pro、Terminal-Bench 2.1和Legal Agent Bench三個基準測試中均實現了穩定性能提升,同時將推理成本降低19%至67%。GLM-5.2搭配顧問在Terminal-Bench上達到與Opus相當的水平(約80%),在Legal Agent Bench上甚至超越Opus,成本卻低40%。

  • 開源工作者(Kimi-K2.6或GLM-5.2)端到端驅動任務,在最終階段諮詢閉源前沿模型(Claude Opus 4.8)一次。
  • SWE-bench Pro提升4至7個百分點,Terminal-Bench 2.1提升4至8個百分點,Legal Agent Bench提升1至4個百分點。
站內正文
模型

OpenAI發佈GPT-5.6,正值美國AI監管爭議之際

在特朗普政府要求推遲發佈後不到24小時,OpenAI推出了GPT-5.6模型套件,包括旗艦版Sol、中端版Terra和經濟型Luna。該模型在編碼、網絡安全和生物學方面表現突出,並具備長時自主AI任務能力。定價方面,Sol每百萬token輸入5美元、輸出30美元,約為Anthropic Claude Fable 5的一半。OpenAI在公告中重點強調了安全性和潛在濫用風險,並提到與政府合作進行預覽期監管。

  • OpenAI應特朗普政府要求,在推遲後迅速發佈GPT-5.6套件(Sol、Terra、Luna)。
  • Sol定價較競爭對手Anthropic的Claude Fable 5便宜近一半。
站內正文

AI網關基準測試:GoModel vs LiteLLM vs Portkey vs Bifrost

本文對比了四種AI網關在請求路徑上的運行時開銷,包括延遲、吞吐量、內存、CPU、冷啓動時間和鏡像大小。測試結果顯示,GoModel在幾乎所有指標上表現最優,而LiteLLM則因資源消耗巨大而成為短板。文章還討論了網關的開源中立性和對本地模型部署的影響。

  • GoModel在所有測試中表現最佳:1.8毫秒延遲、4900請求/秒吞吐量、37MB內存佔用、0.56秒冷啓動。
  • LiteLLM的資源佔用過高:2.3GB內存、25.5秒冷啓動、372MB鏡像,成為性能瓶頸。
站內正文
研究

這些是我自己會買的20多個Prime Day最佳手機優惠

Prime Day 2026即將結束。ZDNET專家精選仍有貨的最佳手機優惠,包括iPhone、三星、谷歌Pixel和摩托羅拉的折扣。提供選購建議和購買時機。

  • Prime Day 2026於6月23日至26日舉行,今天是最後一天。
  • 熱門優惠包括谷歌Pixel 10、三星Galaxy S26及多款iPhone。
站內正文
芯片

AI 助威、AI 棄權與AI 戰略轉向

本文通過社會製圖方法,分析了圍繞人工智能的三種極化立場:技術樂觀主義的AI助威、全面拒絕的AI棄權,以及承認風險但尋求干預的AI戰略轉向。作者認為,放棄不等於道德清白,而參與也不等於認可,關鍵在於培養辨別力和約束力。

  • 社會製圖揭示了AI辯論中三種主要立場:助威、棄權和戰略轉向。
  • AI棄權雖保持道德清晰,但可能高估拒絕的槓桿作用。
站內正文
工具

如何在iOS 27相機應用中使用Siri模式,詢問所見的任何事物

在iOS 27開發者測試版中,相機應用新增了Siri模式,允許用户通過AI對視野內的物體提問。該功能基於iOS 18.2的視覺智能升級而來,但更便於直接在相機內使用。早期測試存在一些錯誤和等待時間問題。

  • iOS 27相機中的Siri模式可對所見物體進行實時AI查詢。
  • 相比視覺智能,該模式無需退出相機應用即可啓動。
站內正文
政策

大衞·奧特爾被任命為經濟學系主任

自1999年任教於麻省理工學院的大衞·奧特爾被任命為經濟學系主任,將於7月1日生效。奧特是人工智能與未來工作領域的領先研究者,他的研究聚焦於技術變革和全球化對勞動力市場的影響。

  • 大衞·奧特爾自1999年起在麻省理工學院任教,被任命為經濟學系主任。
  • 他是人工智能與未來工作研究領域的領軍人物,關注技術變革對就業和收入的影響。