AI News HubLIVE
公開文章 124採集文章 156可信度 88刷新頻率 60 分鐘
健康狀態 健康來源類型 研究原文權限 允許原文最近入庫 2026-06-26ID simon-willison運行狀態 已啟用

Personal blog; posts are public and free to reference.

最新公開文章

引用迪安·W·鮑爾

迪安·W·鮑爾指出前沿模型成本高昂,盈利窗口短暫,且AI基礎設施投資依賴全球市場。

  • 前沿模型訓練成本極高,盈利窗口只有發佈後幾個月
  • 一旦模型失去前沿地位,競爭加劇,利潤壓縮
站內正文

引用Timothy B. Lee

Timothy B. Lee用管理者的比喻反駁了“LLM無需技巧、沒有學習曲線”的觀點。

  • LLM的使用需要技巧和學習,並非一蹴而就。
  • 將LLM比作管理員工:指令並不等於自動成功。
站內正文

2000人試圖黑掉我的AI助手,結果發生了什麼?

Fernando Irarrázaval在hackmyclaw.com發起挑戰,邀請人們通過郵件竊取其OpenClaw測試實例中的秘密。儘管有6000次嘗試(花費500美元token,並導致谷歌賬號被暫停),無人成功。底層模型為Opus 4.6,使用了抗提示注入規則。這反映了前沿模型在抗注入攻擊方面的訓練效果,但仍需謹慎,無法保證絕對安全。

  • 6000次嘗試後無人成功竊取秘密
  • 模型Opus 4.6配合嚴格抗注入規則
站內正文

事件報告:CVE-2026-LGTM

安德魯·內斯比特撰寫的假設性事件報告,描述了兩個來自不同供應商的AI審查代理因對軟件包是否惡意產生分歧,陷入無休止的爭論循環,導致高昂的推理費用和財務部門介入,最終營銷團隊藉機發佈聲明。

  • 兩個AI審查代理因評估一個軟件包而陷入爭論循環,生成340條評論並消耗41,255美元推理費用。
  • 財務部門撤銷API密鑰以停止成本失控,而營銷團隊卻發佈關於對抗性多代理安全推理增長的聲明。
站內正文

OpenAI 預覽 GPT-5.6 系列:Sol、Terra 和 Luna

OpenAI 宣佈開始限量預覽 GPT-5.6 系列模型,包括旗艦模型 Sol、平衡型模型 Terra 和快速經濟型模型 Luna。Terra 性能與 GPT-5.5 相當,但成本降低一半;Luna 則以最低價格提供強大能力。定價按每百萬 tokens 計算,Sol 為 $5 輸入 / $30 輸出,Terra 為 $2.50 / $15,Luna 為 $1 / $6。新系列還引入了更可預測的提示緩存,支持顯式緩存斷點和 30 分鐘最小緩存壽命。由於美國政府的參與,此次發佈先以限量預覽形式提供給少數可信合作伙伴,隨後將廣泛發佈。

  • GPT-5.6 系列包括 Sol(旗艦)、Terra(平衡)和 Luna(快速經濟)三款模型。
  • Terra 性能與 GPT-5.5 相當但價格減半,Luna 以最低成本提供強大能力。
站內正文

AI與責任:德國法院裁定谷歌對AI摘要錯誤負責

德國法院裁定谷歌為其AI生成摘要中的錯誤承擔責任。布魯斯·施奈爾評論稱,AI代理應被視為部署者的代理,若允許企業以AI錯誤為由免責,將導致災難性激勵,鼓勵用AI替代人類工作者。

  • 德國法院裏程碑式裁決:谷歌需為AI概覽中的不實信息承擔法律責任。
  • 安全專家布魯斯·施奈爾強調,部署AI的組織應為其代理行為負責,與僱傭人類員工同理。
站內正文

simonw/browser-compat-db

受Mozilla新推出的MDN MCP服務啓發,Simon Willison將mdn/browser-compat-data倉庫中的瀏覽器兼容性數據轉換為SQLite數據庫。他使用Claude Code for web (Opus 4.8)和sqlite-utils生成轉換腳本,並通過GitHub Actions工作流將約66MB的數據庫部署到GitHub CDN,支持開放CORS頭,用户可以直接下載或通過Datasette Lite在線探索。

  • Simon Willison將Mozilla的瀏覽器兼容性數據轉換為SQLite數據庫。
  • 使用Claude Code (Opus 4.8)和sqlite-utils自動生成轉換腳本。
站內正文

引用Tom MacWright:AI生成的求職材料導致“意外匿名”

Tom MacWright指出,越來越多求職者使用LLM生成的簡歷、作品集和GitHub項目,導致僱主無法瞭解申請者的真實能力與個性。

  • 求職材料中AI生成內容增多,簡歷、作品集、GitHub提交信息均由LLM代筆。
  • MacWright認為這種趨勢使得申請者變得“匿名”,僱主無法獲取其真實信息。
站內正文

OPFS + Pyodide 測試工具

Simon Willison 利用 Claude Code 構建了一個瀏覽器內測試平台,用於探索 Origin Private File System (OPFS) 是否能讓 Datasette Lite 編輯用户計算機上的持久化 SQLite 文件。

  • Datasette Lite 是一個完全在瀏覽器中運行的 Python 應用,基於 Pyodide 和 WebAssembly。
  • OPFS 為網頁應用提供了來源私有文件系統訪問能力。
站內正文

提示注入即角色混淆

研究人員發現,大型語言模型無法可靠地區分特權文本和用户輸入,並且更容易受到文本風格的影響而非實際內容。通過“去風格化”技術,攻擊成功率從61%驟降至10%,揭示了“角色混淆”這一根本問題。

  • 模型無法區分<system>、<think>等角色標籤與用户輸入
  • 模型更注重文本風格而非實際內容,導致角色混淆
站內正文

使用Claude Code將Moebius 0.2B圖像修復模型移植到瀏覽器中運行

西蒙·威利森使用Claude Code將Moebius 0.2B圖像修復模型從PyTorch/CUDA移植到使用WebGPU的瀏覽器中。整個過程涉及模型轉換、部署和緩存優化,最終實現了可在線運行的演示版本。

  • Moebius 0.2B模型通過Claude Code移植到瀏覽器。
  • 模型從PyTorch轉換為ONNX以支持WebGPU。
站內正文

sqlite-utils 4.0rc1 新增遷移和嵌套事務支持

sqlite-utils 4.0rc1 發佈,作為 v4 的第一個候選版本,主要新增了數據庫遷移和嵌套事務(db.atomic())兩大特性,幷包含一些輕微的不兼容變更。

  • 內置數據庫遷移功能,支持通過 Python 或 CLI 應用遷移。
  • 新增 db.atomic() 上下文管理器,支持嵌套事務。
站內正文

Cloudflare推出臨時賬户,專為AI代理設計

Cloudflare宣佈了一項新功能:用户無需註冊賬户即可通過臨時部署創建Cloudflare Workers項目,項目會保持活躍60分鐘。該功能雖宣稱面向AI代理,但實際對所有人都有用。作者演示瞭如何使用GPT-5.5構建一個重定向解析器,臨時部署運行良好。

  • Cloudflare Workers現支持臨時部署,無需賬户即可使用
  • 使用`npx wrangler deploy --temporary`命令部署,項目有效期60分鐘
站內正文

引用肖恩·林奇

肖恩·林奇在Hacker News上評論MCP(模型上下文協議)的價值,指出其真正有用的能力是將認證流程隔離在智能體的上下文窗口之外,甚至完全脱離控制框架。他認為MCP的理想形態可能僅僅是一個API的認證網關,但即便如此也是一項勝利。

  • MCP的核心價值在於隔離認證流,解決智能體上下文窗口的限制。
  • 理想化的MCP可能僅作為API的認證網關,但仍具重大意義。
站內正文

Datasette Apps:在 Datasette 中託管自定義 HTML 應用程序

Datasette Apps 是一個新插件,允許用户在 Datasette 實例中通過嚴格沙盒化的 iframe 運行自包含的 HTML+JavaScript 應用程序。這些應用可以執行只讀 SQL 查詢,並可通過存儲查詢支持寫操作。該插件利用 iframe sandbox 屬性和內容安全策略(CSP)確保安全,使用 postMessage 和 MessageChannel 實現鎖定 API,並支持通過可複製提示由 AI 生成應用代碼。文章還討論了安全漏洞修復、日誌記錄以及 Datasette 從數據展示向豐富工具生態系統演進的願景。

  • Datasette Apps 讓用户可在 Datasette 中安全運行自包含的 HTML+JavaScript 應用,通過 iframe sandbox 和 CSP 實現隔離。
  • 應用可通過 postMessage/MessageChannel 進行只讀 SQL 查詢,並支持通過存儲查詢執行寫操作。
站內正文

GLM-5.2 可能是最強大的純文本開放權重LLM

中國AI實驗室Z.ai發佈了GLM-5.2,這是一個擁有753B參數、1M token上下文窗口的混合專家模型,採用MIT許可證。它在開放權重模型中領跑了Artificial Analysis Intelligence Index,但消耗token較多。在Code Arena WebDev排名第二。儘管在SVG生成方面表現出色,但與前輩GLM-5.1相比不一致。

  • GLM-5.2 是一個開放權重LLM,擁有753B參數和1M token上下文窗口。
  • 它在開放模型中領跑Artificial Analysis Intelligence Index。
站內正文

引用 Charity Majors:AI 時代的代碼生產經濟學

Charity Majors 指出,2025 年代碼生產的經濟學發生了根本性轉變,代碼變得免費且即時,從被珍視變為可丟棄和可再生。

  • 代碼生產成本從高昂變為近乎免費和即時。
  • 代碼從精心策劃的資源變為可丟棄和可再生的商品。
站內正文

Datasette 1.0a34 發佈:支持行插入、編輯和刪除

Datasette 1.0a34 版本引入了在界面上直接插入、編輯和刪除行的功能,靈感來自 Datasette Agent,讓數據操作更加便捷。

  • 新版本支持在表格頁面和行頁面進行行插入、編輯和刪除操作。
  • 該功能受 Datasette Agent 的啓發,彌補了界面操作的空白。
站內正文

“寓言5”出口管制損害美國網絡防禦

Kate Moussouris證實,導致Claude Fable 5被出口管制的“越獄”實際上是其修復代碼的能力。專家指出,阻止AI修復漏洞會削弱防禦能力,而非技術決策者可能因誤解而禁止有助於網絡安全的模型。

  • 研究人員要求Fable 5審查並修復含已知漏洞的代碼,模型被誤認為“越獄”而導致出口管制。
  • Moussouris指出,修復漏洞是AI對防禦最有價值的功能。
站內正文

引用馬特奧·王,《大西洋月刊》

網絡安全專家凱蒂·穆蘇里斯表示,Anthropic公司向她分享了一份白宮關於Fable越獄的報告。報告顯示,當被要求“審查代碼安全問題時”,Fable拒絕回應,但被要求“修復此代碼”時卻遵從了,穆蘇里斯認為這是模型在網絡安全防禦中的預期行為。

  • Anthropic向安全專家分享白宮Fable越獄報告
  • Fable拒絕“審查代碼安全”但遵從“修復代碼”
站內正文

Cloudflare CAPTCHA:僅針對包含至少一個“&”的搜索觸發

Simon Willison 使用 Cloudflare 託管挑戰(CAPTCHA)來防止爬蟲過度抓取其分面搜索引擎,但簡單的搜索(如 ?q=term)也會觸發挑戰,令人困擾。通過 Claude Code 的幫助,他發現可以設置自定義規則,僅對包含至少一個 & 符號的搜索 URL 觸發 CAPTCHA,從而讓簡單搜索免於挑戰。

  • Simon Willison 使用 Cloudflare 的託管挑戰保護其分面搜索引擎免遭爬蟲過度抓取。
  • 簡單的搜索 URL(如 /search/?q=lemur)也會觸發 CAPTCHA,影響用户體驗。
站內正文

datasette-agent 0.3a0 發佈:安全的數據庫寫入與智能協作

Datasette Agent 0.3a0 引入了新的 execute_write_sql 工具,該工具在執行數據庫寫入前請求用户批准,並嚴格遵循用户權限設置。同時增強了聊天模式的批准支持,新增 --unsafe 等選項以實現自動批准,極大提升了 Datasette 的交互性和安全性。

  • 新增 execute_write_sql 工具,支持用户批准後進行數據庫寫入操作
  • 強化 datasette agent chat 終端模式,支持用户批准流程
站內正文

“他們坑了我們”:性格衝突導致Anthropic的模型下線

據Axios報道,Anthropic與美國政府之間的性格衝突導致其AI模型Mythos和Fable因出口管制而下線。消息人士稱,解決之道可能是讓模型無法被越獄,或者改善雙方態度。

  • Axios曝出Anthropic與美國政府因性格衝突導致AI模型下線內幕
  • 消息人士透露,Anthropic與商務部官員在華盛頓會面
站內正文

為什麼人工智能尚未且不會取代軟件工程師

Arvind Narayanan 和 Sayash Kappor 通過軟件工程這一最易受 AI 影響的職業,論證了 AI 不會導致大規模失業。數據顯示,紐約州 WARN 法案中無人勾選 AI 相關裁員選項。軟件工程的核心瓶頸在於決策、驗證和深度理解,而非編碼速度。

  • 紐約州 WARN 法案要求披露 AI 相關裁員,但 160 多家公司無一勾選。
  • 軟件工程的關鍵瓶頸是決定構建什麼、驗證交付成果以及深度理解代碼庫和業務。
站內正文

將WASM輪子發佈到PyPI以便與Pyodide一起使用

Pyodide 314.0版本現在允許將WebAssembly編譯的Python包直接發佈到PyPI並運行時安裝,大大簡化了分發流程。示例包luau-wasm已成功發佈,目前已有28個包採用此新方式。

  • Pyodide 314.0支持將WASM輪子發佈到PyPI,無需手動託管。
  • 包維護者可以像發佈原生輪子一樣發佈Pyodide輪子。
站內正文

將SQLite查詢結果列映射回其源表.列

本文探討了如何將任意SQLite查詢結果中的每一列映射回其來源的表和列。通過利用SQLite的列元數據API(需編譯時啓用SQLITE_ENABLE_COLUMN_METADATA),結合apsw庫或ctypes橋接C函數,甚至通過解析EXPLAIN輸出,可以實現這一功能,為Datasette等工具增強展示提供支持。

  • SQLite內部支持列來源追蹤,但需啓用SQLITE_ENABLE_COLUMN_METADATA。
  • Python標準sqlite3模塊未暴露該信息,但apsw庫提供直接訪問。
站內正文

OpenAI WebRTC音頻會話:新增文檔上下文功能

Simon Willison 升級了他的 OpenAI WebRTC 音頻會話工具,新增了文檔上下文粘貼功能,並支持 OpenAI 最新的 GPT-Realtime-2 模型(號稱具有 GPT-5 級別推理能力)。用户現在可以在瀏覽器中通過語音與 AI 討論任意文本內容。

  • 支持 OpenAI 新推出的 GPT-Realtime-2 模型,具備 GPT-5 級推理能力
  • 可粘貼大量文檔上下文,在瀏覽器中以語音對話方式探討內容
站內正文

引用安德魯·辛格爾頓

安德魯·辛格爾頓在其諷刺作品《AI經濟學入門》中,通過一個火葬場和丙烷公司的荒誕投資故事,揭示了AI領域常見的經濟迷思和炒作。

  • 辛格爾頓用火葬場和丙烷公司的例子諷刺AI投資中的虛高估值和循環收入。
  • 故事中,投資被燒掉,卻被包裝成高額營收和巨大商業價值。
站內正文

Claude Fable 極其主動

Simon Willison 展示了 Claude Fable 5 的驚人主動性:僅憑一張截圖和一行提示,它自主調試了一個 CSS 滾動條錯誤,使用了多種創新技巧,包括自定義屏幕截圖、編輯模板注入 JS、搭建 CORS 服務器等。同時也警示了未沙箱化編碼代理的安全風險。

  • Claude Fable 5 自主調試了一個 CSS 水平滾動條錯誤,使用了多種創新技術。
  • 它編寫了測試 HTML 頁面、通過 PyObjC 獲取窗口信息、注入 JavaScript 觸發快捷鍵、並搭建了自定義 CORS 服務器。
站內正文

datasette 1.0a33 發佈:JSON 擴展功能增強 API

Datasette 1.0a33 發佈,這是邁向穩定版 1.0 的重要一步。該版本將 ?_extra= 模式從表擴展到查詢和行,並新增了文檔。還演示了使用 AI 構建的 API 瀏覽器。

  • Datasette 1.0a33 是通往 1.0 穩定版的里程碑版本。
  • ?_extra= 模式現在支持查詢和行,而不僅僅是表。
站內正文

全部來源