AI News HubLIVE
公開文章 124採集文章 156可信度 88刷新頻率 60 分鐘
健康狀態 健康來源類型 研究原文權限 允許原文最近入庫 2026-06-26ID simon-willison運行狀態 已啟用

Personal blog; posts are public and free to reference.

最新公開文章

引用迪安·W·鮑爾

迪安·W·鮑爾指出前沿模型成本高昂,盈利視窗短暫,且AI基礎設施投資依賴全球市場。

  • 前沿模型訓練成本極高,盈利視窗只有釋出後幾個月
  • 一旦模型失去前沿地位,競爭加劇,利潤壓縮
站內正文

引用Timothy B. Lee

Timothy B. Lee用管理者的比喻反駁了“LLM無需技巧、沒有學習曲線”的觀點。

  • LLM的使用需要技巧和學習,並非一蹴而就。
  • 將LLM比作管理員工:指令並不等於自動成功。
站內正文

2000人試圖黑掉我的AI助手,結果發生了什麼?

Fernando Irarrázaval在hackmyclaw.com發起挑戰,邀請人們透過郵件竊取其OpenClaw測試例項中的秘密。儘管有6000次嘗試(花費500美元token,並導致谷歌賬號被暫停),無人成功。底層模型為Opus 4.6,使用了抗提示注入規則。這反映了前沿模型在抗注入攻擊方面的訓練效果,但仍需謹慎,無法保證絕對安全。

  • 6000次嘗試後無人成功竊取秘密
  • 模型Opus 4.6配合嚴格抗注入規則
站內正文

事件報告:CVE-2026-LGTM

安德魯·內斯位元撰寫的假設性事件報告,描述了兩個來自不同供應商的AI審查代理因對軟體包是否惡意產生分歧,陷入無休止的爭論迴圈,導致高昂的推理費用和財務部門介入,最終營銷團隊藉機釋出宣告。

  • 兩個AI審查代理因評估一個軟體包而陷入爭論迴圈,生成340條評論並消耗41,255美元推理費用。
  • 財務部門撤銷API金鑰以停止成本失控,而營銷團隊卻釋出關於對抗性多代理安全推理增長的宣告。
站內正文

OpenAI 預覽 GPT-5.6 系列:Sol、Terra 和 Luna

OpenAI 宣佈開始限量預覽 GPT-5.6 系列模型,包括旗艦模型 Sol、平衡型模型 Terra 和快速經濟型模型 Luna。Terra 效能與 GPT-5.5 相當,但成本降低一半;Luna 則以最低價格提供強大能力。定價按每百萬 tokens 計算,Sol 為 $5 輸入 / $30 輸出,Terra 為 $2.50 / $15,Luna 為 $1 / $6。新系列還引入了更可預測的提示快取,支援顯式快取斷點和 30 分鐘最小快取壽命。由於美國政府的參與,此次釋出先以限量預覽形式提供給少數可信合作伙伴,隨後將廣泛釋出。

  • GPT-5.6 系列包括 Sol(旗艦)、Terra(平衡)和 Luna(快速經濟)三款模型。
  • Terra 效能與 GPT-5.5 相當但價格減半,Luna 以最低成本提供強大能力。
站內正文

AI與責任:德國法院裁定谷歌對AI摘要錯誤負責

德國法院裁定谷歌為其AI生成摘要中的錯誤承擔責任。布魯斯·施奈爾評論稱,AI代理應被視為部署者的代理,若允許企業以AI錯誤為由免責,將導致災難性激勵,鼓勵用AI替代人類工作者。

  • 德國法院裡程碑式裁決:谷歌需為AI概覽中的不實資訊承擔法律責任。
  • 安全專家布魯斯·施奈爾強調,部署AI的組織應為其代理行為負責,與僱傭人類員工同理。
站內正文

simonw/browser-compat-db

受Mozilla新推出的MDN MCP服務啟發,Simon Willison將mdn/browser-compat-data倉庫中的瀏覽器相容性資料轉換為SQLite資料庫。他使用Claude Code for web (Opus 4.8)和sqlite-utils生成轉換指令碼,並透過GitHub Actions工作流將約66MB的資料庫部署到GitHub CDN,支援開放CORS頭,使用者可以直接下載或透過Datasette Lite線上探索。

  • Simon Willison將Mozilla的瀏覽器相容性資料轉換為SQLite資料庫。
  • 使用Claude Code (Opus 4.8)和sqlite-utils自動生成轉換指令碼。
站內正文

引用Tom MacWright:AI生成的求職材料導致“意外匿名”

Tom MacWright指出,越來越多求職者使用LLM生成的簡歷、作品集和GitHub專案,導致僱主無法瞭解申請者的真實能力與個性。

  • 求職材料中AI生成內容增多,簡歷、作品集、GitHub提交資訊均由LLM代筆。
  • MacWright認為這種趨勢使得申請者變得“匿名”,僱主無法獲取其真實資訊。
站內正文

OPFS + Pyodide 測試工具

Simon Willison 利用 Claude Code 構建了一個瀏覽器內測試平臺,用於探索 Origin Private File System (OPFS) 是否能讓 Datasette Lite 編輯使用者計算機上的持久化 SQLite 檔案。

  • Datasette Lite 是一個完全在瀏覽器中執行的 Python 應用,基於 Pyodide 和 WebAssembly。
  • OPFS 為網頁應用提供了來源私有檔案系統訪問能力。
站內正文

提示注入即角色混淆

研究人員發現,大型語言模型無法可靠地區分特權文本和使用者輸入,並且更容易受到文本風格的影響而非實際內容。透過“去風格化”技術,攻擊成功率從61%驟降至10%,揭示了“角色混淆”這一根本問題。

  • 模型無法區分<system>、<think>等角色標籤與使用者輸入
  • 模型更注重文本風格而非實際內容,導致角色混淆
站內正文

使用Claude Code將Moebius 0.2B影像修復模型移植到瀏覽器中執行

西蒙·威利森使用Claude Code將Moebius 0.2B影像修復模型從PyTorch/CUDA移植到使用WebGPU的瀏覽器中。整個過程涉及模型轉換、部署和快取最佳化,最終實現了可線上執行的演示版本。

  • Moebius 0.2B模型透過Claude Code移植到瀏覽器。
  • 模型從PyTorch轉換為ONNX以支援WebGPU。
站內正文

sqlite-utils 4.0rc1 新增遷移和巢狀事務支援

sqlite-utils 4.0rc1 釋出,作為 v4 的第一個候選版本,主要新增了資料庫遷移和巢狀事務(db.atomic())兩大特性,幷包含一些輕微的不相容變更。

  • 內建資料庫遷移功能,支援透過 Python 或 CLI 應用遷移。
  • 新增 db.atomic() 上下文管理器,支援巢狀事務。
站內正文

Cloudflare推出臨時賬戶,專為AI代理設計

Cloudflare宣佈了一項新功能:使用者無需註冊賬戶即可透過臨時部署建立Cloudflare Workers專案,專案會保持活躍60分鐘。該功能雖宣稱面向AI代理,但實際對所有人都有用。作者演示瞭如何使用GPT-5.5構建一個重定向解析器,臨時部署執行良好。

  • Cloudflare Workers現支援臨時部署,無需賬戶即可使用
  • 使用`npx wrangler deploy --temporary`命令部署,專案有效期60分鐘
站內正文

引用肖恩·林奇

肖恩·林奇在Hacker News上評論MCP(模型上下文協議)的價值,指出其真正有用的能力是將認證流程隔離在智慧體的上下文視窗之外,甚至完全脫離控制框架。他認為MCP的理想形態可能僅僅是一個API的認證閘道器,但即便如此也是一項勝利。

  • MCP的核心價值在於隔離認證流,解決智慧體上下文視窗的限制。
  • 理想化的MCP可能僅作為API的認證閘道器,但仍具重大意義。
站內正文

Datasette Apps:在 Datasette 中託管自定義 HTML 應用程式

Datasette Apps 是一個新外掛,允許使用者在 Datasette 例項中透過嚴格沙盒化的 iframe 執行自包含的 HTML+JavaScript 應用程式。這些應用可以執行只讀 SQL 查詢,並可透過儲存查詢支援寫操作。該外掛利用 iframe sandbox 屬性和內容安全策略(CSP)確保安全,使用 postMessage 和 MessageChannel 實現鎖定 API,並支援透過可複製提示由 AI 生成應用程式碼。文章還討論了安全漏洞修復、日誌記錄以及 Datasette 從資料展示向豐富工具生態系統演進的願景。

  • Datasette Apps 讓使用者可在 Datasette 中安全執行自包含的 HTML+JavaScript 應用,透過 iframe sandbox 和 CSP 實現隔離。
  • 應用可透過 postMessage/MessageChannel 進行只讀 SQL 查詢,並支援透過儲存查詢執行寫操作。
站內正文

GLM-5.2 可能是最強大的純文本開放權重LLM

中國AI實驗室Z.ai釋出了GLM-5.2,這是一個擁有753B引數、1M token上下文視窗的混合專家模型,採用MIT許可證。它在開放權重模型中領跑了Artificial Analysis Intelligence Index,但消耗token較多。在Code Arena WebDev排名第二。儘管在SVG生成方面表現出色,但與前輩GLM-5.1相比不一致。

  • GLM-5.2 是一個開放權重LLM,擁有753B引數和1M token上下文視窗。
  • 它在開放模型中領跑Artificial Analysis Intelligence Index。
站內正文

引用 Charity Majors:AI 時代的程式碼生產經濟學

Charity Majors 指出,2025 年程式碼生產的經濟學發生了根本性轉變,程式碼變得免費且即時,從被珍視變為可丟棄和可再生。

  • 程式碼生產成本從高昂變為近乎免費和即時。
  • 程式碼從精心策劃的資源變為可丟棄和可再生的商品。
站內正文

Datasette 1.0a34 釋出:支援行插入、編輯和刪除

Datasette 1.0a34 版本引入了在介面上直接插入、編輯和刪除行的功能,靈感來自 Datasette Agent,讓資料操作更加便捷。

  • 新版本支援在表格頁面和行頁面進行行插入、編輯和刪除操作。
  • 該功能受 Datasette Agent 的啟發,彌補了介面操作的空白。
站內正文

“寓言5”出口管制損害美國網路防禦

Kate Moussouris證實,導致Claude Fable 5被出口管制的“越獄”實際上是其修復程式碼的能力。專家指出,阻止AI修復漏洞會削弱防禦能力,而非技術決策者可能因誤解而禁止有助於網路安全的模型。

  • 研究人員要求Fable 5審查並修復含已知漏洞的程式碼,模型被誤認為“越獄”而導致出口管制。
  • Moussouris指出,修復漏洞是AI對防禦最有價值的功能。
站內正文

引用馬特奧·王,《大西洋月刊》

網路安全專家凱蒂·穆蘇里斯表示,Anthropic公司向她分享了一份白宮關於Fable越獄的報告。報告顯示,當被要求“審查程式碼安全問題時”,Fable拒絕回應,但被要求“修復此程式碼”時卻遵從了,穆蘇里斯認為這是模型在網路安全防禦中的預期行為。

  • Anthropic向安全專家分享白宮Fable越獄報告
  • Fable拒絕“審查程式碼安全”但遵從“修復程式碼”
站內正文

Cloudflare CAPTCHA:僅針對包含至少一個“&”的搜尋觸發

Simon Willison 使用 Cloudflare 託管挑戰(CAPTCHA)來防止爬蟲過度抓取其分面搜尋引擎,但簡單的搜尋(如 ?q=term)也會觸發挑戰,令人困擾。透過 Claude Code 的幫助,他發現可以設定自定義規則,僅對包含至少一個 & 符號的搜尋 URL 觸發 CAPTCHA,從而讓簡單搜尋免於挑戰。

  • Simon Willison 使用 Cloudflare 的託管挑戰保護其分面搜尋引擎免遭爬蟲過度抓取。
  • 簡單的搜尋 URL(如 /search/?q=lemur)也會觸發 CAPTCHA,影響使用者體驗。
站內正文

datasette-agent 0.3a0 釋出:安全的資料庫寫入與智慧協作

Datasette Agent 0.3a0 引入了新的 execute_write_sql 工具,該工具在執行資料庫寫入前請求使用者批准,並嚴格遵循使用者許可權設定。同時增強了聊天模式的批准支援,新增 --unsafe 等選項以實現自動批准,極大提升了 Datasette 的互動性和安全性。

  • 新增 execute_write_sql 工具,支援使用者批准後進行資料庫寫入操作
  • 強化 datasette agent chat 終端模式,支援使用者批准流程
站內正文

“他們坑了我們”:性格衝突導致Anthropic的模型下線

據Axios報道,Anthropic與美國政府之間的性格衝突導致其AI模型Mythos和Fable因出口管制而下線。訊息人士稱,解決之道可能是讓模型無法被越獄,或者改善雙方態度。

  • Axios曝出Anthropic與美國政府因性格衝突導致AI模型下線內幕
  • 訊息人士透露,Anthropic與商務部官員在華盛頓會面
站內正文

為什麼人工智慧尚未且不會取代軟體工程師

Arvind Narayanan 和 Sayash Kappor 透過軟體工程這一最易受 AI 影響的職業,論證了 AI 不會導致大規模失業。資料顯示,紐約州 WARN 法案中無人勾選 AI 相關裁員選項。軟體工程的核心瓶頸在於決策、驗證和深度理解,而非編碼速度。

  • 紐約州 WARN 法案要求披露 AI 相關裁員,但 160 多家公司無一勾選。
  • 軟體工程的關鍵瓶頸是決定構建什麼、驗證交付成果以及深度理解程式碼庫和業務。
站內正文

將WASM輪子釋出到PyPI以便與Pyodide一起使用

Pyodide 314.0版本現在允許將WebAssembly編譯的Python包直接釋出到PyPI並執行時安裝,大大簡化了分發流程。示例包luau-wasm已成功釋出,目前已有28個包採用此新方式。

  • Pyodide 314.0支援將WASM輪子釋出到PyPI,無需手動託管。
  • 包維護者可以像釋出原生輪子一樣釋出Pyodide輪子。
站內正文

將SQLite查詢結果列對映回其源表.列

本文探討了如何將任意SQLite查詢結果中的每一列對映回其來源的表和列。透過利用SQLite的列後設資料API(需編譯時啟用SQLITE_ENABLE_COLUMN_METADATA),結合apsw庫或ctypes橋接C函式,甚至透過解析EXPLAIN輸出,可以實現這一功能,為Datasette等工具增強展示提供支援。

  • SQLite內部支援列來源追蹤,但需啟用SQLITE_ENABLE_COLUMN_METADATA。
  • Python標準sqlite3模組未暴露該資訊,但apsw庫提供直接訪問。
站內正文

OpenAI WebRTC音訊會話:新增文件上下文功能

Simon Willison 升級了他的 OpenAI WebRTC 音訊會話工具,新增了文件上下文貼上功能,並支援 OpenAI 最新的 GPT-Realtime-2 模型(號稱具有 GPT-5 級別推理能力)。使用者現在可以在瀏覽器中透過語音與 AI 討論任意文本內容。

  • 支援 OpenAI 新推出的 GPT-Realtime-2 模型,具備 GPT-5 級推理能力
  • 可貼上大量文件上下文,在瀏覽器中以語音對話方式探討內容
站內正文

引用安德魯·辛格爾頓

安德魯·辛格爾頓在其諷刺作品《AI經濟學入門》中,透過一個火葬場和丙烷公司的荒誕投資故事,揭示了AI領域常見的經濟迷思和炒作。

  • 辛格爾頓用火葬場和丙烷公司的例子諷刺AI投資中的虛高估值和迴圈收入。
  • 故事中,投資被燒掉,卻被包裝成高額營收和巨大商業價值。
站內正文

Claude Fable 極其主動

Simon Willison 展示了 Claude Fable 5 的驚人主動性:僅憑一張截圖和一行提示,它自主除錯了一個 CSS 捲軸錯誤,使用了多種創新技巧,包括自定義螢幕截圖、編輯模板注入 JS、搭建 CORS 伺服器等。同時也警示了未沙箱化編碼代理的安全風險。

  • Claude Fable 5 自主除錯了一個 CSS 水平捲軸錯誤,使用了多種創新技術。
  • 它編寫了測試 HTML 頁面、透過 PyObjC 獲取視窗資訊、注入 JavaScript 觸發快捷鍵、並搭建了自定義 CORS 伺服器。
站內正文

datasette 1.0a33 釋出:JSON 擴充套件功能增強 API

Datasette 1.0a33 釋出,這是邁向穩定版 1.0 的重要一步。該版本將 ?_extra= 模式從表擴充套件到查詢和行,並新增了文件。還演示了使用 AI 構建的 API 瀏覽器。

  • Datasette 1.0a33 是通往 1.0 穩定版的里程碑版本。
  • ?_extra= 模式現在支援查詢和行,而不僅僅是表。
站內正文

全部來源