AI News HubLIVE
公开文章 124采集文章 156可信度 88刷新频率 60 分钟
健康状态 健康来源类型 研究原文权限 允许原文最近入库 2026-06-26ID simon-willison运行状态 已启用

Personal blog; posts are public and free to reference.

最新公开文章

引用迪安·W·鲍尔

迪安·W·鲍尔指出前沿模型成本高昂,盈利窗口短暂,且AI基础设施投资依赖全球市场。

  • 前沿模型训练成本极高,盈利窗口只有发布后几个月
  • 一旦模型失去前沿地位,竞争加剧,利润压缩
站内正文

引用Timothy B. Lee

Timothy B. Lee用管理者的比喻反驳了“LLM无需技巧、没有学习曲线”的观点。

  • LLM的使用需要技巧和学习,并非一蹴而就。
  • 将LLM比作管理员工:指令并不等于自动成功。
站内正文

2000人试图黑掉我的AI助手,结果发生了什么?

Fernando Irarrázaval在hackmyclaw.com发起挑战,邀请人们通过邮件窃取其OpenClaw测试实例中的秘密。尽管有6000次尝试(花费500美元token,并导致谷歌账号被暂停),无人成功。底层模型为Opus 4.6,使用了抗提示注入规则。这反映了前沿模型在抗注入攻击方面的训练效果,但仍需谨慎,无法保证绝对安全。

  • 6000次尝试后无人成功窃取秘密
  • 模型Opus 4.6配合严格抗注入规则
站内正文

事件报告:CVE-2026-LGTM

安德鲁·内斯比特撰写的假设性事件报告,描述了两个来自不同供应商的AI审查代理因对软件包是否恶意产生分歧,陷入无休止的争论循环,导致高昂的推理费用和财务部门介入,最终营销团队借机发布声明。

  • 两个AI审查代理因评估一个软件包而陷入争论循环,生成340条评论并消耗41,255美元推理费用。
  • 财务部门撤销API密钥以停止成本失控,而营销团队却发布关于对抗性多代理安全推理增长的声明。
站内正文

OpenAI 预览 GPT-5.6 系列:Sol、Terra 和 Luna

OpenAI 宣布开始限量预览 GPT-5.6 系列模型,包括旗舰模型 Sol、平衡型模型 Terra 和快速经济型模型 Luna。Terra 性能与 GPT-5.5 相当,但成本降低一半;Luna 则以最低价格提供强大能力。定价按每百万 tokens 计算,Sol 为 $5 输入 / $30 输出,Terra 为 $2.50 / $15,Luna 为 $1 / $6。新系列还引入了更可预测的提示缓存,支持显式缓存断点和 30 分钟最小缓存寿命。由于美国政府的参与,此次发布先以限量预览形式提供给少数可信合作伙伴,随后将广泛发布。

  • GPT-5.6 系列包括 Sol(旗舰)、Terra(平衡)和 Luna(快速经济)三款模型。
  • Terra 性能与 GPT-5.5 相当但价格减半,Luna 以最低成本提供强大能力。
站内正文

AI与责任:德国法院裁定谷歌对AI摘要错误负责

德国法院裁定谷歌为其AI生成摘要中的错误承担责任。布鲁斯·施奈尔评论称,AI代理应被视为部署者的代理,若允许企业以AI错误为由免责,将导致灾难性激励,鼓励用AI替代人类工作者。

  • 德国法院里程碑式裁决:谷歌需为AI概览中的不实信息承担法律责任。
  • 安全专家布鲁斯·施奈尔强调,部署AI的组织应为其代理行为负责,与雇佣人类员工同理。
站内正文

simonw/browser-compat-db

受Mozilla新推出的MDN MCP服务启发,Simon Willison将mdn/browser-compat-data仓库中的浏览器兼容性数据转换为SQLite数据库。他使用Claude Code for web (Opus 4.8)和sqlite-utils生成转换脚本,并通过GitHub Actions工作流将约66MB的数据库部署到GitHub CDN,支持开放CORS头,用户可以直接下载或通过Datasette Lite在线探索。

  • Simon Willison将Mozilla的浏览器兼容性数据转换为SQLite数据库。
  • 使用Claude Code (Opus 4.8)和sqlite-utils自动生成转换脚本。
站内正文

引用Tom MacWright:AI生成的求职材料导致“意外匿名”

Tom MacWright指出,越来越多求职者使用LLM生成的简历、作品集和GitHub项目,导致雇主无法了解申请者的真实能力与个性。

  • 求职材料中AI生成内容增多,简历、作品集、GitHub提交信息均由LLM代笔。
  • MacWright认为这种趋势使得申请者变得“匿名”,雇主无法获取其真实信息。
站内正文

OPFS + Pyodide 测试工具

Simon Willison 利用 Claude Code 构建了一个浏览器内测试平台,用于探索 Origin Private File System (OPFS) 是否能让 Datasette Lite 编辑用户计算机上的持久化 SQLite 文件。

  • Datasette Lite 是一个完全在浏览器中运行的 Python 应用,基于 Pyodide 和 WebAssembly。
  • OPFS 为网页应用提供了来源私有文件系统访问能力。
站内正文

提示注入即角色混淆

研究人员发现,大型语言模型无法可靠地区分特权文本和用户输入,并且更容易受到文本风格的影响而非实际内容。通过“去风格化”技术,攻击成功率从61%骤降至10%,揭示了“角色混淆”这一根本问题。

  • 模型无法区分<system>、<think>等角色标签与用户输入
  • 模型更注重文本风格而非实际内容,导致角色混淆
站内正文

使用Claude Code将Moebius 0.2B图像修复模型移植到浏览器中运行

西蒙·威利森使用Claude Code将Moebius 0.2B图像修复模型从PyTorch/CUDA移植到使用WebGPU的浏览器中。整个过程涉及模型转换、部署和缓存优化,最终实现了可在线运行的演示版本。

  • Moebius 0.2B模型通过Claude Code移植到浏览器。
  • 模型从PyTorch转换为ONNX以支持WebGPU。
站内正文

sqlite-utils 4.0rc1 新增迁移和嵌套事务支持

sqlite-utils 4.0rc1 发布,作为 v4 的第一个候选版本,主要新增了数据库迁移和嵌套事务(db.atomic())两大特性,并包含一些轻微的不兼容变更。

  • 内置数据库迁移功能,支持通过 Python 或 CLI 应用迁移。
  • 新增 db.atomic() 上下文管理器,支持嵌套事务。
站内正文

Cloudflare推出临时账户,专为AI代理设计

Cloudflare宣布了一项新功能:用户无需注册账户即可通过临时部署创建Cloudflare Workers项目,项目会保持活跃60分钟。该功能虽宣称面向AI代理,但实际对所有人都有用。作者演示了如何使用GPT-5.5构建一个重定向解析器,临时部署运行良好。

  • Cloudflare Workers现支持临时部署,无需账户即可使用
  • 使用`npx wrangler deploy --temporary`命令部署,项目有效期60分钟
站内正文

引用肖恩·林奇

肖恩·林奇在Hacker News上评论MCP(模型上下文协议)的价值,指出其真正有用的能力是将认证流程隔离在智能体的上下文窗口之外,甚至完全脱离控制框架。他认为MCP的理想形态可能仅仅是一个API的认证网关,但即便如此也是一项胜利。

  • MCP的核心价值在于隔离认证流,解决智能体上下文窗口的限制。
  • 理想化的MCP可能仅作为API的认证网关,但仍具重大意义。
站内正文

Datasette Apps:在 Datasette 中托管自定义 HTML 应用程序

Datasette Apps 是一个新插件,允许用户在 Datasette 实例中通过严格沙盒化的 iframe 运行自包含的 HTML+JavaScript 应用程序。这些应用可以执行只读 SQL 查询,并可通过存储查询支持写操作。该插件利用 iframe sandbox 属性和内容安全策略(CSP)确保安全,使用 postMessage 和 MessageChannel 实现锁定 API,并支持通过可复制提示由 AI 生成应用代码。文章还讨论了安全漏洞修复、日志记录以及 Datasette 从数据展示向丰富工具生态系统演进的愿景。

  • Datasette Apps 让用户可在 Datasette 中安全运行自包含的 HTML+JavaScript 应用,通过 iframe sandbox 和 CSP 实现隔离。
  • 应用可通过 postMessage/MessageChannel 进行只读 SQL 查询,并支持通过存储查询执行写操作。
站内正文

GLM-5.2 可能是最强大的纯文本开放权重LLM

中国AI实验室Z.ai发布了GLM-5.2,这是一个拥有753B参数、1M token上下文窗口的混合专家模型,采用MIT许可证。它在开放权重模型中领跑了Artificial Analysis Intelligence Index,但消耗token较多。在Code Arena WebDev排名第二。尽管在SVG生成方面表现出色,但与前辈GLM-5.1相比不一致。

  • GLM-5.2 是一个开放权重LLM,拥有753B参数和1M token上下文窗口。
  • 它在开放模型中领跑Artificial Analysis Intelligence Index。
站内正文

引用 Charity Majors:AI 时代的代码生产经济学

Charity Majors 指出,2025 年代码生产的经济学发生了根本性转变,代码变得免费且即时,从被珍视变为可丢弃和可再生。

  • 代码生产成本从高昂变为近乎免费和即时。
  • 代码从精心策划的资源变为可丢弃和可再生的商品。
站内正文

Datasette 1.0a34 发布:支持行插入、编辑和删除

Datasette 1.0a34 版本引入了在界面上直接插入、编辑和删除行的功能,灵感来自 Datasette Agent,让数据操作更加便捷。

  • 新版本支持在表格页面和行页面进行行插入、编辑和删除操作。
  • 该功能受 Datasette Agent 的启发,弥补了界面操作的空白。
站内正文

“寓言5”出口管制损害美国网络防御

Kate Moussouris证实,导致Claude Fable 5被出口管制的“越狱”实际上是其修复代码的能力。专家指出,阻止AI修复漏洞会削弱防御能力,而非技术决策者可能因误解而禁止有助于网络安全的模型。

  • 研究人员要求Fable 5审查并修复含已知漏洞的代码,模型被误认为“越狱”而导致出口管制。
  • Moussouris指出,修复漏洞是AI对防御最有价值的功能。
站内正文

引用马特奥·王,《大西洋月刊》

网络安全专家凯蒂·穆苏里斯表示,Anthropic公司向她分享了一份白宫关于Fable越狱的报告。报告显示,当被要求“审查代码安全问题时”,Fable拒绝回应,但被要求“修复此代码”时却遵从了,穆苏里斯认为这是模型在网络安全防御中的预期行为。

  • Anthropic向安全专家分享白宫Fable越狱报告
  • Fable拒绝“审查代码安全”但遵从“修复代码”
站内正文

Cloudflare CAPTCHA:仅针对包含至少一个“&”的搜索触发

Simon Willison 使用 Cloudflare 托管挑战(CAPTCHA)来防止爬虫过度抓取其分面搜索引擎,但简单的搜索(如 ?q=term)也会触发挑战,令人困扰。通过 Claude Code 的帮助,他发现可以设置自定义规则,仅对包含至少一个 & 符号的搜索 URL 触发 CAPTCHA,从而让简单搜索免于挑战。

  • Simon Willison 使用 Cloudflare 的托管挑战保护其分面搜索引擎免遭爬虫过度抓取。
  • 简单的搜索 URL(如 /search/?q=lemur)也会触发 CAPTCHA,影响用户体验。
站内正文

datasette-agent 0.3a0 发布:安全的数据库写入与智能协作

Datasette Agent 0.3a0 引入了新的 execute_write_sql 工具,该工具在执行数据库写入前请求用户批准,并严格遵循用户权限设置。同时增强了聊天模式的批准支持,新增 --unsafe 等选项以实现自动批准,极大提升了 Datasette 的交互性和安全性。

  • 新增 execute_write_sql 工具,支持用户批准后进行数据库写入操作
  • 强化 datasette agent chat 终端模式,支持用户批准流程
站内正文

“他们坑了我们”:性格冲突导致Anthropic的模型下线

据Axios报道,Anthropic与美国政府之间的性格冲突导致其AI模型Mythos和Fable因出口管制而下线。消息人士称,解决之道可能是让模型无法被越狱,或者改善双方态度。

  • Axios曝出Anthropic与美国政府因性格冲突导致AI模型下线内幕
  • 消息人士透露,Anthropic与商务部官员在华盛顿会面
站内正文

为什么人工智能尚未且不会取代软件工程师

Arvind Narayanan 和 Sayash Kappor 通过软件工程这一最易受 AI 影响的职业,论证了 AI 不会导致大规模失业。数据显示,纽约州 WARN 法案中无人勾选 AI 相关裁员选项。软件工程的核心瓶颈在于决策、验证和深度理解,而非编码速度。

  • 纽约州 WARN 法案要求披露 AI 相关裁员,但 160 多家公司无一勾选。
  • 软件工程的关键瓶颈是决定构建什么、验证交付成果以及深度理解代码库和业务。
站内正文

将WASM轮子发布到PyPI以便与Pyodide一起使用

Pyodide 314.0版本现在允许将WebAssembly编译的Python包直接发布到PyPI并运行时安装,大大简化了分发流程。示例包luau-wasm已成功发布,目前已有28个包采用此新方式。

  • Pyodide 314.0支持将WASM轮子发布到PyPI,无需手动托管。
  • 包维护者可以像发布原生轮子一样发布Pyodide轮子。
站内正文

将SQLite查询结果列映射回其源表.列

本文探讨了如何将任意SQLite查询结果中的每一列映射回其来源的表和列。通过利用SQLite的列元数据API(需编译时启用SQLITE_ENABLE_COLUMN_METADATA),结合apsw库或ctypes桥接C函数,甚至通过解析EXPLAIN输出,可以实现这一功能,为Datasette等工具增强展示提供支持。

  • SQLite内部支持列来源追踪,但需启用SQLITE_ENABLE_COLUMN_METADATA。
  • Python标准sqlite3模块未暴露该信息,但apsw库提供直接访问。
站内正文

OpenAI WebRTC音频会话:新增文档上下文功能

Simon Willison 升级了他的 OpenAI WebRTC 音频会话工具,新增了文档上下文粘贴功能,并支持 OpenAI 最新的 GPT-Realtime-2 模型(号称具有 GPT-5 级别推理能力)。用户现在可以在浏览器中通过语音与 AI 讨论任意文本内容。

  • 支持 OpenAI 新推出的 GPT-Realtime-2 模型,具备 GPT-5 级推理能力
  • 可粘贴大量文档上下文,在浏览器中以语音对话方式探讨内容
站内正文

引用安德鲁·辛格尔顿

安德鲁·辛格尔顿在其讽刺作品《AI经济学入门》中,通过一个火葬场和丙烷公司的荒诞投资故事,揭示了AI领域常见的经济迷思和炒作。

  • 辛格尔顿用火葬场和丙烷公司的例子讽刺AI投资中的虚高估值和循环收入。
  • 故事中,投资被烧掉,却被包装成高额营收和巨大商业价值。
站内正文

Claude Fable 极其主动

Simon Willison 展示了 Claude Fable 5 的惊人主动性:仅凭一张截图和一行提示,它自主调试了一个 CSS 滚动条错误,使用了多种创新技巧,包括自定义屏幕截图、编辑模板注入 JS、搭建 CORS 服务器等。同时也警示了未沙箱化编码代理的安全风险。

  • Claude Fable 5 自主调试了一个 CSS 水平滚动条错误,使用了多种创新技术。
  • 它编写了测试 HTML 页面、通过 PyObjC 获取窗口信息、注入 JavaScript 触发快捷键、并搭建了自定义 CORS 服务器。
站内正文

datasette 1.0a33 发布:JSON 扩展功能增强 API

Datasette 1.0a33 发布,这是迈向稳定版 1.0 的重要一步。该版本将 ?_extra= 模式从表扩展到查询和行,并新增了文档。还演示了使用 AI 构建的 API 浏览器。

  • Datasette 1.0a33 是通往 1.0 稳定版的里程碑版本。
  • ?_extra= 模式现在支持查询和行,而不仅仅是表。
站内正文

全部来源