引用迪安·W·鲍尔
迪安·W·鲍尔指出前沿模型成本高昂,盈利窗口短暂,且AI基础设施投资依赖全球市场。
- 前沿模型训练成本极高,盈利窗口只有发布后几个月
- 一旦模型失去前沿地位,竞争加剧,利润压缩
来源详情
AI News Hub 持续跟踪 Simon Willison's Weblog 的 AI 更新,并公开来源状态、授权边界、抓取方式和已发布文章。
Personal blog; posts are public and free to reference.
迪安·W·鲍尔指出前沿模型成本高昂,盈利窗口短暂,且AI基础设施投资依赖全球市场。
Timothy B. Lee用管理者的比喻反驳了“LLM无需技巧、没有学习曲线”的观点。
Fernando Irarrázaval在hackmyclaw.com发起挑战,邀请人们通过邮件窃取其OpenClaw测试实例中的秘密。尽管有6000次尝试(花费500美元token,并导致谷歌账号被暂停),无人成功。底层模型为Opus 4.6,使用了抗提示注入规则。这反映了前沿模型在抗注入攻击方面的训练效果,但仍需谨慎,无法保证绝对安全。
安德鲁·内斯比特撰写的假设性事件报告,描述了两个来自不同供应商的AI审查代理因对软件包是否恶意产生分歧,陷入无休止的争论循环,导致高昂的推理费用和财务部门介入,最终营销团队借机发布声明。
OpenAI 宣布开始限量预览 GPT-5.6 系列模型,包括旗舰模型 Sol、平衡型模型 Terra 和快速经济型模型 Luna。Terra 性能与 GPT-5.5 相当,但成本降低一半;Luna 则以最低价格提供强大能力。定价按每百万 tokens 计算,Sol 为 $5 输入 / $30 输出,Terra 为 $2.50 / $15,Luna 为 $1 / $6。新系列还引入了更可预测的提示缓存,支持显式缓存断点和 30 分钟最小缓存寿命。由于美国政府的参与,此次发布先以限量预览形式提供给少数可信合作伙伴,随后将广泛发布。
德国法院裁定谷歌为其AI生成摘要中的错误承担责任。布鲁斯·施奈尔评论称,AI代理应被视为部署者的代理,若允许企业以AI错误为由免责,将导致灾难性激励,鼓励用AI替代人类工作者。
受Mozilla新推出的MDN MCP服务启发,Simon Willison将mdn/browser-compat-data仓库中的浏览器兼容性数据转换为SQLite数据库。他使用Claude Code for web (Opus 4.8)和sqlite-utils生成转换脚本,并通过GitHub Actions工作流将约66MB的数据库部署到GitHub CDN,支持开放CORS头,用户可以直接下载或通过Datasette Lite在线探索。
Tom MacWright指出,越来越多求职者使用LLM生成的简历、作品集和GitHub项目,导致雇主无法了解申请者的真实能力与个性。
Simon Willison 利用 Claude Code 构建了一个浏览器内测试平台,用于探索 Origin Private File System (OPFS) 是否能让 Datasette Lite 编辑用户计算机上的持久化 SQLite 文件。
研究人员发现,大型语言模型无法可靠地区分特权文本和用户输入,并且更容易受到文本风格的影响而非实际内容。通过“去风格化”技术,攻击成功率从61%骤降至10%,揭示了“角色混淆”这一根本问题。
西蒙·威利森使用Claude Code将Moebius 0.2B图像修复模型从PyTorch/CUDA移植到使用WebGPU的浏览器中。整个过程涉及模型转换、部署和缓存优化,最终实现了可在线运行的演示版本。
sqlite-utils 4.0rc1 发布,作为 v4 的第一个候选版本,主要新增了数据库迁移和嵌套事务(db.atomic())两大特性,并包含一些轻微的不兼容变更。
Cloudflare宣布了一项新功能:用户无需注册账户即可通过临时部署创建Cloudflare Workers项目,项目会保持活跃60分钟。该功能虽宣称面向AI代理,但实际对所有人都有用。作者演示了如何使用GPT-5.5构建一个重定向解析器,临时部署运行良好。
肖恩·林奇在Hacker News上评论MCP(模型上下文协议)的价值,指出其真正有用的能力是将认证流程隔离在智能体的上下文窗口之外,甚至完全脱离控制框架。他认为MCP的理想形态可能仅仅是一个API的认证网关,但即便如此也是一项胜利。
Datasette Apps 是一个新插件,允许用户在 Datasette 实例中通过严格沙盒化的 iframe 运行自包含的 HTML+JavaScript 应用程序。这些应用可以执行只读 SQL 查询,并可通过存储查询支持写操作。该插件利用 iframe sandbox 属性和内容安全策略(CSP)确保安全,使用 postMessage 和 MessageChannel 实现锁定 API,并支持通过可复制提示由 AI 生成应用代码。文章还讨论了安全漏洞修复、日志记录以及 Datasette 从数据展示向丰富工具生态系统演进的愿景。
中国AI实验室Z.ai发布了GLM-5.2,这是一个拥有753B参数、1M token上下文窗口的混合专家模型,采用MIT许可证。它在开放权重模型中领跑了Artificial Analysis Intelligence Index,但消耗token较多。在Code Arena WebDev排名第二。尽管在SVG生成方面表现出色,但与前辈GLM-5.1相比不一致。
Charity Majors 指出,2025 年代码生产的经济学发生了根本性转变,代码变得免费且即时,从被珍视变为可丢弃和可再生。
Datasette 1.0a34 版本引入了在界面上直接插入、编辑和删除行的功能,灵感来自 Datasette Agent,让数据操作更加便捷。
Kate Moussouris证实,导致Claude Fable 5被出口管制的“越狱”实际上是其修复代码的能力。专家指出,阻止AI修复漏洞会削弱防御能力,而非技术决策者可能因误解而禁止有助于网络安全的模型。
网络安全专家凯蒂·穆苏里斯表示,Anthropic公司向她分享了一份白宫关于Fable越狱的报告。报告显示,当被要求“审查代码安全问题时”,Fable拒绝回应,但被要求“修复此代码”时却遵从了,穆苏里斯认为这是模型在网络安全防御中的预期行为。
Simon Willison 使用 Cloudflare 托管挑战(CAPTCHA)来防止爬虫过度抓取其分面搜索引擎,但简单的搜索(如 ?q=term)也会触发挑战,令人困扰。通过 Claude Code 的帮助,他发现可以设置自定义规则,仅对包含至少一个 & 符号的搜索 URL 触发 CAPTCHA,从而让简单搜索免于挑战。
Datasette Agent 0.3a0 引入了新的 execute_write_sql 工具,该工具在执行数据库写入前请求用户批准,并严格遵循用户权限设置。同时增强了聊天模式的批准支持,新增 --unsafe 等选项以实现自动批准,极大提升了 Datasette 的交互性和安全性。
据Axios报道,Anthropic与美国政府之间的性格冲突导致其AI模型Mythos和Fable因出口管制而下线。消息人士称,解决之道可能是让模型无法被越狱,或者改善双方态度。
Arvind Narayanan 和 Sayash Kappor 通过软件工程这一最易受 AI 影响的职业,论证了 AI 不会导致大规模失业。数据显示,纽约州 WARN 法案中无人勾选 AI 相关裁员选项。软件工程的核心瓶颈在于决策、验证和深度理解,而非编码速度。
Pyodide 314.0版本现在允许将WebAssembly编译的Python包直接发布到PyPI并运行时安装,大大简化了分发流程。示例包luau-wasm已成功发布,目前已有28个包采用此新方式。
本文探讨了如何将任意SQLite查询结果中的每一列映射回其来源的表和列。通过利用SQLite的列元数据API(需编译时启用SQLITE_ENABLE_COLUMN_METADATA),结合apsw库或ctypes桥接C函数,甚至通过解析EXPLAIN输出,可以实现这一功能,为Datasette等工具增强展示提供支持。
Simon Willison 升级了他的 OpenAI WebRTC 音频会话工具,新增了文档上下文粘贴功能,并支持 OpenAI 最新的 GPT-Realtime-2 模型(号称具有 GPT-5 级别推理能力)。用户现在可以在浏览器中通过语音与 AI 讨论任意文本内容。
安德鲁·辛格尔顿在其讽刺作品《AI经济学入门》中,通过一个火葬场和丙烷公司的荒诞投资故事,揭示了AI领域常见的经济迷思和炒作。
Simon Willison 展示了 Claude Fable 5 的惊人主动性:仅凭一张截图和一行提示,它自主调试了一个 CSS 滚动条错误,使用了多种创新技巧,包括自定义屏幕截图、编辑模板注入 JS、搭建 CORS 服务器等。同时也警示了未沙箱化编码代理的安全风险。
Datasette 1.0a33 发布,这是迈向稳定版 1.0 的重要一步。该版本将 ?_extra= 模式从表扩展到查询和行,并新增了文档。还演示了使用 AI 构建的 API 浏览器。