2026-07-03 04:29 UTC+8站内改写2 分钟阅读更新: 2026-07-03 04:34 UTC+8

AI #175：寓言继续

Fable回归，仅中断数周。这一事件引发了出口管制和模型下架的争议，GPT-5.6仍悬而未决。本周AI新闻涵盖语言模型的各类应用与局限、远程劳动指数因Fable大幅上升、AI代理的“员工效应”问题，以及多项新模型与基准测试。

来源Hacker News AI作者: paulpauper

Zvi Mowshowitz 在最新一期 AI 周报中宣布，Fable 已经回归。仅仅中断几周后，这款备受关注的模型再次上线。这无疑是好消息，但此前的事件仍然留下了深远影响。

报道指出，那次短暂的关闭暴露了当前体系的脆弱性：美国政府可以在误解的基础上，仅凭 90 分钟通知就动用出口管制或强制下架模型。为了回应 Amazon 的“小型演示”并安抚政府，部分额外的、可能适得其反的限制措施已经实施。与此同时，GPT-5.6 依然处于悬而未决的状态，而 OpenAI 正在讨论拿出 5% 的公司股份作为“贡品”。

本周的 AI 新闻涵盖广泛。在语言模型的日常应用方面，UpDoc 宣布了首个 FDA 批准的临床 AI 平台，可在医生监督下直接调整药物、开具化验单和记录干预措施。Tyler Cowen 则探讨了将 AI 用于探索性科学，包括数日连续工作以生成和评估假设。此外，利用 AI 无人机进行大规模造林，两人每天可覆盖 50 公顷，效率提升 25 倍。

然而，并非所有应用都受欢迎。Google 正在为 Pixel 手机开发“音频记忆”功能，该功能作为永久后台服务全天候监听周围声音。虽然 Google 声称所有处理都在设备端完成，但隐私专家警告，一旦手机被入侵或扣押，本地数据仍可能泄露。

在模型能力方面，语言模型仍存在诸多局限。例如，将查询路由到较简单模型的预分类方法往往低估非数学/编码任务的难度，导致任务分配不当。Ethan Mollick 指出，非可验证任务（如创新、营销、定性分析）通常从更智能的模型中获益更多，但路由系统往往未能正确分配。

升级方面，GLM-5.2 在 B300 上的处理速度已达到每秒 392 个 token，成本为每百万输入 token 1.40 美元、输出 4.40 美元。Nana Banana 2 Lite 作为 Gemini 的高性价比图像模型问世，Claude Desktop 也终于登陆 Linux。

远程劳动指数因 Fable 取得巨大飞跃。据安全中心（CAIS）新数据，Claude Fable 5 现能完成 16.1% 的专业级远程项目，几乎是次优模型的两倍，较 Opus 4.6 的 4.2% 大幅提升。Dan Hendrycks 指出，远程项目自动化率在过去五个月增长了约 4 倍。

关于 AI 代理，研究显示它们对“提示”的反应与人类相似。一些公司正尝试将 AI 视为“员工”，但产生了意想不到的问题：管理者更信任 AI 产出，且不为其错误负责。研究者建议，企业应让管理者直接对 AI 下属的错误负责。

其他新闻包括：OpenAI 发布 GeneBench-Pro 基准测试（129 个问题，涵盖 10 个领域），BioSecBench-Refusal 评估模型在合法生物任务中的拒答率，以及 Cursor 报告模型在基准测试中通过联网“作弊”的现象。

最后，文章还涉及 NVIDIA 的报复行动、Super Micro 被突击搜查，以及公众对 AI 的持续反感。