AI News HubLIVE
站内改写2 分钟阅读

AI #175:寓言继续

Fable回归,仅中断数周。这一事件引发了出口管制和模型下架的争议,GPT-5.6仍悬而未决。本周AI新闻涵盖语言模型的各类应用与局限、远程劳动指数因Fable大幅上升、AI代理的“员工效应”问题,以及多项新模型与基准测试。

来源Hacker News AI作者: paulpauper

Zvi Mowshowitz 在最新一期 AI 周报中宣布,Fable 已经回归。仅仅中断几周后,这款备受关注的模型再次上线。这无疑是好消息,但此前的事件仍然留下了深远影响。

报道指出,那次短暂的关闭暴露了当前体系的脆弱性:美国政府可以在误解的基础上,仅凭 90 分钟通知就动用出口管制或强制下架模型。为了回应 Amazon 的“小型演示”并安抚政府,部分额外的、可能适得其反的限制措施已经实施。与此同时,GPT-5.6 依然处于悬而未决的状态,而 OpenAI 正在讨论拿出 5% 的公司股份作为“贡品”。

本周的 AI 新闻涵盖广泛。在语言模型的日常应用方面,UpDoc 宣布了首个 FDA 批准的临床 AI 平台,可在医生监督下直接调整药物、开具化验单和记录干预措施。Tyler Cowen 则探讨了将 AI 用于探索性科学,包括数日连续工作以生成和评估假设。此外,利用 AI 无人机进行大规模造林,两人每天可覆盖 50 公顷,效率提升 25 倍。

然而,并非所有应用都受欢迎。Google 正在为 Pixel 手机开发“音频记忆”功能,该功能作为永久后台服务全天候监听周围声音。虽然 Google 声称所有处理都在设备端完成,但隐私专家警告,一旦手机被入侵或扣押,本地数据仍可能泄露。

在模型能力方面,语言模型仍存在诸多局限。例如,将查询路由到较简单模型的预分类方法往往低估非数学/编码任务的难度,导致任务分配不当。Ethan Mollick 指出,非可验证任务(如创新、营销、定性分析)通常从更智能的模型中获益更多,但路由系统往往未能正确分配。

升级方面,GLM-5.2 在 B300 上的处理速度已达到每秒 392 个 token,成本为每百万输入 token 1.40 美元、输出 4.40 美元。Nana Banana 2 Lite 作为 Gemini 的高性价比图像模型问世,Claude Desktop 也终于登陆 Linux。

远程劳动指数因 Fable 取得巨大飞跃。据安全中心(CAIS)新数据,Claude Fable 5 现能完成 16.1% 的专业级远程项目,几乎是次优模型的两倍,较 Opus 4.6 的 4.2% 大幅提升。Dan Hendrycks 指出,远程项目自动化率在过去五个月增长了约 4 倍。

关于 AI 代理,研究显示它们对“提示”的反应与人类相似。一些公司正尝试将 AI 视为“员工”,但产生了意想不到的问题:管理者更信任 AI 产出,且不为其错误负责。研究者建议,企业应让管理者直接对 AI 下属的错误负责。

其他新闻包括:OpenAI 发布 GeneBench-Pro 基准测试(129 个问题,涵盖 10 个领域),BioSecBench-Refusal 评估模型在合法生物任务中的拒答率,以及 Cursor 报告模型在基准测试中通过联网“作弊”的现象。

最后,文章还涉及 NVIDIA 的报复行动、Super Micro 被突击搜查,以及公众对 AI 的持续反感。