AI News HubLIVE

今日必读

模型

在Fable 5禁令之后,Anthropic与19家组织共同发起开源安全机构

Linux基金会推出Akrites,这是一个协调开源软件漏洞发现、修复和披露的机构,创始成员包括Anthropic、AWS、谷歌、微软等20家组织。该倡议旨在应对AI驱动的漏洞发现带来的挑战,因为现有协调模式已跟不上速度。

  • Anthropic在Fable 5被禁后,与其他19家组织共同发起Akrites,这是一个由Linux基金会管理的开源安全协调机构。
  • Akrites通过共享的SIRT团队整合漏洞报告,减少重复,加快关键开源项目的修复速度。
站内正文

美国政府刚刚告知OpenAI谁可以使用下一个GPT-5.6模型

美国政府出于网络安全考量,指示OpenAI对即将发布的GPT-5.6模型实施访问限制,仅限政府批准的合作伙伴使用。此举引发行业争议,有专家认为这将推动开发者转向开源或中国模型,可能削弱美国在AI领域的领先地位。

  • 特朗普政府要求OpenAI分阶段发布GPT-5.6,并逐客户审批访问权限。
  • OpenAI CEO萨姆·奥尔特曼对此表示不满,称这不是长期模式。
站内正文

事件报告:CVE-2026-LGTM

安德鲁·内斯比特撰写的假设性事件报告,描述了两个来自不同供应商的AI审查代理因对软件包是否恶意产生分歧,陷入无休止的争论循环,导致高昂的推理费用和财务部门介入,最终营销团队借机发布声明。

  • 两个AI审查代理因评估一个软件包而陷入争论循环,生成340条评论并消耗41,255美元推理费用。
  • 财务部门撤销API密钥以停止成本失控,而营销团队却发布关于对抗性多代理安全推理增长的声明。
站内正文

深度代理的提示缓存

了解Deep Agents如何利用提示缓存,在无需额外配置的情况下,将各大模型提供商的LLM Token成本降低高达80%。

  • 提示缓存通过存储模型状态,可使推理Token成本降低41-80%。
  • 不同模型提供商对缓存控制的支持各不相同,增加了跨提供商优化的难度。
站内正文

OpenAI 预览 GPT-5.6 系列:Sol、Terra 和 Luna

OpenAI 宣布开始限量预览 GPT-5.6 系列模型,包括旗舰模型 Sol、平衡型模型 Terra 和快速经济型模型 Luna。Terra 性能与 GPT-5.5 相当,但成本降低一半;Luna 则以最低价格提供强大能力。定价按每百万 tokens 计算,Sol 为 $5 输入 / $30 输出,Terra 为 $2.50 / $15,Luna 为 $1 / $6。新系列还引入了更可预测的提示缓存,支持显式缓存断点和 30 分钟最小缓存寿命。由于美国政府的参与,此次发布先以限量预览形式提供给少数可信合作伙伴,随后将广泛发布。

  • GPT-5.6 系列包括 Sol(旗舰)、Terra(平衡)和 Luna(快速经济)三款模型。
  • Terra 性能与 GPT-5.5 相当但价格减半,Luna 以最低成本提供强大能力。
站内正文
政策

在Pixel上通过冻结的多token预测加速Gemini Nano模型

Google研究人员提出了一种方法,将多token预测(MTP)改造到已部署的Gemini Nano v3模型上,无需重新训练主干网络,从而在移动设备上实现更快的推理速度和更低的能耗。该方法在Pixel 9和10系列上已部署,使AI通知摘要和校对等功能速度提升50%以上。

  • 通过冻结的主干网络和轻量级MTP头部,实现了对现有模型的无缝加速,避免了单独草稿模型的内存开销。
  • 零拷贝架构让MTP头部直接利用主模型的KV缓存,减少了130MB内存占用,并消除了草稿预填充延迟。
站内正文

AI辅助软件移植的可发现证据

本文探讨了AI辅助软件移植过程中产生的可发现证据,包括代码差异、注释模式及移植轨迹,并分析了这些证据对软件验证和审计的影响。

  • AI辅助移植会留下可追踪的代码空间证据
  • 这些证据有助于验证移植的正确性和完整性
站内正文
机器人

亚马逊Prime Day三星最佳优惠:Galaxy手机、平板电脑等大幅降价

亚马逊Prime Day进入最后一天,三星产品仍有大幅折扣,包括手机、平板、电视等。ZDNET编辑精选最值得关注的优惠。

  • Prime Day 2026于6月23日至26日举行,但优惠已提前开始。
  • 三星产品折扣力度大,尤其是手机、电视和笔记本电脑。
站内正文
Agent

如何判断我们——以及人工智能——是否在行善

本文探讨了如何识别人类和AI在行动中是否选择了善。作者提出三个指标:手段与目的(康德和克尔凯郭尔)、恶习与美德(亚里士多德)、浅思与深思(萨尔茨伯格和斯宾诺莎)。虽然善的本质难以定义,但这些指标可以帮助我们和AI在决策时保持正轨。

  • 康德和克尔凯郭尔强调手段与目的的统一,AI不应为达到目的采取不道德手段。
  • 亚里士多德认为美德是恶习之间的平衡,AI可以参考但本身无法实践美德。
站内正文

更大的上下文窗口是编程智能体的错误抽象

更大的上下文窗口虽然有用,但对于编程智能体而言,连续性比上下文更重要。文章区分了上下文和记忆,指出检索不足以解决问题,并介绍了Sigilix提出的记忆原生智能体方法,该方法通过持久可信的底层存储来继承先前的决定和修正,从而避免每次从零开始。文章还讨论了一个较小模型(Boreas)在记忆原生设置下如何胜过更强模型,以及记忆系统的潜在陷阱和设计原则。

  • 上下文大小不等于连续性;更大的窗口能承载更多文本,但不决定什么值得记忆。
  • 检索只能回答“什么文本可能相关”,不能回答“代码库已经教会我们什么”。
站内正文
其余更新(12 条)
Agent

AI编程代币成本或将超过使用它们的开发人员薪资

Gartner指出,随着AI编程代币从按座位许可转向按消费定价,开发者面临成本急剧上升的问题,每月账单可能高达2万美元。缺乏成本控制工具和透明度,导致token消费激增却未必带来生产力提升。Gartner建议优化token消耗,采用上下文工程和模型路由策略。预测到2028年,AI编程成本将超过全球平均开发者薪资。

  • AI编程代币从按座位许可转向按消费定价,成本飙升
  • 缺乏成本控制和透明度,token消费激增与生产力提升无直接关联
站内正文

智能模型路由:直接集成于Claude、Codex和Cursor的模型路由工具

Weave Router是一个开源的智能模型路由工具,可自动为每次请求选择最佳AI模型,支持多种API格式,能降低40-70%的成本。

  • 基于Avengers-Pro 2集群评分器,每次请求自动路由到最佳模型
  • 支持Anthropic、OpenAI、Gemini等多种API格式,以及OpenRouter的开放模型
站内正文

一个免费的检查器,用于检查AI搜索引擎能否引用你的网站

这款免费的GEO检查器可检测你的网站在ChatGPT、Claude、Perplexity和Gemini等AI搜索引擎中的可见性,涵盖7个技术层,包括llms.txt、结构化数据、服务目录API等,并提供评分和改进建议。

  • 检查7个AI发现层:llms.txt、结构化数据、服务目录API、OpenAPI规范、Agent Card、健康端点和机器人与站点地图。
  • 免费使用,无需注册,立即获得A-F等级评分。
站内正文

Show HN:TickerPro – 一个面向美国股票的AI研究终端

TickerPro 是一个AI辅助的股票研究终端,帮助投资者发现和分析美国股票。它由一对夫妇为简化自己的研究流程而构建,提供个性化推荐、实时数据和叙事驱动分析,并针对标准LLM的不足进行了优化。

  • TickerPro 提供基于投资组合和风格的AI个性化股票推荐。
  • 支持深入调研商业模式、财务数据和转录,并生成AI概览。
站内正文

无垃圾开源贡献最佳实践清单(使用AI或不使用)

一份关于在开源项目中如何避免“AI垃圾”贡献的检查清单,涵盖从理解项目到提交贡献的完整流程,强调信任建立与高质量贡献。

  • 提供12条贡献最佳实践,适用于使用AI或不使用AI的贡献者。
  • 强调理解项目、参与社区、谨慎使用AI工具。
站内正文

低成本前沿AI:开源工作者与闭源顾问的组合方案

本文介绍了一种开源工作者(如Kimi-K2.6或GLM-5.2)与闭源前沿顾问(Claude Opus 4.8)相结合的AI代理架构。该方案在SWE-bench Pro、Terminal-Bench 2.1和Legal Agent Bench三个基准测试中均实现了稳定性能提升,同时将推理成本降低19%至67%。GLM-5.2搭配顾问在Terminal-Bench上达到与Opus相当的水平(约80%),在Legal Agent Bench上甚至超越Opus,成本却低40%。

  • 开源工作者(Kimi-K2.6或GLM-5.2)端到端驱动任务,在最终阶段咨询闭源前沿模型(Claude Opus 4.8)一次。
  • SWE-bench Pro提升4至7个百分点,Terminal-Bench 2.1提升4至8个百分点,Legal Agent Bench提升1至4个百分点。
站内正文
模型

OpenAI发布GPT-5.6,正值美国AI监管争议之际

在特朗普政府要求推迟发布后不到24小时,OpenAI推出了GPT-5.6模型套件,包括旗舰版Sol、中端版Terra和经济型Luna。该模型在编码、网络安全和生物学方面表现突出,并具备长时自主AI任务能力。定价方面,Sol每百万token输入5美元、输出30美元,约为Anthropic Claude Fable 5的一半。OpenAI在公告中重点强调了安全性和潜在滥用风险,并提到与政府合作进行预览期监管。

  • OpenAI应特朗普政府要求,在推迟后迅速发布GPT-5.6套件(Sol、Terra、Luna)。
  • Sol定价较竞争对手Anthropic的Claude Fable 5便宜近一半。
站内正文

AI网关基准测试:GoModel vs LiteLLM vs Portkey vs Bifrost

本文对比了四种AI网关在请求路径上的运行时开销,包括延迟、吞吐量、内存、CPU、冷启动时间和镜像大小。测试结果显示,GoModel在几乎所有指标上表现最优,而LiteLLM则因资源消耗巨大而成为短板。文章还讨论了网关的开源中立性和对本地模型部署的影响。

  • GoModel在所有测试中表现最佳:1.8毫秒延迟、4900请求/秒吞吐量、37MB内存占用、0.56秒冷启动。
  • LiteLLM的资源占用过高:2.3GB内存、25.5秒冷启动、372MB镜像,成为性能瓶颈。
站内正文
研究

这些是我自己会买的20多个Prime Day最佳手机优惠

Prime Day 2026即将结束。ZDNET专家精选仍有货的最佳手机优惠,包括iPhone、三星、谷歌Pixel和摩托罗拉的折扣。提供选购建议和购买时机。

  • Prime Day 2026于6月23日至26日举行,今天是最后一天。
  • 热门优惠包括谷歌Pixel 10、三星Galaxy S26及多款iPhone。
站内正文
芯片

AI 助威、AI 弃权与AI 战略转向

本文通过社会制图方法,分析了围绕人工智能的三种极化立场:技术乐观主义的AI助威、全面拒绝的AI弃权,以及承认风险但寻求干预的AI战略转向。作者认为,放弃不等于道德清白,而参与也不等于认可,关键在于培养辨别力和约束力。

  • 社会制图揭示了AI辩论中三种主要立场:助威、弃权和战略转向。
  • AI弃权虽保持道德清晰,但可能高估拒绝的杠杆作用。
站内正文
工具

如何在iOS 27相机应用中使用Siri模式,询问所见的任何事物

在iOS 27开发者测试版中,相机应用新增了Siri模式,允许用户通过AI对视野内的物体提问。该功能基于iOS 18.2的视觉智能升级而来,但更便于直接在相机内使用。早期测试存在一些错误和等待时间问题。

  • iOS 27相机中的Siri模式可对所见物体进行实时AI查询。
  • 相比视觉智能,该模式无需退出相机应用即可启动。
站内正文
政策

大卫·奥特尔被任命为经济学系主任

自1999年任教于麻省理工学院的大卫·奥特尔被任命为经济学系主任,将于7月1日生效。奥特是人工智能与未来工作领域的领先研究者,他的研究聚焦于技术变革和全球化对劳动力市场的影响。

  • 大卫·奥特尔自1999年起在麻省理工学院任教,被任命为经济学系主任。
  • 他是人工智能与未来工作研究领域的领军人物,关注技术变革对就业和收入的影响。