AI News HubLIVE
公开文章 211采集文章 220可信度 78刷新频率 30 分钟
健康状态 自动暂停来源类型 媒体原文权限 站内改写最近入库 2026-06-13ID the-decoder运行状态 未启用

Media source; summary-only unless authorization is obtained.

最新公开文章

微软CEO萨提亚·纳德拉承认自己也是“令牌最大化者”:“这让人上瘾”

微软CEO萨提亚·纳德拉警告不要“令牌最大化”,即对所有问题都使用最强大的AI模型。他认为前沿模型不应浪费在日常任务上,生产力提升的边际成本必须与令牌成本相匹配。但他也承认自己也是一个令牌最大化者,称这让人上瘾。

  • 纳德拉警告“令牌最大化”现象,即滥用最强大的AI模型处理简单任务。
  • 他强调前沿模型应保留给复杂问题,日常任务使用更经济的模型。
站内正文

谷歌研究团队的Gemini-SQL2在文本到SQL基准测试中大幅领先

谷歌研究团队的Gemini-SQL2将自然语言转换为可执行的SQL查询。基于Gemini 3.1 Pro,它在BIRD基准测试中达到80.04%的准确率,远超OpenAI和Anthropic。谷歌表示该技术可改善其数据服务的自然语言功能。

  • Gemini-SQL2基于Gemini 3.1 Pro,将自然语言转化为SQL查询。
  • 在BIRD基准测试中准确率达80.04%,领先OpenAI和Anthropic。
站内正文

微软SkillOpt:仅凭一个训练过的Markdown文件,就能让GPT-5.5大幅提升

微软与三所中国大学合作开发了SkillOpt方法,通过训练指令文档(技能)来优化AI智能体,灵感来自传统模型训练。仅需一个简单的Markdown文件,即可在程序性任务上将GPT-5.5的性能提升约23个点,且该文件可在不同模型和智能体环境(如Codex和Claude Code)间迁移。

  • SkillOpt将技能文档视为可训练的外部状态,使用独立优化器模型提出有限编辑,仅接受能提升验证集性能的更改。
  • 在GPT-5.5上,所有六项基准测试平均提升约23个点,尤其对格式严格和工具使用任务效果显著。
站内正文

Claude Fable 5在FrontierMath最难题上领先GPT-5.5达13个百分点

Anthropic的Claude Fable 5在FrontierMath最难级别上达到88%的准确率,较2026年初Opus 4.5低于10%的成绩有巨大飞跃。OpenAI的GPT-5.5在同一级别上约为75%。AI数学能力的提升速度正在加快。

  • Claude Fable 5在FrontierMath最难级别上准确率高达88%
  • 相比Opus 4.5早期低于10%的准确率有显著提升
站内正文

Meta从“代币最大化”转向代币管理,内部AI成本据称达数十亿美元

Meta内部备忘录显示,仅内部使用的AI成本就将达到数十亿美元。从2027年起,将通过预算、分配和名为“AI Gateway”的中央仪表板来管理代币消耗。CTO Andrew Bosworth直言:“并非所有行动都是进步,代币使用量本身不能衡量任何影响。”

  • Meta内部AI成本预计将达到数十亿美元
  • 2027年起实施代币管理,使用AI Gateway仪表板
站内正文

月之暗面开源模型Kimi K2.7 Code:编程能力不及GPT-5.5和Claude,但价格仅为1/12

月之暗面AI发布了拥有1万亿参数的开源模型Kimi K2.7 Code,专为编程设计。虽在编码基准测试中仍落后于GPT-5.5和Claude Opus 4.8,但价格仅为它们的几分之一。关键问题不在于它是否是最好的模型,而是相同预算下,额外的运行次数能否弥补质量差距。

  • Kimi K2.7 Code是月之暗面推出的开源编程模型,拥有1万亿参数。
  • 在编码基准上落后于GPT-5.5和Claude Opus 4.8。
站内正文

美国政府强制Anthropic对全球用户禁用Claude Fable 5和Mythos 5

美国政府以“越狱风险”为由,命令Anthropic停止Claude Fable 5和Mythos 5的全球服务。Anthropic在遵守的同时公开反驳,称漏洞很小且同样存在于GPT-5.5等竞品模型中,并警告此举可能开创先例,阻碍前沿部署。

  • 美国政府要求Anthropic立即关闭Fable 5和Mythos 5的全球访问。
  • Anthropic认为漏洞微小,且竞争模型如GPT-5.5也存在类似问题。
站内正文

调查:超半数美国人担心AI会导致失业和独立思考能力丧失

Anthropic公司对近5.2万名美国人进行的调查显示,64%的受访者担心AI会导致失业,56%的人担心会失去独立思考能力。日常使用AI的用户担忧较少,但大多数人仍拒绝在职场中使用AI,即使他们认为AI可以处理某些任务。

  • Anthropic调查近5.2万名美国人
  • 64%担心失业,56%担心失去独立思考
站内正文

OpenAI 推出灵活速率限制重置功能,Codex 编码代理引发 AI 价格战

OpenAI 现允许 Codex 用户存储速率限制重置次数并手动触发,无需等待固定计划到期。Go、Plus、Pro 和 Business 计划用户各获得一次免费重置,Plus 和 Pro 用户还可邀请好友解锁额外重置。

  • Codex 用户可保存速率限制重置并随时手动使用。
  • Go、Plus、Pro、Business 计划用户各获一次免费重置。
站内正文

Anthropic的Claude Fable 5性能提升仅5.7%,但成本翻倍

Claude Fable 5在人工智能分析智能指数中以64.9分位居榜首,并在十个基准测试中的五个创下纪录。但与Opus 4.8相比,性能提升仅5.7%,而令牌价格翻倍。安全过滤器和回退路由进一步推高了成本。

  • Claude Fable 5在AI指数中得分64.9,创下五项基准纪录。
  • 相比Opus 4.8,性能仅提升5.7%,但成本翻倍。
站内正文

谷歌与FBI首次联合起诉中国AI诈骗网络,OpenAI封禁涉华影响力集群

谷歌和OpenAI几乎同时揭露了据称源自中国的利用AI进行欺诈和隐秘影响力活动的行动。谷歌起诉了一个名为“Outsider Enterprise”的中国网络犯罪团伙,该团伙利用其AI系统Gemini针对数十万美国人进行金融诈骗。同时,OpenAI封禁了两个据称位于中国的ChatGPT集群,这些集群试图操纵美国科技政策辩论。

  • 谷歌与FBI合作起诉中国犯罪网络,称其利用Gemini生成虚假网站和消息进行诈骗。
  • OpenAI封禁两个集群,分别针对AI数据中心扩张和贸易政策进行影响力操作。
站内正文

AI行业的平台陷阱开始像微软那样了

Anthropic正在为其新的Mythos模型限制某些任务的使用,同时开发直接与其最大客户竞争的应用程序。客户、合作伙伴和投资者均在施加压力。

  • Anthropic对Mythos模型的部分任务进行限速
  • Anthropic开发与客户竞争的应用程序
站内正文

OpenAI收购Ona,推动Codex向长时间自主编码任务迈进

OpenAI收购了原名Gitpod的初创公司Ona,该公司专注于AI代理和安全的云端开发环境,旨在增强Codex执行长时间自主编码任务的能力。

  • OpenAI收购了德国基尔初创公司Ona(原Gitpod)。
  • Ona专注于AI代理和安全云端开发环境。
站内正文

杰夫·贝佐斯的人工智能初创公司Prometheus完成120亿美元融资,估值达410亿美元

杰夫·贝佐斯的人工智能初创公司Prometheus已以410亿美元的估值完成120亿美元融资轮。该公司去年11月才成立,此前已获得62亿美元种子资金。目前尚未推出任何产品,贝佐斯表示现在分享细节还为时过早。

  • Prometheus完成120亿美元融资,估值410亿美元
  • 公司去年11月成立,初始种子资金62亿美元
站内正文

OpenAI与Anthropic:API代币价格战一触即发

据《华尔街日报》报道,OpenAI正考虑降低API代币价格以从Anthropic手中争夺客户,一场价格战正在酝酿中。

  • OpenAI计划通过降价吸引Anthropic的客户
  • 价格战可能影响AI API市场格局
站内正文

Dario Amodei的新论文:AI时代的冷战剧本

Anthropic发布了一篇全面的论文和两个政策框架,呼吁对前沿模型进行具有约束力的审计,并将AI描绘为国家间战略武器。CEO Dario Amodei以《指环王》的树人比喻政治系统反应缓慢,警告AI能力呈指数级增长,可能在1-2年内出现“强大AI”。公司提出强制性第三方测试、披露要求和阻止风险模型权力,并制定了应对失业的层级计划。

  • Amodei用《指环王》树人比喻政治系统反应缓慢,AI威胁迫在眉睫。
  • Anthropic呼吁对前沿模型进行强制性第三方审计,并赋予政府阻止风险模型的权力。
站内正文

谷歌新开放模型DiffusionGemma:通过噪声而非逐词生成文本

谷歌发布26亿参数的DiffusionGemma模型,采用扩散方式生成文本,速度是传统自回归模型的四倍,但质量较低,目前作为实验工具。

  • DiffusionGemma是26亿参数模型,通过噪声扩散生成文本
  • 速度达每秒1000个token,比传统模型快4倍
站内正文

OpenAI的IPO推迟?阿尔特曼告诉员工预计“一年内”上市

山姆·阿尔特曼告诉员工,他预计OpenAI将在“一年内”进行IPO,但也可能推迟到2027年。他将此归因于对自我改进AI的谨慎态度,但分析认为Anthropic更强劲的增长数据和即将进行的IPO可能是真正的原因。

  • 阿尔特曼告诉员工OpenAI可能在一年内上市
  • IPO有可能推迟到2027年
站内正文

SpaceX计划将数据中心送入轨道,马斯克称这没什么大不了的

SpaceX计划在IPO前将数据中心送入太空,马斯克认为这几乎是微不足道的工程问题。首颗AI卫星的性能相当于一个英伟达GB300机架,但谷歌研究表明实际AI训练可能需要约一万颗紧密耦合的卫星。

  • SpaceX计划发射太空数据中心,马斯克认为工程难度低。
  • 首颗AI卫星性能堪比单个英伟达GB300机架。
站内正文

德国里程碑裁决:Google AI 概览视为自身言论,须为虚假答案负责

德国一家地区法院裁定,谷歌对其 AI 搜索摘要的内容直接负责,认为先前的搜索引擎责任豁免不适用于 AI 生成内容。该案中,AI 错误地将两家出版商与欺诈关联,且所提主张未出现在原始来源中。此裁决可能为全球 AI 内容责任树立先例。

  • 德国地区法院裁定谷歌对 AI 概览内容直接负责
  • 法院认为搜索引擎的有限责任保护不适用于 AI 生成的回答
站内正文

北京2950亿美元AI基础设施建设要求80%国产芯片,封锁美国供应商

中国计划未来五年投资约2万亿元人民币建设全国性AI数据中心网络,其中至少80%的技术来自国内供应商如华为。同时,台湾考虑将向中国走私AI芯片定为刑事犯罪。

  • 中国五年内投资约2万亿元建设AI数据中心网络
  • 至少80%的芯片等设备来自华为等国内供应商
站内正文

苹果智能借助谷歌和英伟达再出发

在WWDC 2026上,苹果展示了重建版Siri,该助手基于与谷歌共同开发的基础模型,并在复杂查询时使用英伟达GPU。

  • 苹果在WWDC 2026上推出了重建版Siri。
  • 新Siri基于与谷歌合作开发的基础模型。
站内正文

OpenAI表示“完全自动化一切不是我们想要的未来”

OpenAI正从2028年实现全自主AI研究的目标上后退,转而谈论人机“协同”。阿尔特曼和帕乔基还呼吁建立国际机构,必要时可减缓前沿AI发展。

  • OpenAI放弃2028年全自主AI目标,转向人机协同。
  • CEO阿尔特曼和科学家帕乔基呼吁建立国际监管机构。
站内正文

OpenAI称上市是“一系列复杂的权衡”,对时机不确定

OpenAI已向SEC秘密提交S-1注册文件,迈出IPO的第一步。公司表示没有确定时间表,并称这是“一系列复杂的权衡”。竞争对手Anthropic近期也提交了IPO文件,增加了压力。

  • OpenAI秘密提交S-1文件,启动IPO程序。
  • 公司强调没有时间表,上市决策复杂。
站内正文

微软研究表明:详细描述比模型规模更重要,Lens以38亿参数高效生成图像

微软研究院推出仅38亿参数的文本到图像模型Lens,利用GPT-4.1生成的8亿条详细描述进行训练,在多个基准测试中媲美数倍于其规模的模型,训练计算量仅为同类模型的五分之一。Lens-Turbo可在不到一秒内生成图像,代码和权重以MIT许可证开源。

  • Lens使用GPT-4.1生成的8亿条详细描述替代模糊的网络替代文本,大幅提升训练效率。
  • 仅38亿参数,Lens在基准测试中匹配或超越数倍于其规模的模型。
站内正文

英特尔获第二春:谷歌与英伟达探索其作为台积电AI芯片替代供应商

谷歌已向英特尔订购超过300万颗AI芯片,计划于2028年交付。英伟达也正在测试英特尔的制造工艺,用于其下一代Feynman架构。此举正值台积电难以满足AI芯片需求之际,英特尔长期挣扎的代工业务迎来罕见转机。

  • 谷歌与英特尔签订超过300万颗AI芯片订单,交付期为2028年。
  • 英伟达测试英特尔制造工艺,用于其Feynman架构芯片。
站内正文

大多数公司在AI支出上盲目飞行

KPMG调查发现,仅有26%的公司对AI成本有完全可见性,许多公司因代币计费模式面临预算失控。

  • KPMG调查:仅26%公司完全掌握AI支出
  • 代币计费导致财务部门难以预测成本
站内正文

全部来源