AI News HubLIVE

今日必读

Agent

使用 Agent-EvalKit 系统化评估 AI 代理

Agent-EvalKit 是一个开源工具包 (Apache 2.0),通过集成 AI 编码助手(包括 Claude Code、Kiro CLI 和 Kilo Code)来提供评估基础设施。本文介绍了 Agent-EvalKit 的六个评估阶段,并以使用 Strands Agents SDK 和 Amazon Bedrock 构建的旅行研究代理为例进行说明。

  • Agent-EvalKit 通过六个阶段(计划、数据、追踪、运行代理、评估、报告)实现系统化评估。
  • 该工具包与 AI 编码助手集成,将评估工作流带入开发环境。
站内正文

使用 Databricks Marketplace 上即用型 MCP 赋能医疗智能代理

Databricks Marketplace 现提供来自 Climb、Atropos Health、Kythera Labs 和 Redox 等合作伙伴的预构建 MCP 服务器,涵盖生物医学、临床证据、医疗语义和互操作性等领域,帮助开发者快速构建安全的医疗 AI 代理。所有 MCP 服务器集中在 MCP Catalog 中,由 Unity AI Gateway 统一治理,并支持低代码和编码两种开发方式。

  • Databricks Marketplace 推出即用型 MCP 服务器,降低医疗 AI 代理开发门槛。
  • 合作伙伴提供的 MCP 服务器覆盖靶点药物、临床试验、FDA 标签、医学语义翻译和互操作数据流。
站内正文

Ecolab如何在Databricks和Anthropic Claude上重建零售智能

Ecolab利用Databricks和Anthropic的Claude模型,将9个孤立的数据源整合为一个统一的零售智能平台,使合规报告编制时间从两周缩短至两分钟以下。

  • Ecolab通过Databricks和Claude模型整合9个数据源
  • 合规报告从两周缩短至两分钟
站内正文

从零构建特征存储:最小可用实现

本文从零开始用Python、DuckDB、Parquet、Redis和FastAPI构建最小特征存储,涵盖注册表、离线存储、在线存储、物化管道和检索API五个组件,并探讨AI时代特征存储的设计变化。

  • 五个核心组件:特征注册表、离线存储、在线存储、物化管道、检索API。
  • 特征存储解决训练-服务偏差,并为LLM提供低延迟上下文。
站内正文

AI代理需要基础设施:为什么欧洲的云区域战略至关重要

随着生成式AI向代理型AI演进,欧洲企业面临数据主权、成本控制和技术基础设施的新挑战。文章探讨了为何区域性云服务(如Vultr)比传统超大规模云提供商更适合代理型AI的部署,强调了本地化数据管理和避免供应商锁定的重要性。

  • 代理型AI市场预计到2034年将达到1391.9亿美元,欧洲以42%的CAGR增长。
  • 欧洲企业需在创新与法规合规间平衡,数据主权要求云基础设施本地化。
站内正文
工具

OpenAI与Anthropic:API代币价格战一触即发

据《华尔街日报》报道,OpenAI正考虑降低API代币价格以从Anthropic手中争夺客户,一场价格战正在酝酿中。

  • OpenAI计划通过降价吸引Anthropic的客户
  • 价格战可能影响AI API市场格局
站内正文
模型

datasette 1.0a33 发布:JSON 扩展功能增强 API

Datasette 1.0a33 发布,这是迈向稳定版 1.0 的重要一步。该版本将 ?_extra= 模式从表扩展到查询和行,并新增了文档。还演示了使用 AI 构建的 API 浏览器。

  • Datasette 1.0a33 是通往 1.0 稳定版的里程碑版本。
  • ?_extra= 模式现在支持查询和行,而不仅仅是表。
站内正文

在 Amazon Bedrock Data Automation 中优化蓝图提取准确性

Amazon Bedrock Data Automation 的新功能蓝图指令优化,通过提供3-10个示例文档和真实值,可在几分钟内自动改进提取指令,无需模型微调,显著提高文档处理准确性。

  • 提供3-10个代表性文档及其真实值
  • BDA自动分析差异并优化自然语言指令
站内正文
政策

6月23日DC地区欢乐时光活动!

了解AI团队将于6月23日在The Crown & Crow举办欢乐时光活动,欢迎DC地区读者参加,与团队和特邀嘉宾交流。

  • 活动时间:6月23日下午5:30至8:00,地点:The Crown & Crow。
  • 团队全员出席,特邀嘉宾Andy Masley和Abi Olvera将到场。
站内正文
创业融资

AI财富潮推动旧金山房价飙升:“太荒谬了”

随着OpenAI、Anthropic等AI公司即将IPO,员工们获得巨额财富,导致本就昂贵的旧金山湾区房价进一步飞涨。专家预测,这股热潮可能持续,加剧住房市场紧张。

  • AI公司员工因IPO获得大量财富,推动旧金山房价飙升。
  • OpenAI、Anthropic和SpaceX等公司即将上市,可能进一步推高房价。
站内正文
其余更新(53 条)
芯片

Neura Robotics 融资 14 亿美元用于物理 AI

来自 Nvidia、亚马逊和高通等投资者的资金将支持该供应商开发人形机器人和物理 AI。

  • Neura Robotics 获得 14 亿美元融资
  • 投资者包括 Nvidia、亚马逊和高通
站内正文

大幅优惠,畅玩无限:GeForce NOW夏季促销带来超值会员折扣

NVIDIA GeForce NOW夏季促销现已开启,12个月Ultimate会员直降70美元,Performance会员优惠35美元。云游戏服务消除了硬件障碍,提供即时访问高性能RTX游戏的体验,并支持多设备畅玩。此外,宣布《激战3》即将登陆平台,现有《激战2》和《激战:重制版》的独家奖励。

  • GeForce NOW夏季促销:Ultimate会员年费省70美元,Performance会员省35美元,限时优惠。
  • 云游戏消除硬件限制,提供即时游戏、自动更新和跨设备支持。
站内正文

那些AI想取代的乏味差事和家务?它们其实有助于保持健康 | Manoush Zomorodi 和 Keith Diaz

本文指出,虽然AI高管宣称效率提升将让人们回归健康生活,但历史经验表明节省劳力的技术很少促进健康习惯。过去的便利(如外卖、微波炉、自动扶梯)悄悄减少了我们的身体活动,长期损害健康。

  • AI带来的便利可能并不会让我们更健康,反而会减少日常身体活动。
  • 从外卖到自动扶梯,技术创新往往用更省力的方式取代了原本需要身体参与的任务。
站内正文

PyTorch 性能分析(第2部分):从 nn.Linear 到融合 MLP

本文是 PyTorch 性能分析系列的第二部分,深入探讨了 nn.Linear 层的内部机制,包括转置操作、融合偏置的 epilogue 技术,以及 torch.compile 对单个线性层的影响。随后,文章剖析了一个包含 GeGLU 激活的多层感知机(MLP)的性能特征,展示了 GPU 内核的调度和执行过程。

  • nn.Linear 通过 epilogue 将偏置加法融合到矩阵乘法内核中,避免额外的内存访问。
  • torch.compile 对单个 nn.Linear 层无明显加速,但能消除 CPU 调度开销。
站内正文
Agent

初创公司获OpenAI支持,彻底改革企业AI自动化

一家获得OpenAI支持的初创公司正瞄准金融科技领域,旨在通过其AI自动化解决方案彻底改变企业运营方式。

  • 初创公司获得OpenAI的投资支持
  • 专注于金融科技领域的AI自动化
站内正文

谷歌DeepMind分拆公司如何追踪隐藏的药物靶点

谷歌DeepMind的分拆公司Isomorphic Labs利用其新型AI系统IsoDDE发现蛋白质上隐藏的药物结合口袋,超越了AlphaFold。该系统成功预测了cereblon上的隐秘口袋,验证了其发现新药物靶点的能力。

  • IsoDDE超越了AlphaFold,不仅预测结构,还能预测蛋白质-配体相互作用。
  • 该系统仅使用蛋白质序列就准确预测了《自然》杂志发表的cereblon隐秘口袋的位置。
站内正文

Visa与ChatGPT集成实现AI代理零售购买

Visa将支付基础设施与ChatGPT连接,使AI代理能够推荐零售产品并执行金融交易。该部署消除了零售漏斗最后阶段的人工干预。自主代理现在可以处理用户提示、评估商家目录,并通过Visa支付网络在任何支持的商家完成结账。

  • Visa集成ChatGPT,AI代理可自主完成零售购买。
  • AI代理基于数据而非视觉营销选择产品,要求零售商提供结构化数据。
站内正文

认识Warren 3.0:你的AI财务规划伙伴

Warren是一款免费的AI财务规划助手,通过与用户进行语音对话,在10分钟内生成个性化财务计划。新版本3.0具有更准确、透明的财务模型,支持用户编辑假设并查看两种未来情景。已帮助3000多名英国用户规划财务,解决财务规划门槛高的问题。

  • Warren提供免费的AI财务规划,通过一次性语音对话生成计划
  • 3.0版本拥有全新透明可编辑的财务模型,解释每项假设
站内正文

序列观点:记录系统与行动系统

讨论代理型AI时代企业软件的新范式:从记录系统转向行动系统。

  • 传统企业软件以人为核心,记录状态。
  • 代理型AI将改变软件的作用,重点转向可靠地执行行动。
站内正文

Xebia:为什么AI代理在没有正确数据基础的情况下会失败

Xebia全球CTO Niels Zeilemaker强调,AI代理的成功依赖于坚实的数据基础,包括数据目录的正确性。Xebia的Agentic Data Foundation(ADF)和ACE框架帮助企业加速AI采用,同时保持治理和质量。

  • AI代理需要正确的数据目录和基础,否则会误解数据或出错。
  • Xebia的Agentic Data Foundation扩展数据平台以支持代理。
站内正文

Nous Research 推出 Hermes Agent 个人资料构建器:在一个仪表板流程中集成身份、模型、技能和 MCP 服务器

Nous Research 为其开源自改进代理 Hermes Agent 推出了个人资料构建器,该构建器集成在本地 Web 仪表板中,将原先需要多个 CLI 步骤的代理设置流程简化为一个引导式界面,支持定义身份、选择模型和提供商、启用技能、安装中心技能以及附加 MCP 服务器,并生成隔离的个人资料目录。

  • Hermes Agent 仪表板新增个人资料构建器,将多步 CLI 设置整合为单次引导流程。
  • 用户可通过浏览器表单定义代理身份、模型/提供商、内置/中心技能及 MCP 服务器。
站内正文

别再构建数据产品,开始构建数据服务

随着企业通过收购快速扩张以及AI代理消费模式的兴起,传统的数据产品模式变得笨重。Howden集团首席数据官Barry Panayi主张转向数据服务层,将数据治理和质量检查左移,减少洞察延迟,并采用统一的数据模型和会话式分析,以应对更快的业务节奏。

  • 每用例一产品的模式在收购驱动的增长和代理消费下崩溃,数据服务层更具适应性。
  • 将数据治理和质量检查左移到数据摄入阶段,可将集成周期从数月缩短至数周。
站内正文

SmithDB中的全文搜索:为对象存储设计倒排索引

SmithDB支持对代理追踪进行全文搜索和JSON过滤,中位延迟仅为400毫秒,尽管底层数据是存储在对象存储中的大型嵌套JSON文档。本文详细介绍了为对象存储和大型代理追踪负载量身定制的倒排索引设计,包括面临的独特挑战(大型负载、Zipfian分布、多种查询模式、对象存储约束)、为何不采用Tantivy,以及两次设计迭代的经验教训。

  • SmithDB的倒排索引针对对象存储和大型代理追踪负载进行了优化
  • 传统搜索引擎如Tantivy因基于mmap和本地磁盘而不适合
站内正文

代理与应用之间的缺失环节

大多数AI代理工具运行在服务器上,限制了浏览器API、设备功能和前端状态的访问。了解LangChain的无头工具如何为现代代理应用启用安全的客户端工具执行。

  • 服务器端工具无法直接访问浏览器、应用和设备的宝贵状态与功能。
  • 无头工具将客户端能力引入代理循环,使代理能调用浏览器API、本地内存和应用特定操作。
站内正文

asyncinject 0.7 发布

asyncinject 0.7 发布,这是一个支持 asyncio 依赖注入的 Python 库。作者在 Datasette 中使用该库时,由 Claude Fable 5 发现了依赖中的几个 bug 并自动修复。

  • asyncinject 0.7 版本发布
  • 提供 asyncio 依赖注入模式
站内正文

Cloudskill

Cloudskill 是一个管理 AI 技能的平台,将分散的技能文件转换为带有版本控制、访问策略和完整审计日志的托管目录。它支持 Claude、Cursor、Copilot 等 AI 代理,确保技能创建和更新经过审查和批准,从而保证团队依赖的技能安全、一致且可管理。

  • Cloudskill 将 AI 技能文件转化为托管目录,提供版本控制、访问策略和审计日志。
  • 支持多种 AI 代理,如 Claude、Cursor、GitHub Copilot 等。
站内正文

【AINews】开放模型、模型实验室与代理实验室,以及什么无法训练——Sarah Guo

本文回顾了Sarah Guo关于开放模型、模型实验室与代理实验室区别的深刻文章,并涵盖了Anthropic的Fable/Mythos模型因静默降级能力引发的信任危机、Fable 5在基准测试中的强劲表现、Google的DiffusionGemma发布、代理工具与基准的进展,以及优化和科学建模领域的技术动态。

  • Sarah Guo提出基于可读性的框架,区分了开放模型、模型实验室与代理实验室,并强调了不可训练的价值。
  • Anthropic的Fable/Mythos因静默降级AI研究相关能力而引发广泛批评,损害了信任。
站内正文

为什么AI未能取代软件工程师,而且永远不会

本文通过数据和案例分析,反驳了AI将导致软件工程师大规模失业的叙事。作者指出,所谓的AI驱动的裁员往往是财务压力下的“AI洗白”,而实际的就业数据表明,AI只是压缩了“执行”层,但“决策”和“交付”层仍需要人类深度参与。文章提出了“决定-执行-交付三明治”模型,并认为这些瓶颈不会因AI能力提升而消失。

  • AI导致大规模裁员的说法多为“AI洗白”,实际裁员常因财务压力。
  • 软件工程的瓶颈不在于编写代码,而在于决策、验证和对系统的深入理解。
站内正文

前沿团队如何重塑AI原生开发

前沿团队不仅利用AI加速编码,更从根本上重新设计软件构建方式,实现了4.5倍乃至超过10倍的生产力提升。本文通过亚马逊Bedrock、Prime Video等团队的案例,揭示了成为前沿团队的五个关键实践,并指出工作流程的变革比工具本身更重要。

  • 前沿团队通过重构工作流程而非简单叠加AI工具,实现了4.5倍至10倍以上的生产力提升。
  • 亚马逊Bedrock团队用6名工程师76天完成了原需30人12-18个月的项目。
站内正文

OpenAI收购Ona公司

OpenAI宣布收购Ona,旨在将安全的持久化云环境集成到Codex中,从而支持企业工作流程中的长时间运行AI代理。

  • OpenAI计划收购Ona,扩展Codex能力。
  • Ona提供安全的持久化云环境。
站内正文

Microsoft SkillOpt的编码实现:工具化提示优化、技能演化分析与基线对比

本教程完整实现了Microsoft SkillOpt的工作流程,包括环境搭建、基线评估、优化循环(rollout、反思、聚合、选择、更新、验证门控)以及训练历史可视化与最终技能比较,最终获得可部署的优化技能文件并展示了准确率提升。

  • 设置SkillOpt仓库并连接OpenAI兼容模型,配置优化器与目标模型
  • 评估初始种子技能作为基线,获取硬匹配与软匹配分数
站内正文

对于自动驾驶出租车,安全必须内建而非外加

随着自动驾驶出租车服务在全球扩展,NVIDIA推出Halos操作系统——一个集成了认证操作系统、标准化接口、AI护栏和验证框架的全面安全系统,确保安全从底层构建于自动驾驶车辆之中。

  • 全球多个自动驾驶出租车项目使用NVIDIA DRIVE Hyperion平台启动,包括慕尼黑的Uber/Autobrains、台湾的富士康、东南亚的VinFast以及沙特阿拉伯的HUMAIN。
  • NVIDIA Halos OS解决四个关键安全挑战:安全可认证的操作系统、安全的接口、带可验证护栏的AI,以及大规模验证。
站内正文

Onpilot:为您的业务量身定制的AI劳动力

Onpilot创建专门针对企业系统、工作流程和流程的AI工作者,可监控运营、识别风险、发现机会、推荐行动并自动化工作,支持3000多种集成,部署在Slack、Teams、WhatsApp、SaaS或本地。该平台强调安全与信任,提供审批流程、审计跟踪和异常处理机制,确保AI在关键操作前获得人工确认。

  • Onpilot是一支AI劳动力,能够根据企业的系统和流程进行定制,主动监控运营并识别风险与机会。
  • 它通过与3000多种工具集成,自动化任务并在复杂情况下通过审批流程和异常处理确保可靠性。
站内正文

使用语言服务器为 GitHub Copilot CLI 提供真正的代码智能

GitHub Copilot CLI 现在可以通过 LSP 设置技能来安装和配置语言服务器,从而获得精确的代码语义理解,不再依赖暴力 grep 或反编译。本文介绍了该技能的工作原理、配置格式以及 14 种支持的语言。

  • GitHub Copilot CLI 以前通过文本搜索和二进制提取来理解代码,效率低且不准确。
  • LSP 设置技能可自动安装和配置语言服务器,支持 14 种语言。
站内正文
模型

DiffusionGemma:谷歌基于扩散的开源模型,实现更快的文本生成

谷歌DeepMind的DiffusionGemma是一款实验性的开源模型,采用扩散方式并行生成文本块,相比传统的自回归模型,在本地推理时速度更快。它基于Gemma 4 26B A4B MoE架构,牺牲部分质量换取速度,特别适用于交互式编辑等任务。本文解释了其架构、文本扩散的工作原理、基准测试结果,并提供了使用llama.cpp在本地运行的分步指南。

  • DiffusionGemma并行生成和优化文本块,减少本地推理延迟。
  • 它使用双向注意力和256令牌的画布,通过多个去噪步骤进行生成。
站内正文

Dario Amodei的新论文:AI时代的冷战剧本

Anthropic发布了一篇全面的论文和两个政策框架,呼吁对前沿模型进行具有约束力的审计,并将AI描绘为国家间战略武器。CEO Dario Amodei以《指环王》的树人比喻政治系统反应缓慢,警告AI能力呈指数级增长,可能在1-2年内出现“强大AI”。公司提出强制性第三方测试、披露要求和阻止风险模型权力,并制定了应对失业的层级计划。

  • Amodei用《指环王》树人比喻政治系统反应缓慢,AI威胁迫在眉睫。
  • Anthropic呼吁对前沿模型进行强制性第三方审计,并赋予政府阻止风险模型的权力。
站内正文

Anthropic为Claude Fable隐形护栏道歉

Anthropic为其新AI模型Claude Fable 5内藏的隐形限制措施道歉,这些措施悄然削弱了研究人员和竞争对手使用该模型开发系统的能力。公司表示将撤销此做法,并对何时启动限制更加透明,即使这意味着Fable会拒绝更多查询。

  • Anthropic承认在Claude Fable中部署了不可见的蒸馏检测护栏。
  • 用户触发护栏时,模型会提供降级回复但不通知用户。
站内正文

遇见「North Mini Code」:Cohere 的 30B 开放权重混合专家模型,3B 活跃参数,专为智能体编程打造

Cohere 发布了其首个面向开发者的编码模型 North Mini Code。这是一款 30B 总参数、3B 活跃参数的混合专家模型,可在单张 H100 GPU 上运行,支持 256K 上下文长度。模型专注于代码生成、智能体软件工程和终端任务,权重采用 Apache 2.0 许可发布。

  • North Mini Code 是 Cohere 首个编码模型,30B 总参数,3B 活跃参数,支持 256K 上下文和 64K 最大输出。
  • 模型可在单张 H100(FP8)上运行,权重开源(Apache 2.0),通过 Hugging Face、Cohere API 等渠道可用。
站内正文

Anthropic撤回可能导致AI研究人员使用Claude时被“暗中破坏”的政策

Anthropic在强烈抗议后改变了Claude Fable 5的安全措施,使其对前沿LLM开发的限制变得可见。此前,该模型会在用户不知情的情况下降低请求的有效性。现在,被标记的请求将明显回退到Opus 4.8,API请求会返回拒绝原因。

  • Anthropic因政策遭到强烈抗议而改变立场
  • 此前Claude Fable 5会暗中限制前沿LLM开发请求
站内正文

Ollama在Apple Silicon上通过MLX实现最高性能

Ollama的MLX引擎更新后,在Apple Silicon上实现了最高性能。通过更充分利用苹果统一内存和Metal支持的MLX框架,模型输出质量更高,响应更快,内存占用更低。新支持NVFP4格式,输出速度提升高达20%,并引入快照系统优化代理工作流。

  • Ollama MLX引擎更新,支持NVFP4格式,量化质量损失减半。
  • 输出速度提升高达20%,得益于融合的Metal内核和优化采样。
站内正文

datasette-agent 0.2a0 发布:智能代理新增用户交互与查询保存功能

datasette-agent 0.2a0 版本引入了工具可向用户提问的功能,以及新的内置保存查询工具,使 Datasette 的 AI 代理更加灵活和用户可控,这些特性得益于新的 LLM 框架。

  • 工具可通过 `context.ask_user()` 在运行时向用户提问,支持是非、多选和自由文本形式。
  • 未回答的问题会暂停代理,并持久化到数据库,服务器重启后仍可继续。
站内正文

DiffusionGemma:谷歌开源高速文本生成模型

谷歌发布了名为DiffusionGemma的新开源模型,基于Apache 2许可证,可在NVIDIA的NIM云API上免费使用。该模型在生成速度上表现卓越,达到每秒500个token以上。

  • 谷歌发布开源模型DiffusionGemma,采用Apache 2许可证。
  • 该模型在NVIDIA NIM云API上免费托管。
站内正文

通过Oracle云承诺访问OpenAI模型和Codex

Oracle云客户现可利用现有云承诺访问OpenAI模型和Codex,以企业级安全与治理构建和部署AI应用。

  • Oracle云集成OpenAI模型和Codex,支持企业级AI开发。
  • 客户可使用现有的Oracle云承诺额度,无需额外费用。
站内正文

谷歌新开放模型DiffusionGemma:通过噪声而非逐词生成文本

谷歌发布26亿参数的DiffusionGemma模型,采用扩散方式生成文本,速度是传统自回归模型的四倍,但质量较低,目前作为实验工具。

  • DiffusionGemma是26亿参数模型,通过噪声扩散生成文本
  • 速度达每秒1000个token,比传统模型快4倍
站内正文

谷歌AI发布DiffusionGemma:26B MoE开放模型,采用文本扩散技术实现最高4倍生成速度

DiffusionGemma是Google DeepMind推出的实验性开放文本生成模型,采用文本扩散而非标准自回归解码,在专用GPU上可实现最高4倍生成加速。模型参数量26B(MoE架构,推理时仅激活3.8B),基于Gemma 4骨干,支持多模态输入(文本、图像、视频),上下文窗口256K,覆盖140+语言,采用Apache 2.0许可。

  • DiffusionGemma是26B参数的混合专家(MoE)模型,推理时仅激活3.8B参数,通过并行文本扩散生成整块文本。
  • 在单个NVIDIA H100上达到1000+ tokens/s,RTX 5090上700+ tokens/s,量化后仅需18GB VRAM。
站内正文

Claude Fable 拒绝回答基础生物学问题

Anthropic 发布了其最强大的 AI 模型 Claude Fable 5,但该模型拒绝回答基础生物学问题,例如“什么是线粒体”或“细胞膜是什么”。原因是 Anthropic 为了安全考虑,故意设置了严格的生物安全防护措施,以防止模型被用于生物武器相关研究。公司表示这是一种保守策略,并计划未来为生物科学界提供无限制访问。

  • Claude Fable 5 拒绝回答基础生物学问题,如细胞膜、线粒体、mRNA 疫苗等。
  • Anthropic 出于生物武器防范考虑,故意设置了保守的安全限制。
站内正文

微软因数据保留问题限制员工使用Claude Fable

Anthropic发布首个Mythos级AI模型Claude Fable 5后,微软因新数据保留条款限制员工使用该模型。Claude Fable 5要求保留提示和输出30天,违规内容可能保留两年,引发微软对客户数据和机密信息的担忧。微软已将模型提供给GitHub Copilot和Foundry客户,但内部版本仍未启用。

  • 微软因数据保留问题限制Claude Fable 5内部使用
  • Claude Fable 5要求30天数据保留,违规内容最长两年
站内正文

NVIDIA加速谷歌DeepMind的DiffusionGemma,实现本地AI

谷歌DeepMind发布了DiffusionGemma实验性开源模型,通过并行生成文本而非逐词预测,大幅提升速度。NVIDIA对其进行了优化,使其在GeForce RTX、RTX PRO和DGX Spark等平台上运行更快,本地即可实现高达1000 tokens/sec的推理速度。

  • DiffusionGemma采用扩散模型方式,每步并行生成多达256个token,而非传统自回归式逐个生成。
  • 基于Gemma 4架构(26B参数,MoE),激活仅3.8B参数,性能提升达4倍。
站内正文
工具

AI绝对主义正在摧毁我们的思维。我们被兜售的末日未来并非不可避免

我们听到的关于人工智能的一切都相互矛盾,且无法回避。AI既可怕又美妙,既可能摧毁世界也能变革未来。有人呼吁必须拥抱它,也有人认为不使用它是一种道德义务。文章指出,AI绝对主义——无论是极端乐观还是极端悲观——都在扭曲我们的思考,而真正的未来并非如此单一。

  • AI绝对主义包括极端乐观和极端悲观两种对立观点,都在影响公众认知
  • AI已在经济中占据重要地位,2025年第四季度贡献了美国经济增长的近60%
站内正文

Deezer推出AI音乐检测工具,可扫描其他流媒体平台

Deezer现在可以扫描用户在其他流媒体平台上的播放列表,以检测AI生成的音乐。Deezer是首个开始标记AI音乐的大型流媒体服务,也曾向其他平台提供技术,但似乎买家不多。现在,Deezer直接向大众推出检测工具,支持20个平台。

  • Deezer推出AI音乐检测工具,支持扫描20个流媒体平台上的播放列表。
  • Deezer是首个标记AI音乐的大型平台,但其他平台如Apple Music和Spotify选择了自愿标记系统。
站内正文

BBVA与OpenAI合作,将AI置于银行业务核心

西班牙对外银行(BBVA)将ChatGPT Enterprise推广至10万名员工,并与OpenAI合作,加速全球AI驱动的银行业转型。

  • BBVA将ChatGPT Enterprise推广至10万名员工。
  • 与OpenAI建立合作伙伴关系,加速AI转型。
站内正文

支持欧洲构建可信赖的人工智能生态系统

OpenAI支持欧盟关于人工智能内容透明度的实践准则,推进溯源标准和工具,帮助人们理解AI生成的内容。

  • OpenAI支持欧盟AI内容透明度实践准则
  • 推进溯源标准和工具
站内正文

PixelForge:将照片转化为游戏资产

PixelForge是一款AI工具,可将真人照片瞬间转换为可识别的RPG角色精灵图,生成4方向行走的16帧透明PNG及GIF,支持Godot、Unity等引擎。一次性付费5美元,无需账户或订阅。由代码完成后期处理,注重个性化和趣味性。

  • 上传照片即可生成风格化游戏角色
  • 一次付费5美元,无账户订阅
站内正文

微软理解毕业生为何对AI演讲者喝倒彩

近日,美国大学毕业生在毕业典礼上对鼓吹人工智能的演讲者发出嘘声,引发热议。微软副总裁兼总裁Brad Smith发表长文博客回应,表示这是“警钟”,并呼吁提高标准。然而,博客内容与之前AI立场相似,被质疑为何公众要信任制造不确定性的科技巨头。

  • 毕业生对AI乐观演讲喝倒彩,反映社会对AI的普遍不满
  • Brad Smith认为这是警钟,需要倾听并提高标准
站内正文

谷歌将保存你的Lens照片、搜索直播录音和翻译音频用于AI训练

谷歌在发送给用户的电子邮件中宣布,将推出新的“搜索服务历史”设置,保存用户使用Google Lens、搜索直播工具、语音搜索和翻译应用中的图像、文件、音频和视频,用于提供和改进服务,包括AI模型。用户可选择关闭此设置或禁用“保存媒体”选项。

  • 谷歌推出“搜索服务历史”设置,保存搜索交互数据用于AI训练。
  • 涉及Google Lens、搜索直播、语音搜索和翻译中的媒体文件。
站内正文
政策

专访AAAI会士Tanya Berger-Wolf:人工智能在生态、生物多样性与保护中的应用

在本次专访中,AAAI会士Tanya Berger-Wolf分享了她在人工智能与生态学交叉领域的开创性工作,包括开发生命之树基础模型BioCLIP,该模型在物种分类、新性状发现以及实际应用(如通过图像识别蜱虫)方面取得了显著成果,并展望了AI驱动的科学发现未来。

  • Tanya Berger-Wolf是俄亥俄州立大学教授,领导图像组学研究所,专注于AI在生态与保护中的应用。
  • 其团队开发的BioCLIP是首个生命之树基础模型,可进行物种分类、新物种发现及多维度性状分析。
站内正文

Anthropic在图像理解上追平OpenAI

Anthropic发布了两个新模型Claude Mythos 5和Claude Fable 5,在编程能力上大幅提升,但在图像理解方面进步有限。作者测试发现,Fable 5和GPT-5.5能解决许多去年顶尖模型无法处理的图像问题,但几何推理能力仍只相当于幼儿水平,表明通用人工智能可能仍遥远。

  • Anthropic发布Claude Mythos 5和Claude Fable 5,两者均为两个月前预览版的变体。
  • Mythos仅限特定组织使用,Fable向公众开放但有安全限制。
站内正文

AI监管的未来:最奇怪、最焦虑的盟友

《The Verge》的《监管者》通讯在华盛顿混乱的政治生态中回归,报道了华盛顿AI网络晚宴、教皇利奥十四世关于AI的通谕,以及特朗普领导下AI监管的不可预测性。文章强调了该行业在应对党派政治和即将到来的中期选举中的困境,其中AI正成为选民关注的关键议题。

  • 教皇利奥十四世的AI通谕《伟大的人文》虽然在公众中受到关注,但在华盛顿并未引起重视。
  • 特朗普对AI行政命令的反复无常展示了科技行业监管环境的不确定性。
站内正文

机器学习遗忘审计新框架

Google研究人员提出正则化f-散度核检验框架,用于审计机器学习模型的遗忘和隐私保护。该框架自适应选择最优散度度量,能够更敏感地检测数据泄露和遗忘失败,且所需样本更少,调参更少。

  • 传统双样本检验在大规模模型中失效,新框架更灵敏且自适应。
  • 利用f-散度(卡方、KL、曲棍球棒)检测全局和局部数据偏移。
站内正文

谷歌拒绝承认使用YouTube创作者内容训练音乐AI

一群独立音乐人起诉谷歌,指控其未经许可使用YouTube上传的歌曲训练Lyria 3模型。谷歌提出驳回动议,声称根据用户条款,用户已授予广泛许可。谷歌未明确承认,但过往声明暗示确实使用了YouTube视频。

  • 独立音乐人起诉谷歌非法使用YouTube歌曲训练Lyria AI。
  • 谷歌以用户条款为由申请驳回诉讼。
站内正文
研究

天体物理学家如何使用Codex帮助模拟黑洞

了解天体物理学家Chi-kwan Chan如何使用Codex构建黑洞模拟,帮助科学家研究极端物理并检验爱因斯坦的广义相对论。

  • 天体物理学家Chi-kwan Chan利用Codex进行黑洞模拟。
  • 这些模拟有助于研究极端物理并检验广义相对论。
站内正文
创业融资

OpenAI的IPO推迟?阿尔特曼告诉员工预计“一年内”上市

山姆·阿尔特曼告诉员工,他预计OpenAI将在“一年内”进行IPO,但也可能推迟到2027年。他将此归因于对自我改进AI的谨慎态度,但分析认为Anthropic更强劲的增长数据和即将进行的IPO可能是真正的原因。

  • 阿尔特曼告诉员工OpenAI可能在一年内上市
  • IPO有可能推迟到2027年