AI News HubLIVE

今日必读

模型

在AWS上推出Claude Sonnet 5:Anthropic最强的Sonnet模型

Anthropic宣布在Amazon Bedrock和Claude Platform on AWS上推出其最先进的Sonnet模型Claude Sonnet 5。该模型在编码、智能体任务和专业工作中提供接近Opus级别的智能,但价格与Sonnet系列相同。它支持多文件编码、复杂推理和自动化工作流程,适用于金融、生产力等领域。文章还提供了在Amazon Bedrock上使用该模型的详细指南和代码示例。

  • Claude Sonnet 5是Anthropic最新一代的首个Sonnet模型,在编码、智能体和专业工作上表现出色。
  • 该模型以Sonnet价格提供接近Opus的智能,支持大规模部署。
站内正文

将违禁文本嵌入间谍软件以阻碍AI分析

至少一名恶意软件开发者正在其间谍软件中加入关于核武器和生物武器的文本,以阻止自动AI分析。该技术将触发策略的内容放在JavaScript注释中,导致AI扫描器拒绝或误分类文件,但传统检测方法仍然有效。

  • 恶意软件在注释中使用虚假系统指令和触发策略的内容混淆AI分析。
  • 该技术针对的是LLM优先的初步分类系统,无法绕过YARA规则或静态检测。
站内正文

AI罗盘:一个关于AI伦理的30种原型测验

bambamramfan推出了一款名为“AI罗盘”的政治光谱风格测验,包含29道关于AI和AI伦理的问题,根据答案将用户归入30种原型之一。作者西蒙·威利森首次测试便被归类为“车库修理工”,并称赞其作为单页React应用的实现方式。

  • AI罗盘测验包含29道题目,涵盖AI及AI伦理话题
  • 30种原型根据回答进行分类
站内正文
Agent

ScarfBench:面向企业Java框架迁移的AI智能体基准测试

IBM Research推出ScarfBench,这是一个用于评估AI智能体在企业Java中跨框架迁移任务的开源基准。该基准包含34个应用程序、102个框架实现和204个迁移任务。目前顶尖智能体的行为成功率低于10%,突显了在迁移过程中保持行为的难度。

  • ScarfBench评估AI智能体在Spring、Jakarta EE和Quarkus之间的框架迁移能力,要求构建、部署和行为验证。
  • 基准包含34个应用程序、约2000个源文件和测试文件,以及1331个专家编写的测试。
站内正文

AI编码工具应超越编辑器

AI辅助编码工具目前主要集中在代码编辑器内,但软件开发是一个涵盖项目管理、编码和基础设施的循环。本文认为,AI助手应扩展到整个开发循环,通过自然语言接口连接所有三个支柱,从而更好地理解意图、检查自身工作并提高效率。

  • AI编码工具目前局限于编辑器,仅覆盖开发循环的编码部分。
  • 完整的开发工作包括项目管理、编码和基础设施三个支柱,形成循环。
站内正文

Anthropic Sonnet 5:缩小与Opus 4.8的差距,八月底前低价使用

Anthropic推出Sonnet 5,性能接近Opus 4.8,提供优惠价格至8月底。该模型在推理、工具使用和编码方面有显著提升,安全风险较低。

  • Sonnet 5性能接近Opus 4.8,但价格更低。
  • 优惠价格持续到8月31日,之后将恢复标准定价。
站内正文

展示HN:我构建了一个AI代理来对我大喊关于我的ADHD

一位ADHD患者开发了名为hex的AI代理,用于管理日程、任务、知识库等,并集成多种工具和专家系统,帮助应对ADHD带来的挑战。文章详细介绍了hex的功能、技术实现、遇到的困难以及作者的反思。

  • hex是一个为ADHD患者设计的AI代理,集成了日历、Todoist、Obsidian等工具。
  • 包括Freya(健康)和Carrie(职业)等专家系统,以及物理设备Watcher。
站内正文

在AI生成代码中通过ADRs和契约强制执行不变量

本文介绍了如何使用架构决策记录(ADR)和RFC 2119关键字来强制执行AI生成代码中的不变量。它描述了如何将架构决策记录为不变量,确保AI代理在生成代码前查阅这些记录,并通过确定性检查来防止违反。

  • 使用ADR将架构决策记录为可强制执行的不变量。
  • 利用RFC 2119关键字(SHALL、MUST)配合Gherkin场景指定行为需求。
站内正文

自主记忆:在主权限数据上管理访客代理

随着AI代理开始替代人类处理跨组织敏感数据,传统数据室无法约束代理的完美记忆。本文提出代理数据 enclave 的概念,并指出解决方案在于将记忆作为宿主操作系统的服务,而非代理的私有财产。

  • 传统数据室假设访客是人类,但AI代理具有完美记忆,导致数据泄露风险
  • 已有研究分别针对代理安全和跨组织数据共享,但缺乏两者交叉的解决方案
站内正文
芯片

国际清算银行警告:人工智能泡沫可能破裂并拖垮全球经济

国际清算银行(BIS)在其年度报告中警告,当前AI投资热潮与历史上的运河、铁路和互联网泡沫相似,过度投资可能引发全球经济衰退。大型科技公司2026年AI相关资本支出预计超过万亿美元,但回报不确定,且面临能源短缺等供应侧瓶颈。如果乐观情绪逆转,可能导致投资崩溃并波及金融市场。

  • BIS将当前AI投资热潮比作19世纪运河狂热、20世纪铁路狂热和90年代互联网泡沫。
  • 五大超大规模云服务商2026年AI资本支出预计超万亿美元,超出盈利和自由现金流。
站内正文
其余更新(17 条)
工具

Netflix在其威利·旺卡真人秀中使用AI生成的吉恩·怀尔德声音

Netflix新真人秀《旺卡的黄金票》将于9月23日首播,使用ElevenLabs公司AI生成的吉恩·怀尔德声音,已获其家属同意,延续了将虚构场景变为现实节目的趋势。

  • Netflix的旺卡真人秀于9月23日首播。
  • 旁白使用ElevenLabs AI生成的吉恩·怀尔德声音,并获得家属同意。
站内正文

OpenAI 发布最强新模型

Viktor 是一款为每个部门配备的 AI 员工,可在 Slack 和 Teams 中使用,每天交付实际产出。免费开始使用,并获得 100 美元积分。

  • Viktor 作为 AI 员工,为每个部门提供服务。
  • 在 Slack 和 Teams 中运行,每日产出实际成果。
站内正文
Agent

英伟达BioNeMo Agent Toolkit助力生命科学研究人员,与Claude Science集成加速AI应用

英伟达发布了BioNeMo Agent Toolkit,与Anthropic的Claude Science集成,使科学家能通过自然语言与AI代理交互,加速药物发现、基因组学等生命科学研究。该工具包整合了英伟达的加速模型、库和微服务,包括Parabricks、RAPIDS-singlecell和nvMolKit,显著提升计算速度。全球前20大药企中有18家使用英伟达BioNeMo。Claude Science现已进入公开测试。

  • 英伟达BioNeMo Agent Toolkit与Anthropic的Claude Science集成,提供加速的AI工作流
  • 工具包包含Parabricks、RAPIDS-singlecell和nvMolKit等加速工具,可大幅缩短计算时间
站内正文

Anthropic推出Claude Science:专为科研打造的AI工作台

Anthropic于周二推出Claude Science,这是一款面向科学家的新应用,可在macOS和Linux上本地运行或远程使用。该工具旨在整合科研人员常用的数据库和工具,如PubMed、Jupyter、R和终端,提供一站式研究环境。目前处于测试阶段,主要面向生命科学领域,但未来计划扩展。Claude Science基于标准Claude模型,通过协调代理访问超过60个数据库,并利用Nvidia BioNeMo工具包连接生命科学模型。它还能生成可视化内容(如3D蛋白质结构),并与高性能计算集群或Modal账户集成,处理大规模计算任务。

  • Anthropic推出Claude Science,一个集多种工具于一体的AI科研工作台,目前处于测试阶段。
  • 主要面向生命科学研究者,但可通过Claude付费计划(Pro、Max、Team、Enterprise)使用。
站内正文

SkillOpt:将智能体技能视为可训练参数

AI智能体常因手动修改技能指令而失败。SkillOpt将技能编辑转化为训练过程,在不改变模型权重的前提下提升智能体行为的可靠性。在52个评估单元中,SkillOpt均取得最佳或并列最佳结果,且优化后的技能文件紧凑、可审计、可迁移。

  • SkillOpt将技能文件视为冻结目标模型外部的可训练参数,通过优化循环改进性能。
  • 在六个基准测试、七种目标模型和三种执行模式下,SkillOpt在全部52个评估单元中表现最佳。
站内正文

使用AG-UI协议在Amazon Bedrock AgentCore上为AI代理构建生成式UI

本文介绍了AG-UI(代理-用户交互协议)如何集成到全栈AgentCore解决方案模板(FAST)中,以在Amazon Bedrock AgentCore上构建交互式代理前端。然后展示了CopilotKit如何通过生成式UI、共享状态和人机交互来扩展这一功能,所有这些都部署在Amazon Bedrock AgentCore上。

  • AG-UI是一个开放协议,标准化了代理后端与前端之间的动态事件通信。
  • FAST项目提供了两个AG-UI代理模式(agui-strands-agent和agui-langgraph-agent),共享一个前端解析器。
站内正文

使用Amazon Bedrock为货运物流构建双语命名实体识别系统

IBS Software利用Amazon Bedrock的模型蒸馏功能,从Nova Pro教师模型蒸馏到Nova Lite学生模型,构建了英日双语的命名实体识别系统,在货运物流邮件中提取23种实体类型,实现了95.085%的F1分数,同时将运营成本降低14倍。本文详细介绍了技术方法、面临的挑战和部署架构。

  • IBS Software使用Amazon Bedrock的托管蒸馏能力,将Nova Pro的知识蒸馏到Nova Lite,构建了英日双语NER系统。
  • 系统从500封货运物流邮件(350封英文、150封日文)中提取23种实体类型,实现了95.085%的F1分数。
站内正文

农业已准备好迎接AI,但数据尚未就绪

人工智能有望在农业领域带来变革,如提高作物产量、减少水和化学品的使用,但这些效果依赖于坚实的数据基础。文章指出,农业数据复杂且分散,来自物联网、天气、土壤等多种来源,若数据不完整或不准确,AI可能产生误导性结果。数据就绪包括建立统一的数据模型、严格的治理和实时数据管道,否则AI将面临“垃圾进,垃圾出”的风险。

  • AI可将作物产量提高26%,用水量减少41%,化学品使用减少33%,但前提是数据可靠。
  • 农业数据涉及物联网、天气、土壤、合规等多方面,需要统一数据模型。
站内正文

Tokenmaxxing的终结

Tokenmaxxing(通过烧毁Token制造生产力假象)正逐渐消失,原因是个人和企业开始关注AI使用成本。GitHub Copilot改为按信用点收费,以及推理模型和代理的兴起大幅增加了Token消耗。AI公司从快速增长转向盈利,导致价格上升。Token优化和问责成为新常态。

  • Tokenmaxxing因成本透明化而消亡
  • 推理模型和AI代理大幅增加了Token消耗
站内正文

AWS推出面向代理的桌面服务

AWS在短暂公开预览后,正式推出Amazon WorkSpaces for Agents,为代理提供云端虚拟桌面,使其能够操作遗留桌面应用,无需自定义集成。该服务支持MCP和计算机视觉代理,允许人类监视和干预。

  • Amazon WorkSpaces for Agents现已正式可用,为代理提供云端桌面环境。
  • 代理可通过MCP连接桌面,或利用计算机视觉进行屏幕截图操作。
站内正文

Claude Science:面向科学家的AI工作台

Anthropic推出Claude Science,这是一个为科学家设计的AI工作台,集成了常用工具,支持多智能体协作、可重现的科学制品生成以及按需计算资源管理。目前以测试版形式提供给Pro、Max、Team和Enterprise用户。

  • Claude Science是一个AI工作台,将PubMed、Jupyter、R等科学工具整合到一个统一环境中。
  • 它配备了一个协调智能体,可调用60多个针对基因组学、蛋白质组学等领域的预配置技能。
站内正文
模型

让你的AI代理用shot-scraper video录制工作演示视频

本文介绍了shot-scraper 1.10的新命令shot-scraper video,它通过YAML故事板定义测试流程,利用Playwright录制视频。作者强调编码代理自动生成演示的重要性,并展示了如何用该命令为Datasette新功能生成演示视频。该功能完全由GPT-5.5 xhigh编写,Playwright 1.61.0的解锁使其得以实现。

  • shot-scraper video允许编码代理自动录制工作演示视频。
  • 使用YAML故事板定义操作流程,Playwright负责录制。
站内正文

使用Amazon Bedrock和LLM网关实现韧性模式

本文介绍了五种实用的韧性模式,用于在AWS上构建生成式AI应用,从原生Amazon Bedrock功能发展到使用LLM网关的多模型编排。这些模式解决了实际挑战,如意外流量激增时的配额耗尽、通过推断地理分布最大化可用性,以及帮助防止多租户环境中的噪声邻居问题。

  • 介绍了五种韧性模式:Amazon Bedrock跨区域推断、多账户分片、模型故障转移、负载均衡和多租户配额隔离。
  • 模式采用爬行、行走、跑步的渐进式方法,可根据应用成熟度增量采用。
站内正文

Outpost VFX 如何利用 AWS 加速视觉特效的 AI 模型训练

Outpost VFX 通过与 AWS 合作,利用多 GPU 架构将面部替换模型的训练速度提升了 8 倍,交付时间从 1-2 周缩短至 2 天。

  • 传统单 GPU 训练需要 1-2 周,成为生产瓶颈。
  • 采用 AWS EC2 P5 实例和 PyTorch DDP 实现多 GPU 并行训练。
站内正文

微调Amazon Nova模型实现电子邮件数据准确提取

本文介绍如何通过Amazon SageMaker AI微调Amazon Nova模型,解决电子邮件数据提取中的幻觉和成本问题,实现高达94.77%的提取准确率并降低50%成本。

  • 微调Amazon Nova模型可显著提升电子邮件数据提取准确性。
  • Parcel Perform实际应用中准确率达94.77%,成本降低50%。
站内正文

Claude Sonnet 5 发布:新一代智能体模型,性能接近Opus 4.8,价格更低

Anthropic发布Claude Sonnet 5,这是迄今最具代理能力的Sonnet模型。它在推理、工具使用、编码和知识工作方面显著优于前代Sonnet 4.6,性能接近Opus 4.8但价格更低。即日起在所有计划中可用,并推出限时优惠价格。

  • Claude Sonnet 5是迄今为止最具代理能力的Sonnet模型,可自主规划、使用工具和运行。
  • 性能接近Opus 4.8,但价格更低,输入/输出令牌价格分别为$3/$15每百万(优惠期$2/$10)。
站内正文
芯片

AI数据中心面临新的威胁:极端天气

随着创纪录的热浪席卷欧洲,大型科技公司面临保持AI数据中心运行的新挑战。极端天气已成为苏黎世美国数据中心建筑风险组合中的主要损失原因,推动保险公司和运营商重新评估气候风险。

  • 极端天气成为苏黎世美国数据中心风险组合的主要损失原因,占公司损失的三分之一。
  • First Street研究显示,79%的全球数据中心容量面临洪水、强风和野火等气候灾害的高风险。