AI News HubLIVE

今日必读

Agent

2026年6月:LangChain通讯——Fleet值班副驾驶、Deep Agents评分标准等

LangSmith新增Fleet值班副驾驶用于告警分类、智能体计算机使用、语音跟踪调试和实验状态跟踪。还有Deep Agents评分标准、程序化子智能体、新的LangSmith部署课程,以及芝加哥、柏林、华盛顿特区和拉斯维加斯的即将举行的活动。

  • Fleet On-Call Copilot:一个预构建的智能体模板,用于通过代码、轨迹和运行手册进行告警分类和更新草稿。
  • 计算机使用:智能体现在可以使用隔离的虚拟计算机进行代码、文件和经身份验证的API调用。
站内正文

反对“伦理AI”

本文批判了以Anthropic为代表的“伦理AI”运动,认为其建立在一个未经证实的假设上:AI发展不可阻挡但可以引导向善。实际上,伦理AI既未能重塑认知习惯,也未能引导AI走向人道,反而充当了非伦理AI的受控反对派。文章通过分析Anthropic联合创始人Jack Clark的“世界构建”叙事,揭示了伦理AI的内在矛盾:声称无力减缓AI发展,却自信能控制其后果。

  • 伦理AI建立在“进步不可避免但可引导”的虚假假设上。
  • Anthropic的叙事通过科幻式世界构建,声称AGI必然到来但可塑造。
站内正文

为人工智能时代重新定位零售业

人工智能正在重塑零售业,但主要变化发生在幕后,如搜索排名、供应链管理和实时客户响应。梅西百货采用'AI优先'策略,将智能融入个性化、搜索和运营规划,并推出对话式购物助手Ask Macy's。AI被视为增强人类判断的隐形层,而非替代品。

  • 人工智能在零售业的应用主要体现在幕后决策流程,如商品搜索、库存管理和代码开发。
  • 梅西百货采用'AI优先'方法,将智能直接嵌入系统,加速业务决策并提升个性化体验。
站内正文
模型

银行为何需要首席科学家?

Prem Natarajan离开亚马逊,成为第一资本的首席科学家,将深度AI研究应用于解决大规模现实金融挑战,从欺诈检测到代理客户服务。

  • 第一资本将AI视为一门科学学科,而不仅仅是部署的技术。
  • 该银行的云优先基础设施支持大规模AI研究。
站内正文

DeepReinforce发布Ornith-1.0:开源编程模型家族,自我学习强化学习框架

DeepReinforce发布了Ornith-1.0,一个基于Gemma 4和Qwen 3.5的开源编程模型系列,涵盖9B至397B四种规模。其核心创新在于模型在强化学习过程中自主学习框架(scaffold),而非依赖固定的人造框架。旗舰版397B模型在SWE-Bench Verified上取得82.4分,所有权重均在MIT许可下开源。

  • Ornith-1.0包括9B、31B、35B-MoE和397B-MoE四种模型,均基于Gemma 4和Qwen 3.5,采用MIT许可证。
  • 模型在强化学习中自主学习编程框架,即同时优化框架和解决方案。
站内正文
工具

人工智能如何帮助解决其自身带来的能源挑战

数据中心公司高管表示,人工智能可以在管理其日益增长的电力需求的同时,支持能源转型目标。

  • 人工智能的快速发展导致电力需求激增,给能源系统带来压力。
  • 数据中心高管认为AI本身可以优化能源使用,支持可再生能源整合。
站内正文

Meta撤回强制工程师参与AI培训的决定

Meta最初将7000名员工重新分配到应用AI任务组,引发不满,现在改为尊重个人选择,允许他们退出。此决定发生在CEO承认士气低落的背景下,此前公司已裁员10%。

  • Meta强制7000名工程师加入AI培训任务组,引发员工强烈反对
  • 公司发布备忘录,改为尊重个人选择,允许退出
站内正文
芯片

人工智能经济现状

过去12个月,生成式AI经济创造了1100亿美元销售额,年化收入超过1750亿美元。本文通过自下而上的去重方法,首次全面衡量消费者和企业AI支出,分析需求侧、收入能否覆盖GPU投资以及代币价格下降对市场的影响。

  • AI生态系统过去12个月收入1100亿美元,年化运行率1750亿美元,增速是移动/互联网浪潮的3倍。
  • 研究采用去重方法,只计算终端客户支出,避免供应链重复计算。
站内正文

使用 NVIDIA Blackwell 优化 Amazon SageMaker AI 上的模型训练

本文介绍了如何在 Amazon SageMaker AI 上配置训练作业,以充分利用 NVIDIA Blackwell 架构的优势。您将学习如何选择批大小和序列长度以利用 Blackwell 的扩展内存,为模型大小(1B 到 64B 参数)选择合适的精度格式,并策略性地应用激活检查点。最终,您将获得一个实用的框架来调整训练配置并在 P6-B200 实例上启动分布式训练作业。

  • Blackwell 的扩展内存支持更大的批大小、更长的序列长度和简化的模型分片。
  • 激活检查点对于大模型(~14B+ 参数)是稳定训练的先决条件。
站内正文
政策

没有人愿意解决的AI记忆问题

本文探讨了长期运行的AI系统中的上下文漂移问题,指出真正的挑战不是模型能力的限制,而是架构设计导致的记忆退化,即架构幻觉。文章对比了LLM幻觉与架构幻觉,并提出了结构化记忆作为解决方案。

  • AI记忆随使用时间变差,源于上下文压缩而非模型能力下降。
  • 架构幻觉是系统自我反馈导致的上下文漂移,而非单纯模型错误。
站内正文
其余更新(10 条)
Agent

通过 Amazon SageMaker AI 部署 SeedVR2 实现超分辨率

本文展示了如何使用 SeedVR2 和 Amazon SageMaker AI 实现视频放大。我们介绍了解决方案架构、部署步骤,并进行了性能对比,突出了质量提升和处理效率。完成后,您将掌握实现该超分辨率解决方案的实用知识。

  • SeedVR2 是字节跳动开源视频修复模型,结合扩散模型和 GAN 实现高效视频放大。
  • 解决方案采用三层 AWS 架构,包括安全、存储和 SageMaker 处理管道。
站内正文

使用由Amazon Bedrock支持的AI代理构建自助式AWS健康分析,以发现可操作的健康洞察

本文介绍如何构建Chaplin(客户健康与计划生命周期智能连接器),这是一个开源解决方案,利用通过模型上下文协议(MCP)暴露的AI代理,提供自助式健康事件分析。Chaplin允许团队用自然语言提问,并从MCP兼容的AI助手获得精确、上下文化的答案,无需依赖AWS支持进行常规分析。

  • Chaplin是一个开源解决方案,使用AI代理通过MCP提供自助式AWS健康事件分析。
  • 它解决了运营团队依赖TAM解释健康事件的瓶颈问题。
站内正文

在AWS上使用现代数据网格策略构建自主AI应用

本文展示了如何在AWS上构建一个受治理的无服务器数据网格,为生产级自主AI提供安全、可扩展的数据基础。架构通过S3 Tables(Iceberg)、S3 Vectors和AgentCore Gateway实现三层治理,解决自主AI多步骤数据访问中的授权问题。

  • 自主AI需要从工具发现到查询执行的每一步都进行细粒度访问控制,传统RAG的单点治理模式无法满足。
  • 使用Amazon S3 Tables(内置Iceberg支持)和AWS Lake Formation实现行/列/单元格级安全,交易性能提升10倍。
站内正文

OpenKnowledge:开源、AI原生的Obsidian/Notion替代品

OpenKnowledge 是一个开源、AI原生的Markdown编辑器和知识库,旨在成为Obsidian或Notion的替代品。它提供了美观的富文本编辑器,底层基于Markdown,专为人类和AI代理协同工作而设计。功能包括协作编辑、Git同步、代理原生技能、与Claude、Cursor和Codex集成的MCP支持,以及本地优先、注重隐私的方式。v2.0版本发布后,24小时内获得1400个新注册,登上Product Hunt第一名和Hacker News首页。

  • OpenKnowledge是一个开源、AI原生的Markdown编辑器和知识库。
  • 它提供基于Markdown的富文本编辑器,支持人类和AI代理协同编辑。
站内正文

Tabularis:开源桌面SQL客户端,AI代理也可使用

Tabularis 是一款开源的桌面数据库客户端,专为AI代理和人类用户共同使用而设计。它内置MCP服务器,支持AI代理安全地检查模式和运行查询,同时保留高级SQL编辑器、笔记本、可视化查询构建器等人类友好功能。支持PostgreSQL、MySQL、SQLite等多种引擎,并通过插件扩展。采用本地优先架构,确保数据安全。

  • 内置Model Context Protocol (MCP) 服务器,AI代理可直接在应用内执行查询
  • 提供Monaco SQL编辑器、笔记本、可视化EXPLAIN和ER图等专业工具
站内正文

使用 Gemini 创建 Google 表格

本教程介绍了三种利用 Gemini 创建 Google 表格的方法:在电子表格内直接使用内置集成、通过 Gemini 网页应用生成并导出、以及使用 Gemini 编写 Google Apps Script 实现高级自动化。同时提供优化提示以获得更好结果的建议。

  • Gemini 是 Google 表格中的 AI 集成工具,可通过自然语言创建、填充和分析电子表格。
  • 方法一:在 Google 表格内部使用 Gemini 边栏,通过提示生成表格、公式和分析。
站内正文

代码审查已死,代码审查万岁

传统的人工代码审查流程在AI生成代码爆发的时代已无法扩展。本文提出用自动化CI/CD门控替代仪式性的人工审批,构建四层质量门控管道,将人类审查保留给高风险变更,并通过后合并审查建立反馈循环。

  • AI使代码产出速度远超人工审查能力,传统审查模式失效。
  • 自动化门控(lint、SAST、测试、分支保护)保证一致性和速度。
站内正文

使用AI智能体自动化fork维护 | Cohere

本文介绍了一种利用AI编码智能体自动化软件fork与上游同步的方法,通过将fork维护建模为控制论中的闭环反馈系统,显著缩短了吸收新上游版本的时间。以Cohere的vLLM fork为例,展示了从冲突解决到测试修复的全自动流程。

  • AI智能体可自动化fork维护的完整循环:同步、测量、修复、重复。
  • 将fork维护视为控制论中的反馈系统,智能体充当控制器。
站内正文
研究

混合模型在哪些token上预测得更好?

Ai2团队比较了7B参数规模的Transformer模型Olmo 3和混合模型Olmo Hybrid,发现混合模型在内容词(名词、动词、形容词)和需要上下文推理的token上表现更优,但在重复token和闭合括号上优势消失。研究表明,基于token的损失过滤可以揭示架构间的细微差异。

  • 混合模型在含义丰富的token(如实词)上预测更准确,而在重复token上优势消失。
  • 混合模型使用递归层替代部分注意力层,具有固定大小的记忆,适合跟踪序列变化。
站内正文

借助AI解释与实验,深入理解大脑

微软研究院与合作者提出生成式因果测试(GCT),将黑箱模型转化为可验证的假设,揭示大脑特定区域对语言中不同概念的响应。

  • GCT将大脑预测模型提炼为简短的语言解释。
  • 通过生成新故事在fMRI中验证解释的正确性。