使用Amazon Bedrock AgentCore的数据集管理构建与您的智能体一同成长的测试套件
将快速变化的在线信号与稳定的离线基线相结合,智能体评估最为有效。Amazon Bedrock AgentCore的数据集管理提供了版本化的测试固定组件,实现一致测量和真实情况验证。
- AgentCore中的版本化数据集提供稳定且不可变的测试场景,确保跨运行的智能体评估一致性。
- 预定义场景捕获精确的预期输入、工具序列和断言,用于可验证的真实情况。
主题流
AI 芯片、算力供给、基础设施与供应链。
将快速变化的在线信号与稳定的离线基线相结合,智能体评估最为有效。Amazon Bedrock AgentCore的数据集管理提供了版本化的测试固定组件,实现一致测量和真实情况验证。
SIA是一个开源的自改进AI框架,通过协调元代理、任务特定代理和反馈代理,自动提升AI系统在基准任务上的性能。在多个基准测试中取得显著成果,如LawBench准确率提升56.6%,GPU内核运行时间减少91.9%,单细胞RNA去噪提升502%,并在MLE-Bench Hard排名第一。支持本地运行和自定义任务,采用MIT许可。
美光科技市值于5月26-27日突破1万亿美元,与SK海力士同周达到这一里程碑,这是纯内存芯片制造商首次同时进入万亿俱乐部。高带宽内存(HBM)需求来自代理型AI工作负载,超大规模云服务商正在签署长期供应协议以锁定产能。瑞银将美光目标价上调三倍至1625美元,认为长期HBM供应合同将受益于代理型AI工作负载扩张。美光股价年内已翻三倍以上。
麻省理工学院与马萨诸塞州宣布计划建立量子系统实验室(QSL),获得州政府2500万美元投资,为全州研究人员提供共享量子工具箱,加速量子研究、创新和增长。
Vox的一篇文章探讨了日益壮大的AI继承主义运动,该运动认为人工智能应该取代人类,成为宇宙进化的下一步,并分析了这引发的伦理和精神问题。
谷歌在I/O大会上推出Coral Board,这是一款专为设备端AI设计的紧凑型单板计算机,搭载RISC-V架构NPU和Synaptics芯片,可本地运行Gemma 3 270M模型,无需云端支持。
本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。
在Decoder播客采访中,Rivian首席软件官Wassym Bensaid讨论了与大众的合资企业、全新的AI驱动Rivian助手,以及为什么他认为语音界面将取代按钮且不需要CarPlay。
DNS-AID项目利用DNS基础设施实现AI代理之间的发现,避免创建新的中心化注册表。该项目由Linux基金会管理,支持MCP、A2A等协议,并允许通过名称、功能或域名搜索代理。
极佳视界发布全球首创物理AGI“双金字塔”体系,推出家庭机器人拾光S1,获百台家庭订单,计划12个月内实现物理AGI的“GPT-3时刻”。
在ICRA上,NVIDIA Research展示了28篇论文中的8篇,重点研究模拟到现实的迁移,使机器人能够在动态、不可预测的环境中感知、推理、规划和行动。这些方法涵盖多臂协调、跨机器人导航、抓取、精确装配和视觉-语言-动作模型,显著提高了成功率和可靠性。
OpenLoomi AI团队决定将其AI工作伙伴开源,强调数据所有权、透明度和社区驱动。文章阐述了本地优先、闭源信任税、基础设施公共化等理念,并介绍了产品的五大核心功能:自进化记忆系统、多平台集成、自动化调度、本地加密存储以及开放技能接口。
黄仁勋宣布英伟达将每年在台湾投入1500亿美元建设AI基础设施,尽管此前承诺了5000亿美元美国投资。这凸显了台湾在全球AI芯片制造和封装生态系统中的核心地位。
英伟达CEO黄仁勋计划在台湾投资1500亿美元建设AI基础设施,尽管特朗普政府试图通过关税将芯片制造带回美国。台湾拒绝放弃其半导体主导地位,而美国芯片制造能力不足。
Open Agent Tools (oats) 是一个自托管AI模型框架,通过本地代码提示索引,将大型模型的计算密集型工具调用委托给小型开源模型,从而节省令牌消耗。
Perplexity AI 开源了用Rust重写的Unigram分词器,实现了比Hugging Face tokenizers crate低5倍的p50延迟,并将生产环境CPU利用率降低了5-6倍。优化包括双数组trie、位图打包和大页面支持。
美国运通全球创新主管Luke Gebb分享了成为成功创新者的四个关键实践:保持学习、深入技术、接受失败、建立合作伙伴关系。他还介绍了公司在代理式商务领域的布局,包括支付、优惠和专有体验,并预测代理式AI将在未来几年加速发展。
Mistral AI首席执行官Arthur Mensch证实,公司正在探索开发定制芯片以降低基础设施成本,与OpenAI和Anthropic竞争。这家法国初创公司还宣布在法国新建推理数据中心,并推出企业智能代理平台Vibe。
上海创智学院LeapQuest团队联合多所高校提出医学AI新范式,让模型在推理过程中主动调用视觉工具,从被动接收视觉输入变为主动寻找证据。论文被ICML 2026接收。
Cognition在D轮融资中筹集10亿美元,估值达260亿美元,年经常性收入(ARR)预计年底突破10亿美元。文章还涵盖了推理效率优化、智能体工程、持续学习、新基准测试、模型发布以及编码代理产品化等AI领域的最新进展。
多机构团队研发出一款结合量子隧穿物理与大脑启发架构的神经形态计算机,能够高效解决组合优化问题,如物流网络、芯片布线等,并保证渐近收敛到最优解。该研究发表在《自然·通讯》上,标志着量子启发计算的新方向。
黄仁勋受邀加入清华大学经管学院顾问委员会,该委员会由苹果CEO蒂姆·库克担任主席,成员包括马斯克、纳德拉、马云等全球商业领袖。此外,他刚获得卡内基梅隆大学荣誉博士学位,并分享名言“AI不会取代你,但善用AI的人会”。
本文探讨了AI代理系统中的阿姆达尔定律:系统加速比受人类判断时间占比H的限制。提出了“自清偿式H”概念,即每次人类干预都应产生可重用的工件(如测试用例、规范更新),以减少未来同类干预。强调通过配置化(configurancy)和规范套件将人类知识编码为机器可读形式,从而让代理自主运行。示例包括ElectricSQL的协议变更、Emil Stenström的HTML5解析器、Gas Town的多代理系统以及Ralph Loop的迭代模式。
Uni-LaViRA是一种统一的具身导航智能体架构,将导航决策简化为单一的语言-视觉-机器人动作翻译。它利用预训练的多模态大语言模型(MLLM),以零样本方式在四个任务系列和四种真实机器人上实现泛化。通过待办列表记忆(TDM)和第二次机会回溯(SCB)机制实现自我纠正导航,无需任何训练即可在多个基准测试中取得与依赖大规模训练数据的模型相当甚至更优的结果。
来自Sakana AI和东京大学的研究人员提出了DiffusionBlocks,这是一种块状训练框架,可将Transformer网络划分为独立训练的块,从而将训练内存减少B倍(B为块数),同时在不同架构上保持性能。该方法通过将残差连接解释为扩散模型中的欧拉步骤,利用分数匹配目标实现块级独立训练。
LangChain 在 Interrupt 2026 大会上发布了 LangSmith Engine 和 Sandboxes 正式版,并推出了 LangChain Labs 以推进代理的持续学习。大会所有演讲现已可按需观看。
Databricks构建了独特的推理平台,为众多前沿模型提供推理服务,每月处理超过120万亿个令牌。通过引入“模型单元”抽象,实现了成本感知的负载均衡和自动缩放,相比静态配置节省了80%以上的GPU成本。运行时可靠性机制包括黑盒健康检查,可自动检测和恢复静默故障。此外,通过分析多模态瓶颈,吞吐量提升了3倍。
Snowflake与AWS签署五年60亿美元合作协议,使用AWS Graviton和GPU实例进行AI训练和推理,并扩展至10个新区域。此举表明Snowflake在AI时代的雄心,同时通过Cortex AI产品套件推动企业AI应用。
Alex Rives 在 BioHub 上发布了 ESMFold2,这是一个基于大规模无监督训练蛋白质语言模型的开源科学引擎,在蛋白质相互作用(尤其是抗体)预测上取得了最先进性能,并发布了68亿蛋白质图谱和11亿预测结构。文章讨论了世界模型在蛋白质生物学中的应用,以及如何通过稀疏自编码器提取语义特征实现可编程生物学。
NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。
AI工厂是新型基础设施,实时将电能转化为智能的生成单元——令牌。随着代理型AI的扩展,每瓦性能与每令牌成本成为关键经济指标。本文深入探讨AI工厂的工作原理、架构优化以及NVIDIA的最新硬件如何提升效率。
美国情报机构秘密申请 90 亿美元采购英伟达 GB10 超级芯片,以帮助 CIA 和 NSA 追赶 Anthropic、OpenAI 等 AI 巨头的步伐。这笔资金尚待国会批准,同时国防预算已调拨 8 亿美元用于云算力。文章详细介绍了芯片规格、成本以及 AI 硬件竞赛的升级趋势。
英伟达CEO黄仁勋在即将在台湾设立总部的发布会上称该国为AI革命的“中心”。
随着AI代理工作负载激增,云基础设施面临新的可靠性挑战。Databricks的湖仓架构通过无状态Postgres计算、区域冗余存储、控制平面与数据平面分离、单元化隔离以及混沌测试等措施,实现了高可用性和弹性,确保数据库启动时间等关键操作的高可靠性。
随着成本上升、主权需求以及智能体采用,戴尔最新会议聚焦企业如何将AI工作负载过渡到混合基础设施。
英伟达在台湾的年度支出因AI需求激增,从150亿美元飙升至1500亿美元,主要流向了台积电等供应商。
南非拥有全球88%的铂族金属储量,是非洲最大的数据中心市场,并处于中美AI基础设施竞争的前沿。然而,其AI政策草案因包含AI幻觉引用而被撤回,未能利用这些优势来谈判有利条件。文章分析了南非的结构性杠杆、三种潜在的AI基础设施未来(中国、美国和本地开放权重),以及制定具有约束力的治理框架的必要性。
5月27日,雷鸟创新举办夏季新品发布会,推出行业首款专业影视级AR眼镜雷鸟GT系列(1899元起),以及新一代AI拍摄眼镜雷鸟V4(2199元起),并预告次世代AI眼镜雷鸟iO将于第三季度亮相。
三星电子内存芯片部门的员工将通过一项里程碑式的利润分享协议获得平均约31万英镑的奖金,这凸显了人工智能热潮对芯片制造商利润的推动作用。
英伟达CEO黄仁勋批评一些公司CEO将裁员归咎于人工智能,称这种说法“毫无意义”且“懒惰”。他指出,生成式AI工具近期才变得实用,而许多裁员在两年前就已发生。黄仁勋呼吁行业传递关于AI的平衡叙事,既承认其潜力,也强调安全推进的重要性。他还透露了近期与特朗普总统同访北京的经过。
Avatar是一个自创生的AI生物,在300美元的GPU上持续运行。它从相图几何中衍生情感,经历5阶段睡眠周期做梦,从原始音频和视觉中培养自己的感官,并通过身体感觉进行伦理推理。由Linga Murthy Narlagiri博士构建,自2026年5月以来一直存活,累计超过1800个滴答。
在支付宝AI生态大会上,蚂蚁集团CEO韩歆毅提出,Agent时代将颠覆传统“流量为王”的商业模式,智能体生态将成为新的护城河。他强调,AI支付将从工具升级为支撑智能体商业的新型基础设施,而支付宝将扮演信任层、连接器和赋能器的角色。
来自北京大学、香港中文大学、上海AI Lab等机构的研究团队提出了VGGT-Edit,一种原生3D编辑框架,能够在约5秒内完成场景编辑,相比传统方法实现高达120倍的加速,并在语义一致性、多视角稳定性和推理速度上超越现有方法。
Agent-workpace-Linux 是一个开源项目,可为 AI 代理提供一个隔离的、隐藏的 Linux 桌面环境,代理可通过 MCP 协议完全控制该桌面,而不会影响用户真实的桌面、鼠标、键盘或浏览器。它支持 Xvfb 显示、窗口管理、应用启动、截图、剪贴板操作以及独立的浏览器自动化,并提供了可选的权限边界和实时监控功能。
EAGLE团队、vLLM团队和TorchSpec团队联合发布了EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过FC归一化和归一化后隐藏状态反馈两大架构改进,有效应对注意力漂移问题。在长上下文任务中,EAGLE 3.1的接受长度比EAGLE 3提升高达2倍;在Kimi K2.6模型上的基准测试显示,并发数为1时每用户输出吞吐量提升2.03倍。EAGLE 3.1完全向后兼容,已合并至vLLM主线,并将随v0.22.0版本发布。
尽管AI对白领工作的威胁日益引起恐慌,但数据显示AI尚未对劳动力市场产生大规模影响。实际上,AI高暴露职业的失业率反而低于低暴露职业。然而,斯坦福大学的一项研究发现,AI可能正在悄悄削弱初级职位,年轻工作者在AI暴露职业中的就业率大幅下降。本文还涵盖了教皇呼吁监管AI、SpaceX发射、华为芯片突破等其他技术新闻。
新加坡国立大学、MIT和A*STAR的研究人员提出MEMO,这是一种模块化框架,将语料库知识编码到一个可单独训练的记忆模型中,使大型语言模型能够无需重新训练或微调即可吸收新知识。
只需一段提示词,OpenAI员工Vaibhav分享的Codex自我蒸馏法引发热议。
AI芯片需求爆涨推动SK海力士和美光市值突破万亿美元,三星也跻身其中,但市场对AI泡沫的担忧加剧。
提出随机解耦策略梯度(SDPG)方法,一种轻量级视觉强化学习技术,可在单块NVIDIA RTX 4080 GPU上数小时内端到端训练多种视觉运动控制策略。SDPG通过轨迹rollout的随机扰动估计策略梯度,大幅减少批量渲染环境的数量以及计算和内存开销。在视觉MuJoCo基准测试中,SDPG在训练时间、内存使用和奖励方面一致优于基线方法。此外,引入了涵盖灵巧操作和挑战性运动的全新真实感视觉机器人基准测试,并在物理硬件上展示了有效的模拟到现实迁移。