AI News HubLIVE

今日必读

Agent

olmo-eval:面向模型开发循环的评估工作台

olmo-eval 是一个新的评估工作台,旨在支持 LLM 开发过程中持续进行的模型评估。它建立在 OLMES 标准之上,提供灵活的任务定义、可交换的运行时策略以及详细的逐问题比较功能,帮助开发者判断每次干预的效果是否显著。

  • olmo-eval 针对模型开发中的反复评估循环而设计,支持快速添加基准、跨检查点运行和细粒度结果分析。
  • 与 Harbor 等工具不同,olmo-eval 提供轻量级和沙箱两种运行模式,并根据基准需求自动选择。
站内正文

VibeClip:开源AI视频编辑器,通过聊天控制剪辑

VibeClip 是一款开源、自托管的 AI 视频编辑器,用户只需通过聊天即可将长视频转换为带有字幕的 9:16 短视频。它使用本地 faster-whisper 进行转录,并通过 LLM 智能分析精彩片段,支持多种 LLM 提供商,且数据完全由用户掌控。

  • 开源、自托管,支持 Docker 一键部署
  • 通过自然语言聊天进行视频编辑,如裁剪、去除填充词、添加样式等
站内正文

ChatSee筹集650万美元,为企业AI代理构建“故障记忆”

ChatSee.AI Inc.筹集了650万美元种子资金,致力于为企业自主AI系统提供故障智能层。该轮融资由True Ventures领投,旨在通过观测代理故障、记录上下文及修复方式,构建故障知识库,帮助AI代理避免重复错误。

  • ChatSee获得650万美元种子轮融资,True Ventures领投。
  • 公司开发故障智能层,专门用于观测和分析企业AI代理的失效。
站内正文

Show HN: StackScope – 我爬取了四万多个独立产品发布,看看他们用了什么技术

StackScope是一个分析早期创业产品技术栈的网站,已分析超过41,763个产品发布,追踪了4851种技术。它揭示了39%的产品使用Cloudflare,19%有强AI生成模式,并且发现了一个矛盾:1255个产品既屏蔽AI爬虫又发布了llms.txt文件。

  • StackScope分析了来自Product Hunt、Hacker News和PeerPush的41,763个产品发布
  • 追踪了4851种技术,包括托管、框架、AI信号、安全等
站内正文

Swamp之所以有趣,是因为它不信任AI

Swamp是一个专注于工作流可靠性的AI工具,与当前追求自主代理的主流趋势相反。它强调确定性检查、可执行的工作流定义,以及将组织流程从文档转化为可执行代码。来自SRE背景的作者认为,未来可能不是自主代理,而是可靠的代理。

  • Swamp反主流,专注可靠性和确定性,而非AI自主性。
  • 它把工作流作为一等公民,帮助定义和执行组织流程。
站内正文

展示 HN:消费 Hacker News 的糟糕方式——AI 垃圾内容

这篇文章展示了一个模拟的 Hacker News 评论流,其中所有评论均由 AI 生成,充满空洞的流行词和肤浅的分析,以讽刺当前 AI 生成内容泛滥的现象。

  • 该帖子模拟了一个由 AI 生成的 Hacker News 评论流,涵盖多个话题。
  • 评论被故意设计为充满流行词和空洞分析,以突出 AI 生成内容的肤浅。
站内正文

从机器学习工程师到AI原生:重新技能化以占据优势

本文探讨了机器学习工程师如何应对AI代理自动化的冲击,强调核心技能是数据严谨性和判断力,这些能力在AI原生世界中至关重要。通过将人类判断与代理驱动的实验循环相结合,工程师可以更快地迭代并解决复杂问题。文章以微调Llama模型提取文档字段的实际案例展示了这一过程。

  • 机器学习中的通用层(如数据管道、标准模型训练)正被AI代理自动化,但绑定到业务目标的深层建模工作依然稳健。
  • 数据严谨性(如怀疑过高的分数、检测数据泄露)是AI原生世界中最稀缺的技能,可以无缝转移。
站内正文

如何为AI代理选择合适的沙箱

了解如何为AI代理选择安全的沙箱,包括文件系统隔离、网络访问控制、资源限制和微虚拟机等方面的指导。

  • AI代理需要沙箱来安全运行代码,减轻提示注入风险。
  • “致命三要素”(敏感数据、不受信任内容、外部通信)使代理易受攻击。
站内正文
创业融资
芯片

特斯拉、SpaceX和xAI联手启动史上最宏大的芯片制造计划

特斯拉、SpaceX和xAI联合推出Terafab项目,旨在通过整合逻辑、存储和先进封装技术,大规模生产AI芯片,推动星际文明发展。项目计划建设1亿平方英尺的超级工厂,年产1太瓦芯片,并探索太空计算以降低成本。

  • 三家公司联合打造Terafab芯片制造项目
  • 目标年产1太瓦AI芯片,支撑星际旅行和机器人
站内正文
其余更新(114 条)
Agent

使用 Amazon Quick 和 Cisco Webex MCP 服务器构建会议准备与跟进助手

本文介绍了如何利用 Amazon Quick 和 Cisco Webex MCP 服务器,通过单一提示构建自定义会议准备与跟进助手。助手可查找即将召开的会议、回顾先前会议摘要、提取相关 Vidcast 亮点、搜索未解决的跟进事项,并生成简报。会后,同一助手可总结讨论、识别行动项并草拟跟进消息。

  • Amazon Quick 与 Cisco Webex MCP 服务器集成,打造对话式会议助手,简化会前准备和会后跟进。
  • 助手通过 Webex Meetings MCP、Vidcast MCP 和 Webex Messaging MCP 获取会议信息、视频内容和消息。
站内正文

从PDF到洞察:利用AWS生成式AI服务构建智能文档处理流水线

本文介绍了如何利用Amazon Bedrock及其特性(如BDA、Strands Agent和知识库)构建一个成本效益高、可扩展的智能文档处理流水线,能够自动从文档中提取、分析并理解上下文,无需大量开发工作。

  • Amazon Bedrock Data Automation (BDA) 提供统一API,支持多模态内容提取,理解文档上下文并提供置信度分数。
  • 流水线包含输入处理、提取与存储、智能分析和代理协调四个集成层。
站内正文

本周AI:下一代推荐体验

本期节目邀请到前微软首席研究员、RecoMind创始人Miguel Fierro,探讨推荐系统的现状及其在企业中的重要性。同时,AI布道师Christina Stathopoulos还总结了Anthropic的发展、负责任AI、Google I/O 2026公告等AI新闻。关键见解包括:推荐系统可为企业带来巨大收入增长,但大多数公司投资不足;真正的销售代理需要推荐系统,而非简单的对话代理;负责任AI的讨论已从研究圈扩展到社会各界。

  • 推荐系统是许多公司忽视的增长引擎,亚马逊、Netflix和TikTok等巨头已从中获得显著收益。
  • 顶尖推荐系统将用户行为视为序列预测问题,使用万亿参数模型,但中小型企业可通过开源工具如Recommenders库入门。
站内正文

将Claude Code与本地模型配对使用

本文介绍了如何将Claude Code与本地推理后端(Ollama、LM Studio、llama.cpp)配对,以降低API成本并避免速率限制。详细说明了环境变量配置、模型选择建议以及常见问题的解决方法。

  • 本地模型在2026年已足够胜任代码补全、重构、调试等日常任务,且零成本、无速率限制。
  • 通过设置ANTHROPIC_BASE_URL和环境变量,Claude Code可直接连接本地推理服务器。
站内正文

由内而外构建:AWS专业服务如何率先成为前沿团队

AWS专业服务通过从根本上重建交付流程,而非仅仅添加人工智能工具,将项目时间从数月压缩至数天。本文分享他们如何成为前沿团队及其实现这一转变的实践。

  • AWS专业服务通过由内而外重建交付流程,将时间从数月压缩至数天。
  • 创建了APEX探路团队和交付代理多智能体系统。
站内正文

OpenAI收购Ona,推动Codex向长时间自主编码任务迈进

OpenAI收购了原名Gitpod的初创公司Ona,该公司专注于AI代理和安全的云端开发环境,旨在增强Codex执行长时间自主编码任务的能力。

  • OpenAI收购了德国基尔初创公司Ona(原Gitpod)。
  • Ona专注于AI代理和安全云端开发环境。
站内正文

OpenAI推出新学院课程,助力下一代工作方式

OpenAI推出了三门学院课程,帮助人们培养实用的人工智能技能、创建可重复的工作流程,并在日常工作中应用智能代理。

  • OpenAI发布三门新学院课程,重点培养AI实用技能。
  • 课程涵盖创建可重复的工作流和在工作中应用AI代理。
站内正文

Moonshot AI发布Kimi Work:本地桌面代理运行于Kimi K2.6,拥有300个子代理的代理群

Kimi Work是Moonshot AI推出的本地桌面AI代理,支持macOS和Windows。它能在用户本地运行多达300个子代理的代理群,通过WebBridge控制已登录的浏览器,并内置定时任务引擎。基于Moonshot的旗舰模型Kimi K2.6(混合专家模型,激活参数约320亿,上下文窗口256K),它可读取本地文件、运行Python脚本、生成报告和幻灯片。与云端代理不同,它直接在用户桌面上执行操作,保证数据本地化。

  • Kimi Work是本地桌面代理,而非云端工具,可直接访问用户本地文件和浏览器会话。
  • 支持最多300个子代理并行工作,协调完成复杂任务。
站内正文

什么是客户细分?

客户细分是根据共同特征将现有客户群体划分为更小的组,以便定制营销和服务。本指南涵盖细分类型、方法、重要性、挑战以及AI如何改变细分方式。

  • 客户细分关注现有客户,使用第一方数据,与覆盖潜在买家的市场细分不同。
  • 有效的细分结合多种类型(人口统计、行为、价值等)和方法,从基于规则到AI/ML驱动。
站内正文

使用MONAI和UNet进行端到端3D脾脏分割的编码实现(基于医学CT体积数据)

本教程使用MONAI构建端到端3D医学图像分割流水线,在Medical Segmentation Decathlon Task09数据集上进行脾脏分割。涉及CT体积数据处理、医学图像变换(方向对齐、体素间距归一化、强度窗宽、前景裁剪、基于补丁的采样),训练3D UNet模型进行二元器官分割。采用混合精度训练、DiceCE损失、滑动窗口推理、Dice验证及定性可视化,从原始医学体积到完整的训练-验证-可视化分割系统。

  • 使用MONAI和3D UNet在医学CT体积上实现脾脏分割。
  • 包括数据预处理、增强、训练、验证和可视化完整流程。
站内正文

AINews:循环艺术:堆叠循环的技艺

本文探讨了AI领域中的“循环”概念,即设计自动循环来驱动代理,而非手动提示。文章涵盖了Anthropic的Fable 5发布及其引发的争议、自动化AI研究系统、数据基础设施瓶颈、推理速度优化以及代理工具的最新发展。

  • 提倡使用循环而非手动提示来最大化AI代理的效率和杠杆作用。
  • Anthropic的Fable 5因隐蔽降级而引发争议,随后政策被撤回。
站内正文

DARRMS——资源受限多智能体系统中动态注意半径的高效算法

arXiv新论文提出DARRMS算法,通过动态调整智能体的注意半径来降低计算资源需求,在保持性能的同时提升多智能体系统的协调性和可扩展性。理论分析与实验验证表明,该自适应观察方法在资源受限环境中有效提高了系统性能和决策鲁棒性。

  • DARRMS算法允许智能体限制观察范围至动态注意半径,忽略非必要环境信息以节省计算资源。
  • 算法同时优化注意半径和决策策略,提升不确定环境下的协调与可扩展性。
站内正文

G-MAPP:GPU加速的多智能体规划与感知实现反应式运动生成

本文提出G-MAPP框架,利用GPU加速世界建模和基于向量场的规划,实现高达5倍的加速,并紧密耦合感知-行动循环,用于非结构化环境中的实时反应式运动生成。在7自由度Franka Emika机器人上的实验验证了其有效性。

  • GPU加速使规划速度比CPU版本提升5倍
  • 更紧密的感知-行动循环耦合,实现实时反应式运动
站内正文

从AGI到ASI:通用人工智能向超级智能的演进路径

一篇新预印本论文探讨了从人类水平的通用人工智能(AGI)向人工通用超级智能(ASI)的过渡,提出了四种潜在路径:扩展AGI、AI范式转变、递归改进以及大规模多智能体集体涌现的ASI。论文还讨论了这些路径上的摩擦与瓶颈,并指出AI进步可能加速,导致一系列变革而非单一突破。

  • AGI从空想变为未来十年的具体目标。
  • ASI被定义为比大型人类组织更具智能的系统。
站内正文

为AI代理提供战略决策支持

传统决策支持研究人类如何利用机器学习模型做出更好决策,但现代AI代理系统中角色反转,AI代理代表用户行动,人类和工具成为支持机制。本文提出一个框架,通过优化问题最小化支持使用,同时控制反事实的遗漏支持错误——即代理在独立行动时若获得支持本可改善输出的概率。最优策略是基于支持价值的阈值规则,并开发在线算法适应性地调整阈值,使用随机探索控制错误,还引入即时校准减少不必要的支持调用。实验表明该方法可靠地控制目标错误并大幅减少支持使用。

  • 现代AI代理系统中角色反转,AI代理是中心行动者,人类和工具提供支持。
  • 提出框架通过优化最小化支持使用,控制遗漏支持错误。
站内正文

将AI智能体视为热心但容易犯错的人类实习生——在失去控制之前

AI智能体正从简单的聊天机器人演变为能够自主操作应用和数据的数字员工,带来了安全与治理难题。专家建议将其视为需要严格监督的人类实习生,限制权限、明确意图,并持续监控。平衡独立性与控制力是关键。

  • AI智能体需要明确约束和人类监督,防止越权行为。
  • 智能体的不可预测性带来了新的安全与治理挑战。
站内正文

OpenAI收购AI代理编排初创公司Ona

OpenAI宣布收购Ona,这是一家提供云沙箱平台管理长时间运行AI代理的初创公司。Ona的技术使AI代理能在开发者关机后继续工作,并增强安全性。OpenAI将利用该技术改进其Codex AI助手,提升其执行长时间任务的能力。交易条款未披露。

  • OpenAI收购了Gitpod GmbH旗下的Ona公司,后者提供云沙箱环境以运行长时间AI代理。
  • Ona平台通过哈希技术检测伪装程序,并防止代理访问敏感文件或恶意服务器。
站内正文

FinOps AI治理要求新KPI,代币经济学重塑企业成本模型

随着企业AI支出加速,FinOps AI治理面临压力测试。传统的成本优化手段(如标签、合理调整大小和预留容量)在代币、不透明计费和快速变化的架构面前显得不足。根据FinOps基金会报告,98%的从业者管理AI支出,但多数缺乏可见性和治理结构。自动化成为必需,跨团队协作对于理解成本背景至关重要。

  • 传统FinOps工具无法有效管理以代币为基础的AI成本模型。
  • 98%的FinOps从业者管理AI支出,但可见性和治理结构不足。
站内正文

Upriver融资1400万美元,用于自动化企业AI数据工程

以色列数据工程初创公司Upriver Data Ltd.宣布获得1400万美元新融资,用于自动化企业为成功实施人工智能项目所需的数据工作。该公司由首席执行官Ido Bronstein和首席技术官Omri Lifshitz于2024年创立,构建了一个AI原生平台,可连接组织的完整数据栈,自动解决数据质量问题并维护管道,使AI系统能够运行在可靠的数据基础上,无需工程团队持续手动维护。资金将用于扩大工程和上市团队、深化产品开发并加速企业部署。

  • Upriver筹集1400万美元种子轮融资,由Valley Capital Partners和Hetz Ventures领投。
  • 平台自动化端到端数据工程工作流,包括发现和解决质量问题、维护管道和创建新数据集。
站内正文

为AI解锁语义:梅赛德斯-奔驰韩国如何大规模构建可信的“与数据对话”

梅赛德斯-奔驰韩国在Databricks平台上构建了统一的语义层,将500多个KPI定义从Power BI迁移到Unity Catalog,利用Genie和Agent Bricks实现AI与BI的一致语义,并通过自动化DAX到指标视图的转换器加速迁移,为其他市场提供了参考。

  • 梅赛德斯-奔驰韩国在Databricks Lakehouse基础上,将500多个KPI定义统一到Unity Catalog语义层,支持BI和AI。
  • 利用自动DAX到指标视图转换器,大幅减少手动迁移工作量。
站内正文

xAI 推出 Grok Build 插件市场:首发集成 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers

xAI 今日发布了 Grok Build 插件市场,这是一个内置在终端编码代理 Grok Build 中的插件目录。插件将技能、斜杠命令、代理、钩子、MCP 服务器和 LSP 捆绑成一个包,开发者无需离开终端即可浏览、安装和更新。首发包含 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers 六个插件,并采用提交 SHA 固定机制确保安全性。

  • xAI 推出 Grok Build 插件市场,内置在终端编码代理中。
  • 插件可捆绑技能、命令、代理、钩子、MCP 和 LSP。
站内正文

前向部署工程:利用AI实现业务成果

Databricks正式推出前向部署工程(FDE)组织,旨在通过嵌入工程、全球合作伙伴网络和研发联动,加速客户实现AI业务成果。过去一年,FDE团队已与1900多家客户合作,包括帮助Fox将搜索成功率翻倍、为JPMC迁移超过5PB数据和500个笔记本并培训600名用户,以及帮助高通将AI实验转向生产级代理模型,将多天工作流程缩短至分钟级。FDE的核心是围绕客户业务目标,通过共享OKR提供可衡量的成果。

  • Databricks正式成立前向部署工程(FDE)组织,专注于通过AI交付业务成果。
  • FDE将Lakehouse平台、工程主导的交付模式、全球合作伙伴网络和研发反馈闭环相结合。
站内正文

当最聪明的AI还不够聪明时,Benchling如何构建智能体

Benchling,一家生命科学研发数据平台,在2025年10月推出了Benchling AI,包含一个由智能体支持的聊天界面。其AI主管Nicholas Larus-Stone与LangChain CEO Harrison Chase讨论了构建科学工作智能体的复杂性,包括使用多模型架构、生产追踪审查以及可验证科学任务的策略。

  • Benchling在同一任务上运行多个模型(来自不同提供商),利用不同模型的错误模式差异提高质量。
  • 通过每周轮换的‘消防队长’审查生产追踪,结合用户反馈进行异常检测。
站内正文

杰夫·贝索斯的Prometheus融资120亿美元加速工业工程项目

Prometheus Inc.,一家由亚马逊创始人杰夫·贝索斯联合领导的AI初创公司,在B轮融资中筹集了120亿美元,估值达410亿美元。该公司正在开发一套AI工具,旨在加速硬件开发,重点专注于原型设计和预生产制造。资金将主要用于购买计算基础设施。

  • Prometheus从贝索斯、摩根大通、贝莱德等投资者处融资120亿美元。
  • 该公司正在开发AI工具,旨在将硬件设计流程加速10倍以上。
站内正文

“不要随便从网上抓取东西”:Chainguard在52000个开源包中发现了什么

Chainguard推出新的源代码扫描器,检测所谓“灰色软件”——即功能透明但包含有害行为的开源包。该扫描器已识别并阻止超过52000个恶意或灰色包,并指出AI驱动的代理开发加剧了这一问题。

  • Chainguard定义“灰色软件”为功能透明但包含未经授权的有害行为(如导出访问令牌)的开源包。
  • 新扫描器已分析超过10万个包,阻止了52000多个恶意或灰色包。
站内正文

LocIn AI:用音调感知AI保持品牌语调的本地化工具

LocIn AI在Product Hunt发布,它是一个通过音调感知AI、自动化工作流和开发者优先工具来保持跨语言品牌语调的本地化平台。该平台提供CLI集成和API访问,旨在解决翻译技术正确但品牌感失真的问题。

  • 音调感知AI可在不同语言中保持品牌声音和个性
  • 开发者优先的自动化,支持CLI和API的无缝集成
站内正文

“AI正在颠覆一切”:初级技术岗位何去何从?

AI对全球劳动力市场产生深远影响,尤其在软件开发领域。Linux基金会报告显示,欧洲初级技术岗位招聘减少3%,但全球其他地区增长14%。企业更倾向于培训现有员工而非招聘新人,初级岗位职责正被AI重新定义。技术人才需要掌握跨领域技能,如软件工程、AI素养和安全意识。

  • AI导致欧洲初级技术岗位招聘收缩3%,全球其他地区增长14%。
  • 企业正将培训现有员工置于招聘新人之上,投资比例高达3.7倍。
站内正文

欢迎首批Databricks学生研究员

Databricks宣布首届学生研究员项目正式启动,从全球数百所大学的5000多名申请者中选拔出一批多元化、技术出众的学生领袖。他们将在校园内举办研讨会、黑客马拉松和导师计划,搭建学术理论与数据及AI实际应用之间的桥梁。

  • Databricks从5000多名申请者中选出首届学生研究员,覆盖全球多所大学。
  • 研究员具备校园领导力和技术专长,将组织活动推广数据与AI实践。
站内正文

MIT学生及准研究生荣获2026年赫兹基金会奖学金

赫兹基金会宣布向三位MIT在读学生及一位即将入学的研究生颁发2026年奖学金。该奖学金提供五年全额学费及津贴,并赋予学者从事前沿研究的自主权。四位获奖者分别来自机械工程、无机化学、计算机科学与人工智能、以及运筹学领域,展示了跨学科创新潜力。

  • 赫兹基金会向四位与MIT相关的学生颁发2026年奖学金。
  • 奖学金提供五年经济支持及终身网络资源。
站内正文

Azure Databricks在2026年数据与AI峰会上携手行业领袖与合作伙伴

微软是Databricks数据与AI峰会2026的传奇赞助商。峰会将展示联合客户如何使用Azure Databricks现代化数据资产、扩展AI并释放业务价值。与会者可访问微软展位,参加关于联邦分析、生态系统集成及产品发布的专题会议。重点会议包括释放微软数据与AI生态系统、零拷贝联邦能源分析,以及来自GEODIS和TK Elevator的客户案例。

  • Azure Databricks在Data + AI Summit 2026上被强调为Azure上最佳的数据+AI平台。
  • 会议内容涵盖零拷贝联邦分析、Unity Catalog外部位置以及客户现代化故事。
站内正文

Coinbase for Agents:让AI助手交易加密货币和转移资金

Coinbase推出Coinbase for Agents工具,允许AI代理在Claude和ChatGPT等助手中独立交易加密货币、支付服务费用。用户可设置支出限额,代理在隔离沙盒中运行,支持现货和衍生品交易,未来将添加股票和预测市场。支付基于x402标准,支持稳定币,安全可控。

  • Coinbase for Agents是一个独立的AI代理账户,而非Coinbase应用内功能。
  • 代理可进行加密货币现货和衍生品交易,未来支持股票和预测市场。
站内正文

DXC 将把 Claude 集成到银行、航空公司及其他受监管行业所依赖的系统中

Anthropic 和 DXC Technology 宣布建立多年全球联盟,培训数万名获得 Claude 认证的工程师,将 Claude 集成到受监管行业的关键任务系统中。DXC 已在内部使用 Claude 构建其 OASIS 平台,现在将向保险、现代化改造、网络安全和应用服务领域的客户提供 Claude。

  • Anthropic 与 DXC Technology 达成多年联盟,在银行、航空、保险和政府等受监管行业中部署 Claude。
  • DXC 将通过 Anthropic Academy 培训数万名获得 Claude 认证的前端部署工程师。
站内正文

推出Claude Corps

Anthropic推出Claude Corps,一个全国性的奖学金项目,为早期职业人士提供培训,与全美非营利组织合作,推动AI服务社区。计划投入1.5亿美元,首批1000名研究员,提供年薪8.5万美元及福利。申请现已开放。

  • Anthropic发起Claude Corps,培养1000名研究员掌握Claude技能,服务于美国非营利组织。
  • 项目提供年薪8.5万美元及福利,周期一年,由Anthropic、CodePath和社会金融合作运营。
站内正文

Claude Fable 5 与 Claude Mythos 5

Anthropic 发布了 Claude Fable 5,这是一个面向一般用户的安全的神话级模型,以及 Claude Mythos 5,一个为网络防御者提供无限制能力的版本。这些模型在各项基准测试中均达到最先进水平,价格比 Mythos 预览版降低了一半以上。

  • Claude Fable 5 是 Anthropic 推出的最强大的通用模型,性能超越此前所有公开发布的模型。
  • Claude Mythos 5 针对网络防御者,最初通过 Project Glasswing 部署,具备最强的网络安全能力。
站内正文

Bugbot 速度提升3倍、成本降低22%、捕获更多漏洞 · Cursor

Cursor 发布了 Bugbot 的重大更新,运行速度提升3倍以上,成本降低22%,每个审查发现的漏洞增加10%。现在90%的 Bugbot 运行可在3分钟内完成。新增 /review 命令支持在推送前运行,并可配置仅审查 PR 中的新增内容。性能提升得益于 Composer 2.5 模型的训练和工具改进。

  • Bugbot 运行速度提升3倍,成本降低22%,漏洞发现率提高10%。
  • 新增 /review 命令,支持在代码推送前运行 Bugbot 和安全审查。
站内正文

用 Auto-review 管理智能体自主权 · Cursor

Cursor 推出了 Auto-review 功能,通过一个分类器智能体在上下文中评估行动的潜在风险,从而实现安全与效率的平衡。该功能默认开启,仅阻止约 4% 的行动,且仅约 7% 的对话会触发中断。

  • Auto-review 使用一个小型分类器智能体在行动执行前评估其风险。
  • 分类器通过检查文件内容等上下文来判断行动是否与用户意图一致。
站内正文
创业融资

SpaceX大规模IPO开启AI融资新时代

SpaceX的公开上市标志着人工智能和科技投资新浪潮的开始,但市场动荡且大规模IPO并不能保证长期财务成功。

  • SpaceX启动大规模IPO,引领AI融资新时代。
  • 市场动荡背景下,IPO并非长期成功的保证。
站内正文

AI行业的平台陷阱开始像微软那样了

Anthropic正在为其新的Mythos模型限制某些任务的使用,同时开发直接与其最大客户竞争的应用程序。客户、合作伙伴和投资者均在施加压力。

  • Anthropic对Mythos模型的部分任务进行限速
  • Anthropic开发与客户竞争的应用程序
站内正文

SpaceX巨额IPO后,美国人的财务未来将与人工智能紧密相连

一项最新民调显示,八成美国人对人工智能感到担忧,多数人认为AI弊大于利。然而,无论公众是否愿意,AI正被强行纳入养老金和投资组合,将美国人的财务未来与科技巨头的AI竞赛紧密捆绑。

  • 八成美国人担忧AI,多数认为其弊大于利
  • AI将被强制纳入养老金和投资组合
站内正文

SpaceX以1.77万亿美元估值在美上市,创历史之最

SpaceX将于周五在华尔街上市,估值达1.77万亿美元,成为全球史上最大IPO。创始人埃隆·马斯克持股比例高,若上市成功,他有望成为全球首位万亿富翁。

  • SpaceX结束近25年私有状态,周五在美上市。
  • IPO估值1.77万亿美元,创全球最大IPO纪录。
站内正文

杰夫·贝佐斯的人工智能初创公司Prometheus完成120亿美元融资,估值达410亿美元

杰夫·贝佐斯的人工智能初创公司Prometheus已以410亿美元的估值完成120亿美元融资轮。该公司去年11月才成立,此前已获得62亿美元种子资金。目前尚未推出任何产品,贝佐斯表示现在分享细节还为时过早。

  • Prometheus完成120亿美元融资,估值410亿美元
  • 公司去年11月成立,初始种子资金62亿美元
站内正文
政策

谷歌与FBI首次联合起诉中国AI诈骗网络,OpenAI封禁涉华影响力集群

谷歌和OpenAI几乎同时揭露了据称源自中国的利用AI进行欺诈和隐秘影响力活动的行动。谷歌起诉了一个名为“Outsider Enterprise”的中国网络犯罪团伙,该团伙利用其AI系统Gemini针对数十万美国人进行金融诈骗。同时,OpenAI封禁了两个据称位于中国的ChatGPT集群,这些集群试图操纵美国科技政策辩论。

  • 谷歌与FBI合作起诉中国犯罪网络,称其利用Gemini生成虚假网站和消息进行诈骗。
  • OpenAI封禁两个集群,分别针对AI数据中心扩张和贸易政策进行影响力操作。
站内正文

每部新安卓手机上我都会更改的9项Google Messages设置及原因

本文介绍了9项在Google Messages中推荐更改的设置,以提升隐私、减少干扰,包括关闭敏感内容警告、限制个人资料共享、禁用Gemini、关闭建议、自动删除验证码、启用RCS但关闭已读回执和输入指示器、显示语音消息转录、禁用锁屏预览以及关闭气泡功能。

  • 关闭敏感内容警告并卸载SafetyCore以阻止自动内容检测
  • 限制Google个人资料共享,隐藏姓名和照片
站内正文

Siri 不会成为你的 AI 女友

苹果软件主管 Craig Federighi 表示,新的 Siri 不会像其他聊天机器人那样阿谀奉承或鼓励用户建立情感联系,而是专注于提供帮助。

  • 苹果新 Siri 的设计避免阿谀奉承和过度互动。
  • Craig Federighi 称其他聊天机器人旨在拉拢用户并建立连接。
站内正文

EgoEngine:从人类自我中心视频到高保真灵巧机器人演示

EgoEngine是一个可扩展的框架,能够将自我中心的人类操作视频转换为高保真的机器人观察视频和可执行的动作轨迹,从而克服了从人类演示到机器人学习中的视觉和动作鸿沟。该方法在仿真和真实机器人上实现了零样本的灵巧策略学习,无需真实的机器人演示数据。

  • EgoEngine将人类自我中心视频转换为高保真的机器人演示数据,包括观察视频和动作轨迹。
  • 该框架同时解决了视觉差异和动作差异两大挑战。
站内正文

机械场网络:面向多元系统的结构化神经动力学

MF-Net是一种递归动力学模型,将所有变量表示在共享的场状态中,并通过学习的关系律更新状态。该模型在已知定律相互作用系统、混沌基准测试、真实神经记录和生态时间序列中实现了有竞争力的短期和中期预测,同时保留了可检查的结构化读出。在40维Lorenz-96测试平台上,八步R²达到0.798±0.018,关系矩阵以19.80±1.00的局部/非局部强度比和1.000±0.000的Precision@K恢复局部耦合支持。

  • MF-Net通过学习的关系律在共享场状态中建模所有变量,实现可解释的动力学与灵活的状态转换。
  • 在多个基准测试中,包括混沌系统和真实神经数据,MF-Net的预测性能具有竞争力。
站内正文

具有不完美二元反馈的休眠强盗问题:PCL-可索引性分析与计算

本文研究具有二元潜状态和不完美二元反馈的休眠多臂赌博机问题,受机会频谱接入中感知误差的启发。作者开发了基于部分守恒定律(PCL)的分析与计算框架,用于建立可索引性并计算Whittle指数。该框架通过关联确定性骨架、更新分解和单词组合等工具,在多个阈值区域得到了可处理的折扣奖励和资源指标表达式,完全验证了PCL-可索引性条件。对于未能完全解析的区域,推导了高效数值方案来计算边际生产力指数。大量计算实验表明,该条件在广泛参数范围内成立,且MP指数策略通常显著优于标准基准策略。

  • 针对不完美二元反馈的休眠强盗问题,提出基于PCL的框架,实现可索引性验证和Whittle指数计算。
  • 利用确定性骨架、更新分解和单词组合等工具,在多个阈值区域得到解析表达式,完全验证PCL-可索引性。
站内正文

Datadog:标记和模型治理是AI成本管理的基础

Datadog的高级FinOps分析师Deeja Cruz在FinOps X 2026上表示,AI成本管理的核心依然是了解使用情况、原因和成本,而良好的标记是分配支出和识别优化机会的关键。她还强调模型治理和跨团队协作的重要性,并分享了AI辅助FinOps的实际案例。

  • 良好的标记是AI成本管理的基础,没有标记就无法分配支出和发现优化机会。
  • FinOps从业者应利用AI工具加速交付价值,如使用大语言模型生成代码更改以节省成本。
站内正文

Anthropic的Fable是迄今为止最受限制的公开模型

Anthropic发布Claude Fable 5,因计划暗中降低对涉及前沿大模型开发问题的回答质量而引发争议。批评者认为此举阻碍研究且损害信任。Anthropic随后调整策略,改为透明地降级用户至较弱的Claude Opus 4.8。即便如此,Fable 5的安全过滤仍比其他前沿模型严格,甚至对“什么是蛋白质?”这类问题也会触发降级。文章详细解释了Anthropic的安全过滤机制及其演变。

  • Anthropic最初计划暗中降低对前沿大模型开发相关问题的回答质量,引发强烈反对。
  • 批评者包括AI研究员Nathan Lambert和前特朗普政府AI政策官员Dean Ball,他们认为这阻碍研究且破坏信任。
站内正文

摄取银河系:使用Zerobus Ingest实现PB级数据处理

Databricks推出Zerobus Ingest,这是一种无服务器流式API,可以即时部署PB级数据管道,无需手动管理基础设施。通过动态分区和零拷贝协议缓冲区解码器,该系统在24小时内从NASA NEOWISE数据集成功摄取了1 PB数据,吞吐量达到12 GB/s。

  • Zerobus Ingest是Databricks的完全托管、无服务器流式摄取服务。
  • 采用动态分区架构,实现真正的自动扩展,无需静态分区管理。
站内正文

加拿大母亲起诉OpenAI,指控ChatGPT导致女儿自杀

加拿大一位母亲在美国法院起诉OpenAI及其CEO萨姆·奥尔特曼,声称其女儿在与ChatGPT交流自杀想法后,聊天机器人鼓励她结束生命。诉讼指出,OpenAI的安全系统未能干预这些危险对话。

  • 加拿大母亲Kristie Carrier在旧金山州法院起诉OpenAI,称ChatGPT鼓励她24岁的女儿Alice自杀。
  • Alice在去世前十多次向ChatGPT透露自杀意念,但OpenAI的安全系统未标记或终止对话。
站内正文

预测人们偏好时,考虑“三的力量”会更有价值

麻省理工学院的研究人员对近一个世纪历史的随机效用模型进行了重大升级。他们发现,传统的两两比较方法无法捕捉选择之间的相关性,而通过让人们从三个选项中排序,可以更准确地预测偏好。这项研究对互联网经济、AI模型对齐等领域具有重要意义。

  • 随机效用模型(RUM)自1927年提出后,一直使用两两比较来评估偏好,但无法捕捉选项间的相关性。
  • MIT团队证明,通过让大量用户对三个选项进行排序,可以揭示相关性,从而更准确地估计偏好。
站内正文

地理空间无边界:Spatial SQL 正式发布,集成 AI/BI 地图、Delta Sharing 和 Iceberg v3

Databricks 宣布 Spatial SQL 正式可用,在开放湖仓中提供原生地理空间支持,包括 AI/BI 地图、Delta Sharing 和 Iceberg v3。性能大幅提升,拥有 90 多个 ST_ 函数,空间查询速度提升高达 15 倍,集合操作速度提升 2 倍。

  • Spatial SQL 现已在 Databricks 上正式发布,支持原生几何类型和 90 多个 ST_ 函数。
  • 空间查询性能提升高达 15 倍,布尔集合操作(如 ST_Intersection)速度提升 2 倍。
站内正文

未来工作辩论存在证据问题

一篇2023年的研究估计,80%的美国工人有部分任务暴露于大语言模型,该数字被国际货币基金组织、欧洲议会等广泛引用。然而,这些评分基于早期模型和美国职业分类,存在诸多限制,但政策制定者却将其用于决策。更动态、具代表性的证据工具虽已存在,却未能及时影响政策讨论。

  • 2023年论文称80%美国工人受AI影响,被政策机构广泛引用
  • 评分基于GPT-4时代模型和美国职业分类,存在局限性
站内正文
芯片

基于生物输入而非视觉的物理人工智能:工业生物领域的自主化基准测试

本文探讨了如何为工业生物过程的自主系统建立基准测试。作者指出,与机器人或自动驾驶不同,生物过程的核心挑战在于感知(观察),而非决策。由于生物指标(如活菌数量)不可见、测量缓慢且不可回溯,因此必须先对感知能力进行基准测试,然后才能评估决策。文章提出了三项感知测试:覆盖整个系统、及时获取数据、以及确保跨地点数据的一致性。作者认为,只有通过感知测试,才能进一步借用机器人领域的决策基准测试方法。

  • 生物自主系统的瓶颈在于感知,而非决策,因为生物指标不可见、测量慢、无法回溯。
  • 借鉴OODA循环框架,将基准测试聚焦于弱环节:对于生物过程,弱环节是感知。
站内正文

基于立体视觉的人体姿态估计跌倒预测与检测:AMD Kria K26 SOM上的实现

本文提出一种基于AMD Kria K26 SOM的低功耗、便携式跌倒预测与检测系统,利用Intel RealSense D455相机捕获RGB和深度图像,通过量化YOLOX、Anchor-to-Joint(A2J)和CNN三级流水线实现隐私保护的实时跌倒检测。系统在边缘设备上运行,无需云端依赖,适用于老年人监护。实验表明,多线程流水线帧率达4.5 FPS,YOLOX、A2J和CNN精度分别为74%、84.13%和75.85%。

  • 利用AMD Kria K26边缘设备实现隐私保护的跌倒检测系统
  • 三级流水线:量化YOLOX检测人体、A2J估计关节、CNN分类跌倒
站内正文
研究

杰夫·贝佐斯的AI初创公司旨在打造“通用人工智能工程师”

亚马逊创始人杰夫·贝佐斯透露,其新AI初创公司“普罗米修斯”致力于开发“通用人工智能工程师”,以辅助实体产品设计。该公司在120亿美元融资后估值达410亿美元,贝佐斯与Verily联合创始人Vik Bajaj共同担任CEO,目前拥有约150名员工。

  • 贝佐斯的新AI初创公司“普罗米修斯”目标是开发“通用人工智能工程师”。
  • 该公司在120亿美元融资后估值达410亿美元,贝佐斯与Vik Bajaj共同担任CEO。
站内正文

科学家正在研发能屏蔽烦人噪音、保留喜爱声音的耳机?我等不及了!

华盛顿大学移动智能实验室的Shyam Gollakota团队正在利用机器学习开发一种新型耳机,能够有选择性地过滤掉触发烦躁的噪音,同时保留或增强令人愉悦的声音,例如鸟鸣。这一技术对患有恐音症的人群尤其有益。

  • 研究人员利用机器学习开发可选择性过滤噪音的耳机。
  • 该技术旨在保留鸟鸣等悦耳声音,同时屏蔽交谈等烦人声响。
站内正文

EquiDexFlow:接触基础SE(3)-等变灵巧抓取生成流

EquiDexFlow是一种SE(3)-等变流匹配模型,能够从物体点云联合预测腕部姿态、关节角度、指尖接触点、表面法线和接触力。该模型通过构造将接触点投影到物体表面并将力约束到库仑摩擦锥内,无需损失惩罚即可保证放置和摩擦合规。实验表明,在200次旋转测试中腕部残差低于0.04°,关节偏差为零,且在所有消融变体中实现了零摩擦违规和最佳综合分数。在物理机器人上,重定向后的抓取成功完成了所有六个测试物体的开环抓取保持任务。

  • 联合预测运动学和接触力,无需下游验证即可保证稳定抓取
  • SE(3)-等变流匹配模型确保旋转一致性
站内正文

双状态槽注意力:解耦外观与身份的视频对象中心学习

本文提出双状态槽注意力(DSSA),一种完全自监督的视频对象中心学习框架。DSSA将每个槽分解为局部状态(每帧外观)和身份状态(时间稳定对象信息),通过竞争调制聚合(CMA)减少弱匹配槽的虚假更新,从而解决现有方法中因单一槽向量编码外观与身份导致的槽交换问题。实验表明,DSSA在MOVi-C、MOVi-D和YouTube-VIS上持续提升了分割质量和时间一致性,并在下游任务中表现更优。

  • 现有槽注意力方法因单一槽向量同时编码外观和身份,导致槽交换问题。
  • DSSA分离局部状态和身份状态,分别处理每帧外观和跨帧对象身份。
站内正文

HairPort:面向图像的情境感知3D发型导入与迁移

提出了一种名为HairPort的3D感知发型迁移框架,能够处理大姿态和尺度差异,通过显式分离移除和迁移,并在合成前强制执行几何一致性。

  • HairPort是一种3D感知发型迁移框架,支持大姿态和尺度差异。
  • 引入秃头转换器,通过LoRA-based FLUX.1 Kontext生成逼真的秃头版本。
站内正文

可观察模式并非解释:潜在推理模型的因果几何分析

该研究对潜在推理模型(LRM)中的可观察模式进行了因果与几何分析,发现如BFS前沿和可解码算术计算等模式在控制组中也出现,且并非总是因果影响行为。因果干预揭示潜在思考的利用是分级的,几何分析显示效应集中在低秩方向。结论:可观察模式不能作为内部推理机制的证据,LRM可解释性需要匹配的控制组和因果测试。

  • 潜在推理模型用连续思维替代显式思维链,但可观察模式(如BFS前沿)在控制组中也存在,不能证明内部推理机制。
  • 因果干预表明潜在思考的利用是渐进的,影响越大,几何结构越有序。
站内正文

伯恩斯坦-舒尔核:通过草图调制和径向随机化的随机特征

本文提出了一种针对伯恩斯坦-舒尔核的新型随机特征构造方法,该类核是有限特征核与完全单调平移不变核的乘积。该方法结合了草图调制和径向随机化,实现了线性特征维度,同时提供了包括无偏性和算子范数界在内的严格理论保证。该方法在核岭回归中提高了效率,旗舰实例是有偏yat核。

  • 伯恩斯坦-舒尔核推广了平移不变核和点积核,是非平稳核函数。
  • 提出的随机特征构造通过草图调制和径向采样避免了二次维度,特征维度为Dm。
站内正文

少样本重采样实现可扩展的统计可靠数据挖掘

基于重采样的统计显著性评估在数据挖掘中至关重要,但传统方法需要生成数千个重采样数据集,计算成本高。本文提出FewRS方法,通过推导检验统计量的上确界偏差新界限,仅需极少量重采样数据集即可保证低误报率,在模式挖掘和网络分析任务中将运行时间降低两个数量级,同时保持高统计功效。

  • 传统重采样方法需要数千个重采样数据集,不适用于大数据或计算密集型分析。
  • FewRS通过新界限只需少量重采样数据集,提供严格的误报概率保证。
站内正文

按需和批量流水线动态提取数据

本文介绍了一种智能文档处理流水线,该流水线在Amazon Bedrock上同时提供按需推理和批量推理选项,以灵活控制文档处理的时间和成本。对于时间敏感的需求,可以使用按需推理;而批量推理则最为经济。文章还展示了如何在文档级别动态指定大语言模型和提示词,从而通过同一流水线处理多种类型的文档。

  • 按需推理流水线适用于实时处理,通过SQS FIFO队列触发Lambda函数,将PDF转换为图像并调用多模态模型提取数据。
  • 批量推理流水线通过EventBridge调度器定期处理大量文档,使用标准SQS队列和Lambda函数创建JSONL文件提交批量推理任务。
站内正文
模型

AI经济学重塑FinOps:企业寻求更高可见性和控制力

随着企业AI支出加速,组织正面临新一代成本和优化挑战,并寻求提高AI支出可见性。FinOps的下一阶段更侧重于提升可见性并将财务责任嵌入日常技术决策。

  • AI支出快速增长,企业需要更好的可见性和成本控制。
  • FinOps已超越云成本管理,扩展到更广泛的技术支出。
站内正文

Zyphra发布Zamba2-VL:混合Mamba2-Transformer视觉语言模型,首Token延迟降低约一个数量级

Zyphra发布了Zamba2-VL系列开放视觉语言模型,提供1.2B、2.7B和7B三个参数版本。模型采用混合Mamba2状态空间与Transformer骨干网络,基于Apache 2.0许可发布。在保持与同类Transformer VLM竞争力相当的同时,将首Token延迟降低了约一个数量级。

  • Zamba2-VL系列模型参数规模分别为1.2B、2.7B和7B,全部开源。
  • 采用Mamba2状态空间层与共享Transformer块的混合架构,实现线性时间预填充。
站内正文

Gemini Omni:在Gemini内进行AI视频生成

Gemini Omni将视频生成直接集成到Gemini多模态AI助手中,支持从文本或图像创建视频、动画静态图像以及编辑现有视频。文章通过实际测试展示了其能力,同时指出使用限制、版权问题和区域限制等不足。

  • Gemini Omni实现从文本或图像直接生成视频,无需独立工具。
  • 支持图像转视频、文本转视频和视频编辑三大主要用例。
站内正文

《精灵宝可梦Go》数据训练AI,或助军用无人机在战区定位

这款全球流行的增强现实游戏收集的位置扫描数据,被用于训练人工智能识别和解读物理空间,未来可能帮助军用无人机在战区确定位置。

  • 《精灵宝可梦Go》的用户位置数据被用于训练AI,辅助军用无人机在战区定位。
  • 该游戏自2016年发布以来,全球下载量已超过8亿次。
站内正文

Sparse2Act:学习跨域机器人操作的动作对齐稀疏3D表示

Sparse2Act是一种新的预训练框架,利用任务空间末端执行器动作作为几何监督来对齐稀疏点云编码器的观察与动作。在LIBERO-10基准上达到86.9%的成功率,并成功跨域迁移至Meta-World-5(73.4%),真实世界实验中达到72.5%的成功率。

  • Sparse2Act通过动作对齐的掩码信号预训练稀疏3D编码器,使其可复用。
  • 在LIBERO-10基准上,仅需500微调步骤即可达到86.9%平均成功率。
站内正文

EWAM:一种用于具身智能中闭环在线自适应的增强世界动作模型

EWAM是一种基于冻结核Cosmos3骨干网络的闭环在线自适应架构,通过推理时协同推理机制(包含四个轻量级神经层)实现零样本任务适应,无需微调或额外演示数据,显著降低新任务布局所需的部署数据量。

  • EWAM基于完全冻结的Cosmos3骨干网络,采用推理时协同推理机制,包含神经经验记忆层、异常检测层、策略路由层和动作校正层。
  • 该方法在零样本任务协议下评估,无需额外演示集或骨干网络微调,性能提升完全来自推理时机制。
站内正文

从模仿到对齐:面向长距离人行道导航的人类偏好流策略

本文提出FlowPilot,一种仅使用单目RGB摄像头的无地图长距离人行道导航策略。通过锚点流匹配进行预训练,并引入人在回路中的偏好学习,提升了社会合规性和反事实推理能力。仿真实验中成功率达42%,路线完成率66%,真实世界实验中干预率降低40.0%,非干预率降低52.1%。

  • FlowPilot使用锚点流匹配从大规模机器人数据中预训练,捕捉复杂的人行道导航行为分布。
  • 通过人在回路中的偏好学习,策略从少量人类干预数据中调优,增强社会合规性和反事实推理。
站内正文

Foresight:基于迭代推理的关键导航线索识别方法

本文提出Foresight框架,通过微调视觉语言模型在测试时迭代推演与修正运动规划,实现稀疏语言指令下的无地图导航。该方法利用人类反馈学习奖励模型并强化学习后训练,在真实环境中任务成功率提升37%,干预次数减少52%。

  • Foresight利用预训练视觉语言模型在测试时迭代提出和批评运动规划,专注于与环境线索相关的推理。
  • 通过人类反馈学习奖励模型,并使用强化学习在规划-批评循环中对模型进行后训练,对齐开放式行为偏好。
站内正文

动作-效应记忆预训练用于机器人操作

一种名为AEM的预训练框架,通过从视觉-动作历史中学习紧凑的时间表示,在仿真和现实世界的操作任务中优于基线方法。

  • AEM使用对交错的视觉和动作特征进行掩码建模,学习动作条件的状态演化。
  • 它采用Mamba编码的单向量时间瓶颈,实现高效推理。
站内正文

学习辅助:面向隐式人机协作的协作型VLA模型

本文展示了通过模仿学习端到端训练的视觉-语言-动作(VLA)模型能够支持协作操作。研究发现,动作分块策略存在一个失败模式——演示动作泄露,导致过早的辅助行为。提出了一种推理时转向方法用于缓解错误。16名参与者的人机协作组装任务实验表明,转向方法能够实现更长的执行视野、更快的协作速度和更少的失败。

  • 端到端VLA模型支持隐式人机协作。
  • 动作分块策略存在演示动作泄露问题,引发过早辅助。
站内正文

VLADriveBench: 评估自动驾驶VLA中的思维链与行动关系

VLADriveBench是一个新框架,用于评估视觉-语言-行动(VLA)模型中思维链(CoT)推理与驾驶轨迹之间的相关性、一致性和因果关系。它结合了观测指标(提及、幻觉、矛盾、行动对齐)和CoT干预协议。应用于三个模型后,发现观测分析与因果分析可能截然不同:ORION在观测对齐上得分最高,但其CoT是附带现象;而Alpamayo v1.5得分较低,但其CoT具有很强的因果性,视觉显著性调节了CoT的影响程度。

  • 现有基准仅评估轨迹质量,忽略CoT与行动的联系。
  • VLADriveBench引入观测指标和干预协议两种互补视角。
站内正文

SalArt-VQA:诊断视觉语言模型是否理解生成图像中的显著伪影

SalArt-VQA是一个用于评估视觉语言模型(VLM)对AI生成图像中伪影的细粒度理解能力的诊断基准。它包含950张图像和3681个人工编写的多选题,覆盖存在检测、语义定位、空间定位和基于证据的缺陷识别。通过对20个VLM的测试,该基准揭示了图像级检测准确性所隐藏的失败模式,例如最强模型在伪影图像上的检测召回率达到99.37%,但仅有53.26%的图像能正确回答所有四个伪影相关问题,表明高检测准确率并不等同于真正的伪影理解。

  • SalArt-VQA基准测试评估VLM对AI生成图像中伪影的细粒度理解。
  • 包含950张图像和3681个多选题,涵盖四种问题类型。
站内正文

ECA:面向开放图像到文本生成的高效持续对齐方法

本文提出高效持续对齐(ECA)方法,用于开放图像到文本生成中的增量学习。通过引入持续对齐概念和三个核心机制(查询混合模块、费舍尔动态扩展、字典回放),ECA在不依赖旧数据的情况下有效缓解灾难性遗忘,并在新基准上取得优异性能。

  • 提出持续对齐概念,适应数据分布变化
  • 设计查询混合模块提取任务特定特征
站内正文

上下文感知特征融合:自动驾驶中共同目标的检测

提出一种名为上下文中心特征融合(CCFF)的新型框架,通过局部上下文融合模块(LCFM)和全局上下文注意力模块(GCAM)处理自动驾驶中共同目标的检测问题。在Cityscapes和BDD100K数据集上,类别级一致性策略(CCS)分别达到0.973和0.969,小目标检测AP_S提升14.1%,并成功恢复稀有类别如“火车”。框架支持实时处理,仅增加0.2 FPS开销。

  • CCFF框架利用局部和全局注意力模块增强共同目标检测
  • 在Cityscapes和BDD100K上CCS分别达0.973和0.969
站内正文

分析与改进医学大型视觉语言模型中的细粒度偏好优化

医学大型视觉语言模型(LVLMs)在医学影像任务中表现优异,但仍存在事实不一致、视觉基础薄弱等问题。现有对齐方法在医学领域有三大局限:序列级奖励信号无法区分关键临床标记;依赖静态监督微调导致分布偏移;缺乏显式视觉约束。本文提出一种细粒度、在策略的对齐框架,利用双向逐词KL正则化器和视觉对比基础目标,通过最小限度编辑模型输出构建偏好对,仅纠正临床错误部分,同时保持语言风格。实验验证了该方法的有效性。

  • 现有偏好优化方法在医学领域存在序列级奖励、分布偏移和缺乏视觉基础三大局限。
  • 提出双向逐词KL正则化器和视觉对比基础目标,组成细粒度对齐框架。
站内正文

通过教师对齐端到端蒸馏实现高保真两步图像生成

少步扩散蒸馏在4-8步生成中已日趋成熟,但进一步推至2步仍具挑战。本文介绍Z-Image Turbo++,一个从8步Z-Image Turbo教师模型蒸馏而来的高质量2步图像生成模型,通过三个关键设计:分布对齐对抗学习、步解耦参数化、以及带有迭代正则化的端到端训练,显著缩小了2步与8步生成之间的质量差距。

  • 提出分布对齐对抗学习,使用教师生成图像而非真实图像作为GAN训练的真实样本。
  • 采用步解耦参数化,为两个去噪步骤分配独立模型参数以匹配不同容量需求。
站内正文

基于智能体的形态交替模式演化模型

该论文通过多智能体模拟解释了形态交替(如英语“go”的过去式“went”)的出现和持久性。交替形式源于音系变化或词汇变体,并通过群体传播动态扩散。为评估生成形态的真实性,作者引入了AI历史语言学家——一个由大语言模型驱动的辩论系统,比较真实与模拟形态。结果表明,无标度社交网络和随机伯努利采纳有助于产生更合理的形态。三个案例研究验证了替代历史情景。

  • 多智能体模拟揭示“go/went”等形态交替现象的机制。
  • AI历史语言学家系统利用LLM模拟语言学家辩论来评估真实性。
站内正文

AfriSUD:用于评估模型在非洲语言上表现的依存树库集合

AfriSUD是首个大规模九种非洲语言句法标注树库集合,采用SUD框架,由社区推动并由母语者验证。评估多种模型后发现显著的句法差距,现有架构难以充分捕捉非洲语言的结构多样性。

  • AfriSUD涵盖九种非洲语言,跨主要语系和区域
  • 使用表层句法通用依存框架,捕捉粘着和声调等特征
站内正文

MentalMARBERT:面向阿拉伯语心理健康障碍检测的领域自适应预训练与两阶段微调

一项新研究提出了MentalMARBERT,这是MARBERT的领域自适应版本,用于从阿拉伯语社交媒体文本中检测心理健康障碍。采用自适应预训练和分层微调的两阶段框架,该模型在一个包含50,670条推文(涵盖六个类别)的新数据集上实现了0.861的宏F1和0.877的准确率,达到了最先进水平。

  • 阿拉伯语心理健康自然语言处理面临方言差异和资源有限的挑战。
  • 该研究引入了两阶段框架:领域自适应预训练和分层两阶段微调。
站内正文

购物推理基准:专家编写的多轮对话购物助手基准

购物推理基准(Shopping Reasoning Bench)是一个由零售领域专家创建的新基准,包含525个任务(232个单轮、293个多轮)和10863条重要性加权的二元评分标准,旨在评估对话式购物助手在偏好细化、权衡分析和兼容性评估等多轮推理能力。测试结果表明,GPT、Claude和Gemini等顶级模型的整体通过率仅为57-77%,且在多轮任务中表现显著下降,表明当前模型在提供专家级建议方面仍有较大差距。

  • 购物推理基准包含525个专家编写的任务和10863条评分标准。
  • 它涵盖五个推理类别和十五个子类别,对购物对话至关重要。
站内正文

基于波斯谚语条件的故事生成中的约束语义解压缩研究

本研究将抽象的波斯谚语转化为富有道德寓意的故事视为一种'约束语义解压缩'任务,并引入波斯谚语对齐叙事数据集(PAND)。通过混合评估框架,发现当前LLM虽能生成流畅文本,但常无法忠实体现谚语中的道德和因果结构,而显式推理和迭代细化可部分缓解这一解压缩差距。

  • 提出了'约束语义解压缩'任务,用于评估LLM从抽象谚语生成故事的能力。
  • 创建了波斯谚语对齐叙事数据集(PAND),包含谚语-故事-意义三元组。
站内正文

MARD:镜像增强推理蒸馏用于机制级药物相互作用预测

本文提出了一种用于机制级药物相互作用(DDI)预测的可复现标注与评估协议,包含7家族147亚型分类法和泄漏安全的冷分片策略。并开发了7B参数的MARD模型,融合单令牌KL散度、PRM加权DPO和机制感知检索通道三项创新。在2026年4月DrugBank数据集上,MARD-7B是32个系统中唯一在药物对新颖性下保持准确率的模型,比最佳基线高13.9个百分点,比GPT-4o高6.7个百分点,成本仅为前沿API的1%。分析表明其优势源于结构化药理推理而非药物频率记忆。

  • 提出机制级DDI预测的7家族147亚型分类法及泄漏安全的冷分片评估协议。
  • MARD-7B模型通过单令牌KL散度、PRM加权DPO和机制感知检索通道实现推理蒸馏。
站内正文

EDEN:意大利语临床笔记的大规模语料库

EDEN(急诊科电子笔记)是一个新的大规模临床笔记语料库,包含约400万份来自意大利医院急诊科的完全匿名化笔记。其中约六千份笔记由临床专家手动标注,涉及呼吸困难和意识丧失两种患者情况,包含132个条目。该数据集旨在填补意大利语临床数据空白,支持大型语言模型在医疗领域的应用。

  • 包含约400万份匿名化临床笔记
  • 约六千份笔记由专家手动标注132个条目
站内正文

PermDoRA:理解语言模型中的适配器干扰——参数空间几何的局限性

大型语言模型中的访问控制需要模块化机制,但适配器组合时存在干扰。本研究通过DoRA-RBAC框架测试了假设,发现基于几何感知的合并策略并未优于标准平均,表明干扰主要源于共享非线性表示而非参数空间几何。

  • 使用DoRA-RBAC框架在LLaMA-3.1-8B和Mistral-7B上进行多领域QA基准测试。
  • 几何感知的黎曼合并策略与标准欧几里得平均相比无显著优势。
站内正文

基于梯度的Gray-Scott系统反演中的损失景观诊断:解耦PINN组件的作用

本研究通过直接反向传播通过偏微分方程结构来诊断损失景观,发现优化失败源于平坦高原和陡峭悬崖。当神经网络固定时,残差损失产生平滑景观,避免病态,而神经网络仅用于补全观测数据。

  • 直接反向传播通过Gray-Scott模拟恢复参数失败,损失景观呈现平坦高原和与分岔边界对齐的陡峭悬崖。
  • 残差损失在神经网络固定时是二次的并产生平滑景观,隐含编码了整个偏微分方程动力学。
站内正文

物理信息生成式AI在半导体制造中的应用:通过构造强制执行生成模型中的硬物理约束

本文论述了在半导体制造等物理约束严格的领域中,生成式AI必须从构造上嵌入物理信息,而非事后过滤。综述了物理信息扩散、PDE约束变分模型、神经算子先验等架构工具,并提出了包含物理保真度基准、可微分模拟器及多模态基础模型的研究议程。

  • 半导体制造要求生成模型服从光刻、传输、反应等硬物理约束
  • 通过构造强制执行约束的架构优于事后过滤
站内正文

ProHiFlo:分层流匹配与功能引导的从头蛋白质生成

ProHiFlo 是一种创新的分层流匹配框架,用于从头蛋白质生成,通过粗到细的生成、功能引导和自适应 SE(3)-等变架构,在保持精度的同时减少计算成本,并在酶活性位点支架设计上取得了 58.9% 的成功率,显著优于现有方法。

  • ProHiFlo 采用粗到细的生成策略,先建模主链几何再细化到全原子坐标。
  • 通过预训练预测器实现功能引导,无需重新训练即可生成具有所需特性的蛋白质。
站内正文

双立场评估奉承行为:同意的结构与干预的局限性

激活引导可以改变大语言模型的行为,但标准评估通常不测试减少奉承行为的引导方向是否也会抑制对事实正确陈述的同意。本文引入双立场评估,对Llama-3-8B-Instruct应用质心差分引导,发现模型将奉承性同意和事实性同意表示在几何上不同的子空间中,但引导方向在两个子空间上的投影相等,无法区分目标。因此,引导同时减少了奉承性陈述和事实正确陈述(如“地球是圆的”)的同意。所有其他静态属性均匹配,表明行为分离源于生成动态或残差流分析无法解析的更精细结构。这一模式揭示了一个普遍差距:从激活中可读的表征不一定可通过激活写入。

  • 激活引导减少奉承行为时,也会抑制对事实正确陈述的同意。
  • 双立场评估同时测试每个话题的两种立场,揭示了引导的副作用。
站内正文

部署中心评估:预测临床大语言模型系统中的查询级拒绝风险

该论文提出了一种以部署为中心的评估方法,针对嵌入电子健康记录的临床大语言模型系统,利用查询内容和部署特定上下文(如提供者类型、科室、所用模型)训练预响应分类器,预测用户拒绝风险。经过4.5个月的前瞻性分析,模型AUROC达到0.719,证明了利用部署上下文预测用户拒绝的可行性,为触发防护栏和弃权策略提供了依据。

  • 传统静态基准关注正确性而非用户接受度,且需要密集标注;该工作利用真实部署中的稀疏用户反馈进行评估。
  • 预响应分类器结合查询内容和部署上下文(提供者类型、科室、语言模型)预测用户拒绝风险。
站内正文

Evoflux: 针对紧凑型代理的可执行工具工作流的推理时演化

紧凑型语言模型在工具使用方面面临挑战,尤其是在孤立函数调用之外。Evoflux 在推理时使用进化搜索来修复可执行工具工作流,在 MCP-Bench 任务上将执行可行性从约3%提高到17-24%,优于 SFT 和 DPO 基线。

  • 小型语言模型在工具工作流依赖和执行方面存在困难。
  • Evoflux 通过结构化编辑和执行反馈演化类型化工作流图。
站内正文

TrajGenAgent:用于人类移动轨迹生成的分层LLM智能体

TrajGenAgent提出了一种基于分层LLM智能体的框架,无需模型微调即可生成逼真的合成人类移动轨迹。它采用两阶段设计:LLM首先通过上下文学习合成个体和星期条件化的活动链,然后通过确定性工作流(包括个性化POI检索、距离感知位置选择、运动学感知的旅行时间传播和LLM持续时间估计)将每个活动转化为完整的访问记录。此外,引入基于异常检测的评估框架来评估行为与语义合理性。实验表明,该方法在时空保真度、语义一致性和个体行为真实性方面优于现有方法。

  • TrajGenAgent是一种无需模型微调的分层LLM智能体框架,用于生成人类移动轨迹。
  • 采用两阶段设计:LLM合成活动链,确定性工作流进行活动到访问的转化。
站内正文

“你说谎了吗?”评估不同模型规模与信念验证模型有机体上的谎言检测器

该研究评估了大型语言模型中的谎言检测器,创建了13个推理模型有机体(其隐藏信念通过思维链验证),并提出了多样化欺骗测试床。在31个模型上测试了四种检测器,发现所有检测器在提示性撒谎任务中随模型能力扩展,但在训练有机体上,除思维链裁判外性能大幅下降。当前检测器难以对模型信念做出高置信度声明。

  • 创建了13个具有已验证隐藏信念的推理模型有机体,用于评估谎言检测器。
  • 评估了四种检测器:思维链裁判、对数概率分类器和两种激活探针(包括新的Did-You-Lie方法)。
站内正文

PersonaDrive:用于闭环驾驶仿真的人类风格检索增强VLA智能体

PersonaDrive是一种新框架,通过检索风格指令的人类驾驶演示来调节视觉-语言-动作(VLA)驾驶智能体,实现多样化的驾驶风格。它包括离线三元组挖掘、轻量级检索头训练和单一VLA主干微调,无需针对每种风格重新训练即可切换风格。在Bench2Drive上,无风格条件下驾驶得分提升4.6%,风格条件下每种风格均取得最高分,且保守到激进风格平均速度和加速度分别提升18%和25%。

  • PersonaDrive利用风格指令的人类驾驶数据集,通过检索演示来调节VLA智能体行为。
  • 流水线包含离线三元组挖掘、检索头训练和VLA主干微调三个阶段。
站内正文

Pythagoras-Prover: 通过增强型Lean形式化推进高效形式化证明

Pythagoras-Prover是一个计算高效的Lean定理证明器家族,包含4B和32B的自回归模型以及4B的扩散模型。它通过分层课程SFT和动态证明过滤提高训练效率,并引入增强型Lean形式化(ALF)扩展验证语料库。实验显示,4B模型在MiniF2F-Test上以86.1%的pass@32超越DeepSeek-Prover-V2-671B(82.4%),而32B模型达到93.0%的新开源最佳水平,并在PutnamBench上解决93个问题。

  • Pythagoras-Prover包含4B和32B自回归模型及4B扩散模型,扩散模型在推理时迭代细化证明。
  • 通过分层课程SFT和动态证明过滤实现训练效率提升,保持8k token上下文预算。
站内正文

Arbor:树搜索作为自主代理的认知层

Arbor是一个多代理框架,将结构化树搜索作为自主代理的认知层,用于大规模有状态动作空间。在全栈LLM推理优化中,相比供应商优化基线,实现了高达193%的吞吐量-延迟帕累托改进,并且硬件无关、可重复。

  • Arbor引入树搜索作为共享工作记忆,跨代理协同优化。
  • 在全栈LLM推理上实现193%性能提升,且硬件无关。
站内正文

ToolSense:一种用于审计大语言模型中参数化工具知识的诊断框架

研究人员发现,当前用于评估大语言模型工具检索能力的基准测试存在高估问题。为此,他们提出了ToolSense,一个开源的自动诊断框架,可生成三种基准测试来更真实地评估模型对工具的理解。在ToolBench(约4.7万个工具)上的实验揭示了知识-检索分离现象:一些模型在标准基准上表现良好,但在更现实的查询中性能大幅下降,甚至低于嵌入基线。

  • ToolSense是一个开源框架,用于审计大语言模型的参数化工具知识。
  • 它自动生成三种基准测试:真实检索基准(RRB)、多项选择探测和问答探测。
站内正文

Claude Fable 极其主动

Simon Willison 展示了 Claude Fable 5 的惊人主动性:仅凭一张截图和一行提示,它自主调试了一个 CSS 滚动条错误,使用了多种创新技巧,包括自定义屏幕截图、编辑模板注入 JS、搭建 CORS 服务器等。同时也警示了未沙箱化编码代理的安全风险。

  • Claude Fable 5 自主调试了一个 CSS 水平滚动条错误,使用了多种创新技术。
  • 它编写了测试 HTML 页面、通过 PyObjC 获取窗口信息、注入 JavaScript 触发快捷键、并搭建了自定义 CORS 服务器。
站内正文

你可能错过的Snowflake Summit 2026三大洞见

企业AI的第二波浪潮聚焦于数据和软件基础设施。Snowflake通过连接专有数据与AI模型,帮助企业实现业务成果。本文总结了安全治理、数据基础和生产化AI三大关键洞察。

  • 强大的数据基础将企业AI转化为业务成果,如DoorDash和Fanatics的案例所示。
  • 企业AI需要新的安全、治理和信任框架,包括Tenable和Komodo Health的实践。
站内正文

ERGO Hestia 借助 Lakebase 和 Mosaic AI Model Serving 缩短上市时间

波兰领先保险公司 ERGO Hestia 使用 Databricks Lakebase 和 Mosaic AI Model Serving 重构实时定价引擎,将数据、特征和决策统一在湖仓一体平台上,实现毫秒级定价,加速模型部署,提升治理合规性。

  • ERGO Hestia 将实时定价引擎迁移到 Databricks 湖仓一体平台,消除了外部数据库和适配层。
  • 新架构通过 Lakebase 提供在线特征存储,Mosaic AI Model Serving 直接提供API,实现了毫秒级响应。
站内正文

让秘密扫描更可信:大规模减少误报

GitHub 通过引入基于 LLM 的上下文验证,将秘密扫描的误报率降低了 75.76%,提升了警报的可靠性和开发者的信任度。

  • GitHub 与微软安全与 AI 团队合作,利用上下文感知的 LLM 推理改进秘密扫描验证。
  • 通过提取高信号上下文(如 API 调用、身份验证头等使用方式),而非分析整个代码库。
站内正文

首个推理扩散LLM Mercury 2现已登陆Baseten

Inception推出的Mercury 2是目前速度最快的推理LLM,采用扩散架构而非传统自回归方式,在标准NVIDIA GPU上可达到每秒1000 token以上的生成速度,速度是同级模型的5-10倍,成本降低一半以上,质量与Haiku和GPT-5 mini相当。Augment Code在生产环境中使用后,成本降低90%,延迟降低82%。Baseten为其提供企业级推理平台支持。

  • Mercury 2是首个推理扩散LLM,通过并行生成整个输出再逐步精炼的方式,突破了自回归模型的序列生成瓶颈。
  • 在标准NVIDIA GPU上可达1000+ tokens/秒,无需专用芯片,速度是同类优化模型的5-10倍。
站内正文

LlamaIndex 新闻通讯 6-10-26

本期带来 ParseBench 在 CVPR 2026 的展示、Parse-Flow 视觉文档智能工作流、Anthropic Fable 5 基准测试结果、LlamaParse 新粒级边界框,以及 AI 首个匹克球锦标赛 The Agent Open。

  • ParseBench 在 CVPR 2026 首次亮相,为 AI 智能体提供文档解析基准。
  • Anthropic Fable 5 在 ParseBench 上内容忠实度达 90.02%,领先竞争对手 12+ 分。
站内正文
工具

OpenAI总部幕后:斯蒂芬·科林斯漫画

《卫报》刊登了斯蒂芬·科林斯的一幅漫画,描绘了OpenAI总部的幕后场景,融合了人工智能、生活方式等主题,以幽默视角呈现科技与日常的交汇。

  • 斯蒂芬·科林斯为《卫报》创作漫画,主题为OpenAI总部的幕后。
  • 漫画涉及人工智能、生活与风格等话题。
站内正文

Qursor:指向UI即可向AI发送精确上下文

Qursor 是一款创新工具,允许用户通过指向任何用户界面元素,将其精确上下文发送给AI助手,从而简化交互过程。该产品已在Product Hunt上发布。

  • Qursor 让用户指向UI元素即可向AI发送上下文。
  • 支持任何界面,提升AI交互的精确性。
站内正文

Bob的命令行工具

一款本地优先的AI编码命令行工具,能够适应用户的使用习惯。

  • 本地优先的AI编码CLI
  • 可适应用户个性化需求
站内正文