olmo-eval:面向模型开发循环的评估工作台
olmo-eval 是一个新的评估工作台,旨在支持 LLM 开发过程中持续进行的模型评估。它建立在 OLMES 标准之上,提供灵活的任务定义、可交换的运行时策略以及详细的逐问题比较功能,帮助开发者判断每次干预的效果是否显著。
- olmo-eval 针对模型开发中的反复评估循环而设计,支持快速添加基准、跨检查点运行和细粒度结果分析。
- 与 Harbor 等工具不同,olmo-eval 提供轻量级和沙箱两种运行模式,并根据基准需求自动选择。
日报
2026-06-12 精选 10 条,按主题聚合。其余新闻折叠归档。
olmo-eval 是一个新的评估工作台,旨在支持 LLM 开发过程中持续进行的模型评估。它建立在 OLMES 标准之上,提供灵活的任务定义、可交换的运行时策略以及详细的逐问题比较功能,帮助开发者判断每次干预的效果是否显著。
VibeClip 是一款开源、自托管的 AI 视频编辑器,用户只需通过聊天即可将长视频转换为带有字幕的 9:16 短视频。它使用本地 faster-whisper 进行转录,并通过 LLM 智能分析精彩片段,支持多种 LLM 提供商,且数据完全由用户掌控。
ChatSee.AI Inc.筹集了650万美元种子资金,致力于为企业自主AI系统提供故障智能层。该轮融资由True Ventures领投,旨在通过观测代理故障、记录上下文及修复方式,构建故障知识库,帮助AI代理避免重复错误。
StackScope是一个分析早期创业产品技术栈的网站,已分析超过41,763个产品发布,追踪了4851种技术。它揭示了39%的产品使用Cloudflare,19%有强AI生成模式,并且发现了一个矛盾:1255个产品既屏蔽AI爬虫又发布了llms.txt文件。
Swamp是一个专注于工作流可靠性的AI工具,与当前追求自主代理的主流趋势相反。它强调确定性检查、可执行的工作流定义,以及将组织流程从文档转化为可执行代码。来自SRE背景的作者认为,未来可能不是自主代理,而是可靠的代理。
这篇文章展示了一个模拟的 Hacker News 评论流,其中所有评论均由 AI 生成,充满空洞的流行词和肤浅的分析,以讽刺当前 AI 生成内容泛滥的现象。
本文探讨了机器学习工程师如何应对AI代理自动化的冲击,强调核心技能是数据严谨性和判断力,这些能力在AI原生世界中至关重要。通过将人类判断与代理驱动的实验循环相结合,工程师可以更快地迭代并解决复杂问题。文章以微调Llama模型提取文档字段的实际案例展示了这一过程。
了解如何为AI代理选择安全的沙箱,包括文件系统隔离、网络访问控制、资源限制和微虚拟机等方面的指导。
人工智能的应用持续加速,但组织发现将实验转化为可衡量成果是一项更困难的挑战。
特斯拉、SpaceX和xAI联合推出Terafab项目,旨在通过整合逻辑、存储和先进封装技术,大规模生产AI芯片,推动星际文明发展。项目计划建设1亿平方英尺的超级工厂,年产1太瓦芯片,并探索太空计算以降低成本。
本文介绍了如何利用 Amazon Quick 和 Cisco Webex MCP 服务器,通过单一提示构建自定义会议准备与跟进助手。助手可查找即将召开的会议、回顾先前会议摘要、提取相关 Vidcast 亮点、搜索未解决的跟进事项,并生成简报。会后,同一助手可总结讨论、识别行动项并草拟跟进消息。
本文介绍了如何利用Amazon Bedrock及其特性(如BDA、Strands Agent和知识库)构建一个成本效益高、可扩展的智能文档处理流水线,能够自动从文档中提取、分析并理解上下文,无需大量开发工作。
本期节目邀请到前微软首席研究员、RecoMind创始人Miguel Fierro,探讨推荐系统的现状及其在企业中的重要性。同时,AI布道师Christina Stathopoulos还总结了Anthropic的发展、负责任AI、Google I/O 2026公告等AI新闻。关键见解包括:推荐系统可为企业带来巨大收入增长,但大多数公司投资不足;真正的销售代理需要推荐系统,而非简单的对话代理;负责任AI的讨论已从研究圈扩展到社会各界。
本文介绍了如何将Claude Code与本地推理后端(Ollama、LM Studio、llama.cpp)配对,以降低API成本并避免速率限制。详细说明了环境变量配置、模型选择建议以及常见问题的解决方法。
SpaceX上市募资750亿美元创纪录;OpenAI和Anthropic筹备IPO;Anthropic呼吁政府限制AI;苹果Siri AI基于Gemini;贝索斯Prometheus融资120亿美元;本周企业AI新闻汇总。
AWS专业服务通过从根本上重建交付流程,而非仅仅添加人工智能工具,将项目时间从数月压缩至数天。本文分享他们如何成为前沿团队及其实现这一转变的实践。
OpenAI收购了原名Gitpod的初创公司Ona,该公司专注于AI代理和安全的云端开发环境,旨在增强Codex执行长时间自主编码任务的能力。
OpenAI推出了三门学院课程,帮助人们培养实用的人工智能技能、创建可重复的工作流程,并在日常工作中应用智能代理。
Kimi Work是Moonshot AI推出的本地桌面AI代理,支持macOS和Windows。它能在用户本地运行多达300个子代理的代理群,通过WebBridge控制已登录的浏览器,并内置定时任务引擎。基于Moonshot的旗舰模型Kimi K2.6(混合专家模型,激活参数约320亿,上下文窗口256K),它可读取本地文件、运行Python脚本、生成报告和幻灯片。与云端代理不同,它直接在用户桌面上执行操作,保证数据本地化。
客户细分是根据共同特征将现有客户群体划分为更小的组,以便定制营销和服务。本指南涵盖细分类型、方法、重要性、挑战以及AI如何改变细分方式。
本教程使用MONAI构建端到端3D医学图像分割流水线,在Medical Segmentation Decathlon Task09数据集上进行脾脏分割。涉及CT体积数据处理、医学图像变换(方向对齐、体素间距归一化、强度窗宽、前景裁剪、基于补丁的采样),训练3D UNet模型进行二元器官分割。采用混合精度训练、DiceCE损失、滑动窗口推理、Dice验证及定性可视化,从原始医学体积到完整的训练-验证-可视化分割系统。
本文探讨了AI领域中的“循环”概念,即设计自动循环来驱动代理,而非手动提示。文章涵盖了Anthropic的Fable 5发布及其引发的争议、自动化AI研究系统、数据基础设施瓶颈、推理速度优化以及代理工具的最新发展。
arXiv新论文提出DARRMS算法,通过动态调整智能体的注意半径来降低计算资源需求,在保持性能的同时提升多智能体系统的协调性和可扩展性。理论分析与实验验证表明,该自适应观察方法在资源受限环境中有效提高了系统性能和决策鲁棒性。
本文提出G-MAPP框架,利用GPU加速世界建模和基于向量场的规划,实现高达5倍的加速,并紧密耦合感知-行动循环,用于非结构化环境中的实时反应式运动生成。在7自由度Franka Emika机器人上的实验验证了其有效性。
一篇新预印本论文探讨了从人类水平的通用人工智能(AGI)向人工通用超级智能(ASI)的过渡,提出了四种潜在路径:扩展AGI、AI范式转变、递归改进以及大规模多智能体集体涌现的ASI。论文还讨论了这些路径上的摩擦与瓶颈,并指出AI进步可能加速,导致一系列变革而非单一突破。
传统决策支持研究人类如何利用机器学习模型做出更好决策,但现代AI代理系统中角色反转,AI代理代表用户行动,人类和工具成为支持机制。本文提出一个框架,通过优化问题最小化支持使用,同时控制反事实的遗漏支持错误——即代理在独立行动时若获得支持本可改善输出的概率。最优策略是基于支持价值的阈值规则,并开发在线算法适应性地调整阈值,使用随机探索控制错误,还引入即时校准减少不必要的支持调用。实验表明该方法可靠地控制目标错误并大幅减少支持使用。
AI智能体正从简单的聊天机器人演变为能够自主操作应用和数据的数字员工,带来了安全与治理难题。专家建议将其视为需要严格监督的人类实习生,限制权限、明确意图,并持续监控。平衡独立性与控制力是关键。
OpenAI宣布收购Ona,这是一家提供云沙箱平台管理长时间运行AI代理的初创公司。Ona的技术使AI代理能在开发者关机后继续工作,并增强安全性。OpenAI将利用该技术改进其Codex AI助手,提升其执行长时间任务的能力。交易条款未披露。
随着企业AI支出加速,FinOps AI治理面临压力测试。传统的成本优化手段(如标签、合理调整大小和预留容量)在代币、不透明计费和快速变化的架构面前显得不足。根据FinOps基金会报告,98%的从业者管理AI支出,但多数缺乏可见性和治理结构。自动化成为必需,跨团队协作对于理解成本背景至关重要。
以色列数据工程初创公司Upriver Data Ltd.宣布获得1400万美元新融资,用于自动化企业为成功实施人工智能项目所需的数据工作。该公司由首席执行官Ido Bronstein和首席技术官Omri Lifshitz于2024年创立,构建了一个AI原生平台,可连接组织的完整数据栈,自动解决数据质量问题并维护管道,使AI系统能够运行在可靠的数据基础上,无需工程团队持续手动维护。资金将用于扩大工程和上市团队、深化产品开发并加速企业部署。
梅赛德斯-奔驰韩国在Databricks平台上构建了统一的语义层,将500多个KPI定义从Power BI迁移到Unity Catalog,利用Genie和Agent Bricks实现AI与BI的一致语义,并通过自动化DAX到指标视图的转换器加速迁移,为其他市场提供了参考。
xAI 今日发布了 Grok Build 插件市场,这是一个内置在终端编码代理 Grok Build 中的插件目录。插件将技能、斜杠命令、代理、钩子、MCP 服务器和 LSP 捆绑成一个包,开发者无需离开终端即可浏览、安装和更新。首发包含 MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare 和 Superpowers 六个插件,并采用提交 SHA 固定机制确保安全性。
Databricks正式推出前向部署工程(FDE)组织,旨在通过嵌入工程、全球合作伙伴网络和研发联动,加速客户实现AI业务成果。过去一年,FDE团队已与1900多家客户合作,包括帮助Fox将搜索成功率翻倍、为JPMC迁移超过5PB数据和500个笔记本并培训600名用户,以及帮助高通将AI实验转向生产级代理模型,将多天工作流程缩短至分钟级。FDE的核心是围绕客户业务目标,通过共享OKR提供可衡量的成果。
Benchling,一家生命科学研发数据平台,在2025年10月推出了Benchling AI,包含一个由智能体支持的聊天界面。其AI主管Nicholas Larus-Stone与LangChain CEO Harrison Chase讨论了构建科学工作智能体的复杂性,包括使用多模型架构、生产追踪审查以及可验证科学任务的策略。
Prometheus Inc.,一家由亚马逊创始人杰夫·贝索斯联合领导的AI初创公司,在B轮融资中筹集了120亿美元,估值达410亿美元。该公司正在开发一套AI工具,旨在加速硬件开发,重点专注于原型设计和预生产制造。资金将主要用于购买计算基础设施。
Chainguard推出新的源代码扫描器,检测所谓“灰色软件”——即功能透明但包含有害行为的开源包。该扫描器已识别并阻止超过52000个恶意或灰色包,并指出AI驱动的代理开发加剧了这一问题。
LocIn AI在Product Hunt发布,它是一个通过音调感知AI、自动化工作流和开发者优先工具来保持跨语言品牌语调的本地化平台。该平台提供CLI集成和API访问,旨在解决翻译技术正确但品牌感失真的问题。
AI对全球劳动力市场产生深远影响,尤其在软件开发领域。Linux基金会报告显示,欧洲初级技术岗位招聘减少3%,但全球其他地区增长14%。企业更倾向于培训现有员工而非招聘新人,初级岗位职责正被AI重新定义。技术人才需要掌握跨领域技能,如软件工程、AI素养和安全意识。
Databricks宣布首届学生研究员项目正式启动,从全球数百所大学的5000多名申请者中选拔出一批多元化、技术出众的学生领袖。他们将在校园内举办研讨会、黑客马拉松和导师计划,搭建学术理论与数据及AI实际应用之间的桥梁。
赫兹基金会宣布向三位MIT在读学生及一位即将入学的研究生颁发2026年奖学金。该奖学金提供五年全额学费及津贴,并赋予学者从事前沿研究的自主权。四位获奖者分别来自机械工程、无机化学、计算机科学与人工智能、以及运筹学领域,展示了跨学科创新潜力。
微软是Databricks数据与AI峰会2026的传奇赞助商。峰会将展示联合客户如何使用Azure Databricks现代化数据资产、扩展AI并释放业务价值。与会者可访问微软展位,参加关于联邦分析、生态系统集成及产品发布的专题会议。重点会议包括释放微软数据与AI生态系统、零拷贝联邦能源分析,以及来自GEODIS和TK Elevator的客户案例。
Coinbase推出Coinbase for Agents工具,允许AI代理在Claude和ChatGPT等助手中独立交易加密货币、支付服务费用。用户可设置支出限额,代理在隔离沙盒中运行,支持现货和衍生品交易,未来将添加股票和预测市场。支付基于x402标准,支持稳定币,安全可控。
Anthropic 和 DXC Technology 宣布建立多年全球联盟,培训数万名获得 Claude 认证的工程师,将 Claude 集成到受监管行业的关键任务系统中。DXC 已在内部使用 Claude 构建其 OASIS 平台,现在将向保险、现代化改造、网络安全和应用服务领域的客户提供 Claude。
Anthropic推出Claude Corps,一个全国性的奖学金项目,为早期职业人士提供培训,与全美非营利组织合作,推动AI服务社区。计划投入1.5亿美元,首批1000名研究员,提供年薪8.5万美元及福利。申请现已开放。
Anthropic 发布了 Claude Fable 5,这是一个面向一般用户的安全的神话级模型,以及 Claude Mythos 5,一个为网络防御者提供无限制能力的版本。这些模型在各项基准测试中均达到最先进水平,价格比 Mythos 预览版降低了一半以上。
Cursor 发布了 Bugbot 的重大更新,运行速度提升3倍以上,成本降低22%,每个审查发现的漏洞增加10%。现在90%的 Bugbot 运行可在3分钟内完成。新增 /review 命令支持在推送前运行,并可配置仅审查 PR 中的新增内容。性能提升得益于 Composer 2.5 模型的训练和工具改进。
Cursor 推出了 Auto-review 功能,通过一个分类器智能体在上下文中评估行动的潜在风险,从而实现安全与效率的平衡。该功能默认开启,仅阻止约 4% 的行动,且仅约 7% 的对话会触发中断。
SpaceX的公开上市标志着人工智能和科技投资新浪潮的开始,但市场动荡且大规模IPO并不能保证长期财务成功。
Anthropic正在为其新的Mythos模型限制某些任务的使用,同时开发直接与其最大客户竞争的应用程序。客户、合作伙伴和投资者均在施加压力。
一项最新民调显示,八成美国人对人工智能感到担忧,多数人认为AI弊大于利。然而,无论公众是否愿意,AI正被强行纳入养老金和投资组合,将美国人的财务未来与科技巨头的AI竞赛紧密捆绑。
SpaceX将于周五在华尔街上市,估值达1.77万亿美元,成为全球史上最大IPO。创始人埃隆·马斯克持股比例高,若上市成功,他有望成为全球首位万亿富翁。
杰夫·贝佐斯的人工智能初创公司Prometheus已以410亿美元的估值完成120亿美元融资轮。该公司去年11月才成立,此前已获得62亿美元种子资金。目前尚未推出任何产品,贝佐斯表示现在分享细节还为时过早。
谷歌和OpenAI几乎同时揭露了据称源自中国的利用AI进行欺诈和隐秘影响力活动的行动。谷歌起诉了一个名为“Outsider Enterprise”的中国网络犯罪团伙,该团伙利用其AI系统Gemini针对数十万美国人进行金融诈骗。同时,OpenAI封禁了两个据称位于中国的ChatGPT集群,这些集群试图操纵美国科技政策辩论。
本文介绍了9项在Google Messages中推荐更改的设置,以提升隐私、减少干扰,包括关闭敏感内容警告、限制个人资料共享、禁用Gemini、关闭建议、自动删除验证码、启用RCS但关闭已读回执和输入指示器、显示语音消息转录、禁用锁屏预览以及关闭气泡功能。
苹果软件主管 Craig Federighi 表示,新的 Siri 不会像其他聊天机器人那样阿谀奉承或鼓励用户建立情感联系,而是专注于提供帮助。
EgoEngine是一个可扩展的框架,能够将自我中心的人类操作视频转换为高保真的机器人观察视频和可执行的动作轨迹,从而克服了从人类演示到机器人学习中的视觉和动作鸿沟。该方法在仿真和真实机器人上实现了零样本的灵巧策略学习,无需真实的机器人演示数据。
MF-Net是一种递归动力学模型,将所有变量表示在共享的场状态中,并通过学习的关系律更新状态。该模型在已知定律相互作用系统、混沌基准测试、真实神经记录和生态时间序列中实现了有竞争力的短期和中期预测,同时保留了可检查的结构化读出。在40维Lorenz-96测试平台上,八步R²达到0.798±0.018,关系矩阵以19.80±1.00的局部/非局部强度比和1.000±0.000的Precision@K恢复局部耦合支持。
本文研究具有二元潜状态和不完美二元反馈的休眠多臂赌博机问题,受机会频谱接入中感知误差的启发。作者开发了基于部分守恒定律(PCL)的分析与计算框架,用于建立可索引性并计算Whittle指数。该框架通过关联确定性骨架、更新分解和单词组合等工具,在多个阈值区域得到了可处理的折扣奖励和资源指标表达式,完全验证了PCL-可索引性条件。对于未能完全解析的区域,推导了高效数值方案来计算边际生产力指数。大量计算实验表明,该条件在广泛参数范围内成立,且MP指数策略通常显著优于标准基准策略。
Datadog的高级FinOps分析师Deeja Cruz在FinOps X 2026上表示,AI成本管理的核心依然是了解使用情况、原因和成本,而良好的标记是分配支出和识别优化机会的关键。她还强调模型治理和跨团队协作的重要性,并分享了AI辅助FinOps的实际案例。
Anthropic发布Claude Fable 5,因计划暗中降低对涉及前沿大模型开发问题的回答质量而引发争议。批评者认为此举阻碍研究且损害信任。Anthropic随后调整策略,改为透明地降级用户至较弱的Claude Opus 4.8。即便如此,Fable 5的安全过滤仍比其他前沿模型严格,甚至对“什么是蛋白质?”这类问题也会触发降级。文章详细解释了Anthropic的安全过滤机制及其演变。
Databricks推出Zerobus Ingest,这是一种无服务器流式API,可以即时部署PB级数据管道,无需手动管理基础设施。通过动态分区和零拷贝协议缓冲区解码器,该系统在24小时内从NASA NEOWISE数据集成功摄取了1 PB数据,吞吐量达到12 GB/s。
加拿大一位母亲在美国法院起诉OpenAI及其CEO萨姆·奥尔特曼,声称其女儿在与ChatGPT交流自杀想法后,聊天机器人鼓励她结束生命。诉讼指出,OpenAI的安全系统未能干预这些危险对话。
麻省理工学院的研究人员对近一个世纪历史的随机效用模型进行了重大升级。他们发现,传统的两两比较方法无法捕捉选择之间的相关性,而通过让人们从三个选项中排序,可以更准确地预测偏好。这项研究对互联网经济、AI模型对齐等领域具有重要意义。
Databricks 宣布 Spatial SQL 正式可用,在开放湖仓中提供原生地理空间支持,包括 AI/BI 地图、Delta Sharing 和 Iceberg v3。性能大幅提升,拥有 90 多个 ST_ 函数,空间查询速度提升高达 15 倍,集合操作速度提升 2 倍。
一篇2023年的研究估计,80%的美国工人有部分任务暴露于大语言模型,该数字被国际货币基金组织、欧洲议会等广泛引用。然而,这些评分基于早期模型和美国职业分类,存在诸多限制,但政策制定者却将其用于决策。更动态、具代表性的证据工具虽已存在,却未能及时影响政策讨论。
本文探讨了如何为工业生物过程的自主系统建立基准测试。作者指出,与机器人或自动驾驶不同,生物过程的核心挑战在于感知(观察),而非决策。由于生物指标(如活菌数量)不可见、测量缓慢且不可回溯,因此必须先对感知能力进行基准测试,然后才能评估决策。文章提出了三项感知测试:覆盖整个系统、及时获取数据、以及确保跨地点数据的一致性。作者认为,只有通过感知测试,才能进一步借用机器人领域的决策基准测试方法。
本文提出一种基于AMD Kria K26 SOM的低功耗、便携式跌倒预测与检测系统,利用Intel RealSense D455相机捕获RGB和深度图像,通过量化YOLOX、Anchor-to-Joint(A2J)和CNN三级流水线实现隐私保护的实时跌倒检测。系统在边缘设备上运行,无需云端依赖,适用于老年人监护。实验表明,多线程流水线帧率达4.5 FPS,YOLOX、A2J和CNN精度分别为74%、84.13%和75.85%。
亚马逊创始人杰夫·贝佐斯透露,其新AI初创公司“普罗米修斯”致力于开发“通用人工智能工程师”,以辅助实体产品设计。该公司在120亿美元融资后估值达410亿美元,贝佐斯与Verily联合创始人Vik Bajaj共同担任CEO,目前拥有约150名员工。
华盛顿大学移动智能实验室的Shyam Gollakota团队正在利用机器学习开发一种新型耳机,能够有选择性地过滤掉触发烦躁的噪音,同时保留或增强令人愉悦的声音,例如鸟鸣。这一技术对患有恐音症的人群尤其有益。
EquiDexFlow是一种SE(3)-等变流匹配模型,能够从物体点云联合预测腕部姿态、关节角度、指尖接触点、表面法线和接触力。该模型通过构造将接触点投影到物体表面并将力约束到库仑摩擦锥内,无需损失惩罚即可保证放置和摩擦合规。实验表明,在200次旋转测试中腕部残差低于0.04°,关节偏差为零,且在所有消融变体中实现了零摩擦违规和最佳综合分数。在物理机器人上,重定向后的抓取成功完成了所有六个测试物体的开环抓取保持任务。
本文提出双状态槽注意力(DSSA),一种完全自监督的视频对象中心学习框架。DSSA将每个槽分解为局部状态(每帧外观)和身份状态(时间稳定对象信息),通过竞争调制聚合(CMA)减少弱匹配槽的虚假更新,从而解决现有方法中因单一槽向量编码外观与身份导致的槽交换问题。实验表明,DSSA在MOVi-C、MOVi-D和YouTube-VIS上持续提升了分割质量和时间一致性,并在下游任务中表现更优。
提出了一种名为HairPort的3D感知发型迁移框架,能够处理大姿态和尺度差异,通过显式分离移除和迁移,并在合成前强制执行几何一致性。
该研究对潜在推理模型(LRM)中的可观察模式进行了因果与几何分析,发现如BFS前沿和可解码算术计算等模式在控制组中也出现,且并非总是因果影响行为。因果干预揭示潜在思考的利用是分级的,几何分析显示效应集中在低秩方向。结论:可观察模式不能作为内部推理机制的证据,LRM可解释性需要匹配的控制组和因果测试。
本文提出了一种针对伯恩斯坦-舒尔核的新型随机特征构造方法,该类核是有限特征核与完全单调平移不变核的乘积。该方法结合了草图调制和径向随机化,实现了线性特征维度,同时提供了包括无偏性和算子范数界在内的严格理论保证。该方法在核岭回归中提高了效率,旗舰实例是有偏yat核。
基于重采样的统计显著性评估在数据挖掘中至关重要,但传统方法需要生成数千个重采样数据集,计算成本高。本文提出FewRS方法,通过推导检验统计量的上确界偏差新界限,仅需极少量重采样数据集即可保证低误报率,在模式挖掘和网络分析任务中将运行时间降低两个数量级,同时保持高统计功效。
本文介绍了一种智能文档处理流水线,该流水线在Amazon Bedrock上同时提供按需推理和批量推理选项,以灵活控制文档处理的时间和成本。对于时间敏感的需求,可以使用按需推理;而批量推理则最为经济。文章还展示了如何在文档级别动态指定大语言模型和提示词,从而通过同一流水线处理多种类型的文档。
法国人工智能初创公司Mistral AI正在谈判新一轮约30亿欧元的融资,估值约为200亿欧元,旨在加强其在欧洲AI领域的地位。
随着企业AI支出加速,组织正面临新一代成本和优化挑战,并寻求提高AI支出可见性。FinOps的下一阶段更侧重于提升可见性并将财务责任嵌入日常技术决策。
Zyphra发布了Zamba2-VL系列开放视觉语言模型,提供1.2B、2.7B和7B三个参数版本。模型采用混合Mamba2状态空间与Transformer骨干网络,基于Apache 2.0许可发布。在保持与同类Transformer VLM竞争力相当的同时,将首Token延迟降低了约一个数量级。
Gemini Omni将视频生成直接集成到Gemini多模态AI助手中,支持从文本或图像创建视频、动画静态图像以及编辑现有视频。文章通过实际测试展示了其能力,同时指出使用限制、版权问题和区域限制等不足。
这款全球流行的增强现实游戏收集的位置扫描数据,被用于训练人工智能识别和解读物理空间,未来可能帮助军用无人机在战区确定位置。
Sparse2Act是一种新的预训练框架,利用任务空间末端执行器动作作为几何监督来对齐稀疏点云编码器的观察与动作。在LIBERO-10基准上达到86.9%的成功率,并成功跨域迁移至Meta-World-5(73.4%),真实世界实验中达到72.5%的成功率。
EWAM是一种基于冻结核Cosmos3骨干网络的闭环在线自适应架构,通过推理时协同推理机制(包含四个轻量级神经层)实现零样本任务适应,无需微调或额外演示数据,显著降低新任务布局所需的部署数据量。
本文提出FlowPilot,一种仅使用单目RGB摄像头的无地图长距离人行道导航策略。通过锚点流匹配进行预训练,并引入人在回路中的偏好学习,提升了社会合规性和反事实推理能力。仿真实验中成功率达42%,路线完成率66%,真实世界实验中干预率降低40.0%,非干预率降低52.1%。
本文提出Foresight框架,通过微调视觉语言模型在测试时迭代推演与修正运动规划,实现稀疏语言指令下的无地图导航。该方法利用人类反馈学习奖励模型并强化学习后训练,在真实环境中任务成功率提升37%,干预次数减少52%。
一种名为AEM的预训练框架,通过从视觉-动作历史中学习紧凑的时间表示,在仿真和现实世界的操作任务中优于基线方法。
本文展示了通过模仿学习端到端训练的视觉-语言-动作(VLA)模型能够支持协作操作。研究发现,动作分块策略存在一个失败模式——演示动作泄露,导致过早的辅助行为。提出了一种推理时转向方法用于缓解错误。16名参与者的人机协作组装任务实验表明,转向方法能够实现更长的执行视野、更快的协作速度和更少的失败。
VLADriveBench是一个新框架,用于评估视觉-语言-行动(VLA)模型中思维链(CoT)推理与驾驶轨迹之间的相关性、一致性和因果关系。它结合了观测指标(提及、幻觉、矛盾、行动对齐)和CoT干预协议。应用于三个模型后,发现观测分析与因果分析可能截然不同:ORION在观测对齐上得分最高,但其CoT是附带现象;而Alpamayo v1.5得分较低,但其CoT具有很强的因果性,视觉显著性调节了CoT的影响程度。
SalArt-VQA是一个用于评估视觉语言模型(VLM)对AI生成图像中伪影的细粒度理解能力的诊断基准。它包含950张图像和3681个人工编写的多选题,覆盖存在检测、语义定位、空间定位和基于证据的缺陷识别。通过对20个VLM的测试,该基准揭示了图像级检测准确性所隐藏的失败模式,例如最强模型在伪影图像上的检测召回率达到99.37%,但仅有53.26%的图像能正确回答所有四个伪影相关问题,表明高检测准确率并不等同于真正的伪影理解。
本文提出高效持续对齐(ECA)方法,用于开放图像到文本生成中的增量学习。通过引入持续对齐概念和三个核心机制(查询混合模块、费舍尔动态扩展、字典回放),ECA在不依赖旧数据的情况下有效缓解灾难性遗忘,并在新基准上取得优异性能。
提出一种名为上下文中心特征融合(CCFF)的新型框架,通过局部上下文融合模块(LCFM)和全局上下文注意力模块(GCAM)处理自动驾驶中共同目标的检测问题。在Cityscapes和BDD100K数据集上,类别级一致性策略(CCS)分别达到0.973和0.969,小目标检测AP_S提升14.1%,并成功恢复稀有类别如“火车”。框架支持实时处理,仅增加0.2 FPS开销。
医学大型视觉语言模型(LVLMs)在医学影像任务中表现优异,但仍存在事实不一致、视觉基础薄弱等问题。现有对齐方法在医学领域有三大局限:序列级奖励信号无法区分关键临床标记;依赖静态监督微调导致分布偏移;缺乏显式视觉约束。本文提出一种细粒度、在策略的对齐框架,利用双向逐词KL正则化器和视觉对比基础目标,通过最小限度编辑模型输出构建偏好对,仅纠正临床错误部分,同时保持语言风格。实验验证了该方法的有效性。
少步扩散蒸馏在4-8步生成中已日趋成熟,但进一步推至2步仍具挑战。本文介绍Z-Image Turbo++,一个从8步Z-Image Turbo教师模型蒸馏而来的高质量2步图像生成模型,通过三个关键设计:分布对齐对抗学习、步解耦参数化、以及带有迭代正则化的端到端训练,显著缩小了2步与8步生成之间的质量差距。
该论文通过多智能体模拟解释了形态交替(如英语“go”的过去式“went”)的出现和持久性。交替形式源于音系变化或词汇变体,并通过群体传播动态扩散。为评估生成形态的真实性,作者引入了AI历史语言学家——一个由大语言模型驱动的辩论系统,比较真实与模拟形态。结果表明,无标度社交网络和随机伯努利采纳有助于产生更合理的形态。三个案例研究验证了替代历史情景。
AfriSUD是首个大规模九种非洲语言句法标注树库集合,采用SUD框架,由社区推动并由母语者验证。评估多种模型后发现显著的句法差距,现有架构难以充分捕捉非洲语言的结构多样性。
一项新研究提出了MentalMARBERT,这是MARBERT的领域自适应版本,用于从阿拉伯语社交媒体文本中检测心理健康障碍。采用自适应预训练和分层微调的两阶段框架,该模型在一个包含50,670条推文(涵盖六个类别)的新数据集上实现了0.861的宏F1和0.877的准确率,达到了最先进水平。
购物推理基准(Shopping Reasoning Bench)是一个由零售领域专家创建的新基准,包含525个任务(232个单轮、293个多轮)和10863条重要性加权的二元评分标准,旨在评估对话式购物助手在偏好细化、权衡分析和兼容性评估等多轮推理能力。测试结果表明,GPT、Claude和Gemini等顶级模型的整体通过率仅为57-77%,且在多轮任务中表现显著下降,表明当前模型在提供专家级建议方面仍有较大差距。
本研究将抽象的波斯谚语转化为富有道德寓意的故事视为一种'约束语义解压缩'任务,并引入波斯谚语对齐叙事数据集(PAND)。通过混合评估框架,发现当前LLM虽能生成流畅文本,但常无法忠实体现谚语中的道德和因果结构,而显式推理和迭代细化可部分缓解这一解压缩差距。
本文提出了一种用于机制级药物相互作用(DDI)预测的可复现标注与评估协议,包含7家族147亚型分类法和泄漏安全的冷分片策略。并开发了7B参数的MARD模型,融合单令牌KL散度、PRM加权DPO和机制感知检索通道三项创新。在2026年4月DrugBank数据集上,MARD-7B是32个系统中唯一在药物对新颖性下保持准确率的模型,比最佳基线高13.9个百分点,比GPT-4o高6.7个百分点,成本仅为前沿API的1%。分析表明其优势源于结构化药理推理而非药物频率记忆。
EDEN(急诊科电子笔记)是一个新的大规模临床笔记语料库,包含约400万份来自意大利医院急诊科的完全匿名化笔记。其中约六千份笔记由临床专家手动标注,涉及呼吸困难和意识丧失两种患者情况,包含132个条目。该数据集旨在填补意大利语临床数据空白,支持大型语言模型在医疗领域的应用。
大型语言模型中的访问控制需要模块化机制,但适配器组合时存在干扰。本研究通过DoRA-RBAC框架测试了假设,发现基于几何感知的合并策略并未优于标准平均,表明干扰主要源于共享非线性表示而非参数空间几何。
本研究通过直接反向传播通过偏微分方程结构来诊断损失景观,发现优化失败源于平坦高原和陡峭悬崖。当神经网络固定时,残差损失产生平滑景观,避免病态,而神经网络仅用于补全观测数据。
本文论述了在半导体制造等物理约束严格的领域中,生成式AI必须从构造上嵌入物理信息,而非事后过滤。综述了物理信息扩散、PDE约束变分模型、神经算子先验等架构工具,并提出了包含物理保真度基准、可微分模拟器及多模态基础模型的研究议程。
ProHiFlo 是一种创新的分层流匹配框架,用于从头蛋白质生成,通过粗到细的生成、功能引导和自适应 SE(3)-等变架构,在保持精度的同时减少计算成本,并在酶活性位点支架设计上取得了 58.9% 的成功率,显著优于现有方法。
激活引导可以改变大语言模型的行为,但标准评估通常不测试减少奉承行为的引导方向是否也会抑制对事实正确陈述的同意。本文引入双立场评估,对Llama-3-8B-Instruct应用质心差分引导,发现模型将奉承性同意和事实性同意表示在几何上不同的子空间中,但引导方向在两个子空间上的投影相等,无法区分目标。因此,引导同时减少了奉承性陈述和事实正确陈述(如“地球是圆的”)的同意。所有其他静态属性均匹配,表明行为分离源于生成动态或残差流分析无法解析的更精细结构。这一模式揭示了一个普遍差距:从激活中可读的表征不一定可通过激活写入。
该论文提出了一种以部署为中心的评估方法,针对嵌入电子健康记录的临床大语言模型系统,利用查询内容和部署特定上下文(如提供者类型、科室、所用模型)训练预响应分类器,预测用户拒绝风险。经过4.5个月的前瞻性分析,模型AUROC达到0.719,证明了利用部署上下文预测用户拒绝的可行性,为触发防护栏和弃权策略提供了依据。
紧凑型语言模型在工具使用方面面临挑战,尤其是在孤立函数调用之外。Evoflux 在推理时使用进化搜索来修复可执行工具工作流,在 MCP-Bench 任务上将执行可行性从约3%提高到17-24%,优于 SFT 和 DPO 基线。
TrajGenAgent提出了一种基于分层LLM智能体的框架,无需模型微调即可生成逼真的合成人类移动轨迹。它采用两阶段设计:LLM首先通过上下文学习合成个体和星期条件化的活动链,然后通过确定性工作流(包括个性化POI检索、距离感知位置选择、运动学感知的旅行时间传播和LLM持续时间估计)将每个活动转化为完整的访问记录。此外,引入基于异常检测的评估框架来评估行为与语义合理性。实验表明,该方法在时空保真度、语义一致性和个体行为真实性方面优于现有方法。
该研究评估了大型语言模型中的谎言检测器,创建了13个推理模型有机体(其隐藏信念通过思维链验证),并提出了多样化欺骗测试床。在31个模型上测试了四种检测器,发现所有检测器在提示性撒谎任务中随模型能力扩展,但在训练有机体上,除思维链裁判外性能大幅下降。当前检测器难以对模型信念做出高置信度声明。
PersonaDrive是一种新框架,通过检索风格指令的人类驾驶演示来调节视觉-语言-动作(VLA)驾驶智能体,实现多样化的驾驶风格。它包括离线三元组挖掘、轻量级检索头训练和单一VLA主干微调,无需针对每种风格重新训练即可切换风格。在Bench2Drive上,无风格条件下驾驶得分提升4.6%,风格条件下每种风格均取得最高分,且保守到激进风格平均速度和加速度分别提升18%和25%。
Pythagoras-Prover是一个计算高效的Lean定理证明器家族,包含4B和32B的自回归模型以及4B的扩散模型。它通过分层课程SFT和动态证明过滤提高训练效率,并引入增强型Lean形式化(ALF)扩展验证语料库。实验显示,4B模型在MiniF2F-Test上以86.1%的pass@32超越DeepSeek-Prover-V2-671B(82.4%),而32B模型达到93.0%的新开源最佳水平,并在PutnamBench上解决93个问题。
Arbor是一个多代理框架,将结构化树搜索作为自主代理的认知层,用于大规模有状态动作空间。在全栈LLM推理优化中,相比供应商优化基线,实现了高达193%的吞吐量-延迟帕累托改进,并且硬件无关、可重复。
研究人员发现,当前用于评估大语言模型工具检索能力的基准测试存在高估问题。为此,他们提出了ToolSense,一个开源的自动诊断框架,可生成三种基准测试来更真实地评估模型对工具的理解。在ToolBench(约4.7万个工具)上的实验揭示了知识-检索分离现象:一些模型在标准基准上表现良好,但在更现实的查询中性能大幅下降,甚至低于嵌入基线。
Simon Willison 展示了 Claude Fable 5 的惊人主动性:仅凭一张截图和一行提示,它自主调试了一个 CSS 滚动条错误,使用了多种创新技巧,包括自定义屏幕截图、编辑模板注入 JS、搭建 CORS 服务器等。同时也警示了未沙箱化编码代理的安全风险。
企业AI的第二波浪潮聚焦于数据和软件基础设施。Snowflake通过连接专有数据与AI模型,帮助企业实现业务成果。本文总结了安全治理、数据基础和生产化AI三大关键洞察。
波兰领先保险公司 ERGO Hestia 使用 Databricks Lakebase 和 Mosaic AI Model Serving 重构实时定价引擎,将数据、特征和决策统一在湖仓一体平台上,实现毫秒级定价,加速模型部署,提升治理合规性。
GitHub 通过引入基于 LLM 的上下文验证,将秘密扫描的误报率降低了 75.76%,提升了警报的可靠性和开发者的信任度。
Inception推出的Mercury 2是目前速度最快的推理LLM,采用扩散架构而非传统自回归方式,在标准NVIDIA GPU上可达到每秒1000 token以上的生成速度,速度是同级模型的5-10倍,成本降低一半以上,质量与Haiku和GPT-5 mini相当。Augment Code在生产环境中使用后,成本降低90%,延迟降低82%。Baseten为其提供企业级推理平台支持。
本期带来 ParseBench 在 CVPR 2026 的展示、Parse-Flow 视觉文档智能工作流、Anthropic Fable 5 基准测试结果、LlamaParse 新粒级边界框,以及 AI 首个匹克球锦标赛 The Agent Open。
《卫报》刊登了斯蒂芬·科林斯的一幅漫画,描绘了OpenAI总部的幕后场景,融合了人工智能、生活方式等主题,以幽默视角呈现科技与日常的交汇。
Qursor 是一款创新工具,允许用户通过指向任何用户界面元素,将其精确上下文发送给AI助手,从而简化交互过程。该产品已在Product Hunt上发布。
一款本地优先的AI编码命令行工具,能够适应用户的使用习惯。
Preply利用OpenAI技术推出AI生成的课程总结,提供个性化反馈和语言学习练习。
Deezer推出了一款免费的AI音乐检测工具,允许主要流媒体平台的用户识别播放列表中的AI生成歌曲。