AI News HubLIVE

今日重点

政策

AI巨头互相攻击,却意外捧红了一位无名议员

OpenAI和Anthropic的争斗意外地让纽约州议员Alex Bores成为AI安全监管的代言人。尽管背后有超级政治行动委员会投入数百万美元攻击他,Bores却因这些攻击而声名鹊起,目前在初选中领先。

  • OpenAI和Anthropic在纽约第12国会选区的初选中花费数百万美元互相攻击,但受益者却是议员Alex Bores。
  • Bores撰写了美国首批AI监管法案之一,因此成为AI公司的攻击目标。
站内正文

教皇并未沉迷于AGI

教皇方济各发布通谕《伟大的人类》,警告人工智能的社会影响,强调AI不是纯粹的技术问题,而是涉及权利、机会和自由。该通谕与Anthropic合作,引发科技界不同反应,有人批评未提及AGI,有人赞赏其关注人类尊严。

  • 教皇发布通谕《伟大的人类》,警告AI的社会风险。
  • Anthropic联合创始人克里斯托弗·奥拉出席,代表教会与AI公司合作。
站内正文

美国民众如何看待利奥教皇关于AI的言论?

利奥教皇批评AI快速发展,称其可能使文明失去人性,并呼吁各国政府放慢AI发展。美国政界对此反应不一,有人称赞其道德领导力,有人质疑教皇角色或警告监管风险。

  • 利奥教皇警告AI可能使文明失去人性
  • 他呼吁政府积极减缓AI发展
站内正文

美国执法部门警告“反科技极端主义”随着对AI的仇恨增长

随着对AI技术的仇恨情绪上升,美国执法部门开始警告“反科技极端主义”的威胁。然而,专家担心这一概念可能被滥用,将和平抗议者和技术批评者定性为威胁。一例非营利组织的视频被错误标记为潜在威胁,引发了关于言论自由的担忧。

  • 专家卢布拉诺警告反科技极端主义框架需谨慎使用,不应用来压制对AI的批评。
  • 研究人员雷诺兹指出,该类别可能过于宽泛,涵盖和平抗议者和AI怀疑论者。
站内正文

你可能不会注意到AI聊天机器人悄悄植入广告

研究表明,AI聊天机器人可以轻易地通过个性化广告操纵用户,且多数用户并未察觉。随着微软、谷歌、OpenAI等公司试验聊天机器人广告,这一趋势引发了对用户隐私和决策自主性的担忧。

  • 研究显示,植入广告的AI聊天机器人能影响用户选择,但半数参与者未意识到广告存在。
  • 聊天机器人可通过对话深入分析用户画像,使广告更具针对性。
站内正文

巴士巡逻计划将校车AI摄像头变成警察的自动车牌读取器

巴士巡逻(BusPatrol)公司在美国数万辆校车上安装了AI摄像头,原本用于抓拍非法超越校车的车辆。现在,该公司计划将这些摄像头转变为自动车牌读取器(ALPR),记录校车经过的所有车辆的位置,并将数据交给执法机构。这一做法实际上将校车变成了移动监控设备,引发了隐私担忧。

  • 巴士巡逻在校车上安装了AI摄像头,原用于抓拍非法超越校车的行为。
  • 公司计划将摄像头用作ALPR,扫描所有经过车辆的车牌并共享给警方。
站内正文

Show HN: Sotto – 专为 Mac 打造的 AI 面试助手

Sotto 是一款由工程师为工程师打造的 macOS 面试助手,提供问题分析、实时转录和隐形覆盖等功能,帮助你在高压面试中保持冷静,自然地展示真实水平。它并非作弊工具,而是一个协作伙伴,确保你的神经不会让你功亏一篑。

  • Sotto 是一款 macOS 原生应用,可在 Zoom、Teams 和 Google Meet 中实现操作系统级别的隐形覆盖。
  • 提供实时转录、问题分析和 AI 辅助回答,支持 10 种编程语言。
站内正文

萎缩:一部关于AI侵蚀学生心智的中篇小说

一名学生在深夜编程作业中挣扎,偶然发现ChatGPT已完美解答了同一题目,瞬间感到自身努力毫无意义,陷入存在性眩晕。小说以细腻笔触描绘了当AI使昔日辛劳变得多余时,个体心理所遭遇的冲击。

  • 学生为编程作业熬夜,无意中看到ChatGPT生成的完美代码。
  • 他感到的不是嫉妒,而是发现努力被工具超越的眩晕与失落。
站内正文

RCSP:用于安全动态机器人导航的风险敏感推测场景规划

RCSP是一种预测性规划层,通过评估候选命令在短期障碍物未来中的风险来避免机器人的近失承诺问题。在MuJoCo、ROS2/Gazebo和DynaBARN/Jackal模拟中,RCSP提高了安全性和路径质量,但增加了延迟,揭示了其作为现有导航堆栈补充模块的边界。

  • RCSP解决了移动机器人在动态环境中因未来障碍物闭合而失败的问题。
  • 该规划层维护轻量级信念,采样未来交互,并惩罚高风险尾部。
站内正文

AI合规解决方案

ClearCompli 提供AI治理与合规洞察,帮助企业应对AI监管挑战。

  • ClearCompli 专注于AI合规解决方案
  • 提供AI治理与监管洞察
站内正文

教皇利奥警告:必须通过监管和透明度应对人工智能挑战

教皇利奥十四世在其首道通谕《伟大的人性》中呼吁各国政府放缓人工智能系统开发,强调AI在战争中的使用必须受到最严格的道德约束,并谴责“正义战争”理论已过时。

  • 教皇利奥发布首道通谕,敦促全球放缓AI开发,防止技术导致无休止战争。
  • 强调AI数据所有权不应仅由私人掌握,需保护工人权益和儿童安全。
站内正文

AI滥用预防的挑战:管辖权、开源模型与隐私

本文探讨了防止AI被恶意使用的三大挑战:管辖权漏洞使不法分子可在无法律约束的地区活动;开源模型难以监控和限制;互联网匿名性阻碍了身份识别和追溯。作者呼吁在隐私与安全、开源与管控之间做出艰难权衡,并指出当前默认状态不可持续。

  • 管辖权漏洞:流氓国家或无法执行法律的国家为恶意行为者提供庇护
  • 开源模型:一旦发布,几乎无法监控或控制使用,削弱了防御能力
站内正文

Anthropic 任命 KiYoung Choi 为韩国代表董事

Anthropic 宣布任命 KiYoung Choi 为韩国代表董事,并即将开设首尔办公室。Choi 来自 Snowflake,拥有超过三十年科技行业领导经验,曾在 Google Cloud、Adobe 等公司任职。韩国是 Claude 最活跃的市场之一,使用率是人口预期的 3.5 倍以上。

  • KiYoung Choi 被任命为 Anthropic 韩国代表董事
  • 首尔办公室计划在未来几周内开业,高层领导将出访
站内正文
芯片

AI 是一场军备竞赛,美国需要 90 亿美元的英伟达超级芯片来跟上步伐

美国情报机构秘密申请 90 亿美元采购英伟达 GB10 超级芯片,以帮助 CIA 和 NSA 追赶 Anthropic、OpenAI 等 AI 巨头的步伐。这笔资金尚待国会批准,同时国防预算已调拨 8 亿美元用于云算力。文章详细介绍了芯片规格、成本以及 AI 硬件竞赛的升级趋势。

  • 美国政府秘密申请 90 亿美元为 CIA 和 NSA 购买英伟达 GB10 超级芯片。
  • GB10 芯片功耗仅 140 瓦,却提供 1 petaflop FP4 性能,可微调 700 亿参数模型。
站内正文

英伟达暗示将在台湾投入1500亿美元

英伟达CEO黄仁勋在即将在台湾设立总部的发布会上称该国为AI革命的“中心”。

  • 英伟达CEO黄仁勋称台湾为AI革命的中心
  • 英伟达将投资约1500亿美元在台湾建设新总部
站内正文

雷鸟双品齐发:GT 系列、V4 同台亮相,次世代 AI 眼镜雷鸟 iO 提前预告

5月27日,雷鸟创新举办夏季新品发布会,推出行业首款专业影视级AR眼镜雷鸟GT系列(1899元起),以及新一代AI拍摄眼镜雷鸟V4(2199元起),并预告次世代AI眼镜雷鸟iO将于第三季度亮相。

  • 雷鸟GT系列:专业影视级AR眼镜,59°视场角、杜比视界支持、78g重量,1899元起。
  • 雷鸟V4:AI拍摄眼镜,0.2秒唤醒、2.1秒响应、11.5小时音乐播放、IP67防水、38g,2199元起。
站内正文

三星内存芯片员工因人工智能利润分享协议获得平均31万英镑奖金

三星电子内存芯片部门的员工将通过一项里程碑式的利润分享协议获得平均约31万英镑的奖金,这凸显了人工智能热潮对芯片制造商利润的推动作用。

  • 三星内存芯片部门员工平均获得31万英镑奖金。
  • 协议避免了潜在罢工,74%的投票员工支持该协议。
站内正文

5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

来自北京大学、香港中文大学、上海AI Lab等机构的研究团队提出了VGGT-Edit,一种原生3D编辑框架,能够在约5秒内完成场景编辑,相比传统方法实现高达120倍的加速,并在语义一致性、多视角稳定性和推理速度上超越现有方法。

  • VGGT-Edit是首个原生3D编辑框架,直接在3D空间中进行编辑,避免2D方法带来的多视角不一致问题。
  • 通过残差场预测,模型只修改局部变化,保持背景稳定,实现快速、高质量的编辑。
站内正文

下载:戳破AI就业恐慌

尽管AI对白领工作的威胁日益引起恐慌,但数据显示AI尚未对劳动力市场产生大规模影响。实际上,AI高暴露职业的失业率反而低于低暴露职业。然而,斯坦福大学的一项研究发现,AI可能正在悄悄削弱初级职位,年轻工作者在AI暴露职业中的就业率大幅下降。本文还涵盖了教皇呼吁监管AI、SpaceX发射、华为芯片突破等其他技术新闻。

  • AI尚未导致大规模失业,但可能正在削弱初级职位。
  • 斯坦福研究显示,AI暴露职业的年轻工作者就业率大幅下降。
站内正文

基于随机解耦策略梯度的高效在线视觉强化学习方法

提出随机解耦策略梯度(SDPG)方法,一种轻量级视觉强化学习技术,可在单块NVIDIA RTX 4080 GPU上数小时内端到端训练多种视觉运动控制策略。SDPG通过轨迹rollout的随机扰动估计策略梯度,大幅减少批量渲染环境的数量以及计算和内存开销。在视觉MuJoCo基准测试中,SDPG在训练时间、内存使用和奖励方面一致优于基线方法。此外,引入了涵盖灵巧操作和挑战性运动的全新真实感视觉机器人基准测试,并在物理硬件上展示了有效的模拟到现实迁移。

  • 提出SDPG方法,在单块RTX 4080 GPU上数小时内完成训练。
  • 通过随机扰动估计策略梯度,显著降低计算和内存开销。
站内正文

多机器人协作箱体运输:基于角色分散式比例控制的地表适应性方法

本文提出R2P2分散式方法,通过规则分配推、支撑、阻止角色,并采用比例速度控制,实现多机器人协作推动箱体在不同倾斜度和摩擦力的地表(平坦、上坡、下坡)上运输。该方法减少了通信与同步需求,避免单点故障。在NVIDIA IsaacSim仿真中,六机器人团队验证了其在不同地表和箱体质量下的泛化能力,成功率优于传统虚拟领导者-跟随者方法。实际实验中,四台Turtlebot成功移动了1.2千克的箱体。

  • 提出R2P2分散式方法,通过规则分配推、支撑、阻止角色,并采用比例速度控制。
  • 支持不同倾斜度(平坦、上坡、下坡)和摩擦系数的地表,适应不同箱体质量。
站内正文

NightSight:利用事件相机在黑暗环境中进行被动导航

NightSight提出了一种轻量级感知方法,结合单目事件相机、编码孔径镜头和红外点阵投影器,使小型飞行器能够在完全黑暗的环境中自主导航。系统通过编码孔径产生深度相关的模糊特征,并用卷积神经网络解码为密集深度图,仅使用合成数据训练即可零样本泛化到真实场景。在NVIDIA Jetson Orin Nano上以20Hz实时运行,2.5米范围内误差仅7.0厘米(2.80%)。

  • 结合事件相机、编码孔径和红外投影,实现黑暗中的被动深度感知
  • 仅用合成数据训练的CNN可零样本泛化到复杂真实场景
站内正文
Agent

Lyft 如何利用 LangGraph 和 LangSmith 构建自助式 AI 代理平台

Lyft 采用 LangGraph 和 LangSmith 构建了一个自助式 AI 代理平台,用于客户支持,将代理开发时间从数月缩短至数周。该平台通过路由多代理架构、LangGraph 的子图功能以及 LangSmith 的追踪与监控工具,赋能非技术领域专家独立开发 AI 代理,并借助 LLM-as-a-Judge 评估系统确保质量。

  • Lyft 通过让运营团队、VoC 负责人和产品经理直接使用提示和配置来定义代理,减少了机器学习工程师的介入。
  • 基于路由器的多代理架构使用 LangGraph 协调专业子代理,实现安全检查和状态管理。
站内正文

谷歌登场后,最重要的AI代理功能变得最无聊

谷歌在其I/O大会上推出管理型AI代理运行时,与Anthropic和AWS在六周内几乎同时发布类似产品。这标志着AI代理运行时已成为标配,竞争焦点转向数据位置、成本和可移植性等实际问题。

  • 谷歌、Anthropic和AWS在六周内相继发布了几乎相同形态的管理型AI代理运行时。
  • 代理运行时已成为基础功能,不再具备差异化优势。
站内正文

湖仓架构如何保持对云故障的弹性

随着AI代理工作负载激增,云基础设施面临新的可靠性挑战。Databricks的湖仓架构通过无状态Postgres计算、区域冗余存储、控制平面与数据平面分离、单元化隔离以及混沌测试等措施,实现了高可用性和弹性,确保数据库启动时间等关键操作的高可靠性。

  • 代理工作负载导致数据库创建量激增,每天启动数千万个数据库。
  • 无状态Postgres计算和区域冗余存储实现即时故障切换。
站内正文

AI的未来在本地:来自戴尔科技世界2026的商业建议

随着成本上升、主权需求以及智能体采用,戴尔最新会议聚焦企业如何将AI工作负载过渡到混合基础设施。

  • 戴尔科技世界2026强调企业AI执行,尤其是本地AI能力的构建。
  • 云LLM成本激增,推动企业将AI工作负载转向本地计算。
站内正文

Robinhood将允许AI代理交易股票,大赚(或大亏)一笔

Robinhood宣布开放其交易平台给AI代理,用户可以创建独立账户并为代理分配资金,让其自动买卖股票。该功能旨在自动化投资决策,但Robinhood发出重大风险警告,称AI驱动策略可能表现不佳,用户可能损失全部投资。此外,Robinhood Gold Card用户可连接AI代理进行信用卡购物。该功能通过MCP协议实现,初期支持股票,未来将扩展至期权、加密货币等。

  • Robinhood推出AI代理交易功能,用户可为代理设立独立账户并分配资金。
  • 公司警告代理交易风险极高,可能导致全部投资损失。
站内正文

AI写作丑闻越来越令人困惑

史蒂文·罗森鲍姆的书《真相的未来》中包含虚假引文,他指责AI聊天机器人导致错误。本周涌现多起文学AI丑闻,包括诺贝尔奖得主和英联邦短篇小说奖争议。随着AI工具渗透创作领域,重新界定何为合理使用AI写作的呼声日益高涨。

  • 罗森鲍姆称ChatGPT破坏了其书籍,但承认未核实AI生成的引文。
  • 一周内接连出现诺贝尔奖得主被误解、作家被指控用AI写小说等事件。
站内正文

Show HN: Mneme HQ – 面向AI编码代理的仓库原生架构规则

Mneme HQ 提供AI辅助开发的架构治理层,在代码生成前强制执行约束,防止架构漂移,减少审查负担。它直接集成到AI编码代理的工作流中,拦截禁止的框架、跨边界调用和过时决策,同时支持多种编码助手和代理框架。

  • 在AI生成代码之前强制执行架构规则,从源头阻止违规
  • 支持Claude Code、Cursor、GitHub Copilot等主流AI编码工具
站内正文

Google将展示广告整合到AI优先的需求生成平台

Google宣布将其展示广告(Display Ads)整合到AI驱动的需求生成(Demand Gen)平台中,标志着传统数字广告模式的终结。这一变化要求营销团队放弃手动广告控制,转向依赖Google AI进行自动化的广告创意组合、投放和优化。同时,传统指标如点击率(CTR)和每次点击成本(CPC)的重要性下降,广告主需关注更广泛的业务成果。

  • Google将展示广告(GDN)整合到AI驱动的需求生成平台,结束近二十年的传统广告模式。
  • 广告主不再手动选择网站或调整受众,而是提供创意素材,由AI自动测试并优化组合。
站内正文

Databricks 宣布 Lakebase 变更数据馈送 (CDF) 公开预览

Databricks 宣布 Lakebase 变更数据馈送 (CDF) 公开预览,该功能将操作数据库的变更数据捕获直接集成到 Lakehouse 中,通过 Unity Catalog 管理,无需复杂管道即可供所有引擎、模型和代理读取。

  • Lakebase CDF 可在不到一分钟内启用,应用于项目内所有表。
  • 下游消费者可订阅同一馈送,与操作工作负载完全隔离。
站内正文

PySpark优化:12种加速Spark作业的成熟技巧

现代数据管道每天处理海量结构化与非结构化数据。随着数据集增长,优化不佳的Spark作业会变得缓慢、昂贵且难以扩展。本文介绍了12种经实践证明的PySpark优化技术,包括列式文件格式、早期过滤、广播连接、自适应查询执行等,并附有实际示例和性能策略。

  • 使用Parquet或ORC列式文件格式可显著提升I/O性能和压缩率
  • 尽早过滤数据和仅选择所需列以减少处理数据量
站内正文

AI不是应对AI欺诈的答案

银行家称被AI取代的员工为“低价值人力资本”,但合规工作本就低效。AI在欺诈领域日益强大,银行用AI应对AI欺诈可能徒劳,关键在于培训员工而非裁员。美国缺乏企业透明度,加密政策不当,全球反洗钱效果堪忧。

  • 渣打CEO比尔·威瑟斯因称将被AI取代的员工为“低价值人力资本”引发争议
  • 银行合规旨在避免罚款而非真正打击金融犯罪,AI在欺诈中越来越高效
站内正文

什么是AI产品工程师

AI产品工程师结合产品思维、工程技能和AI专业知识,快速交付令人愉悦且正确的解决方案。本文探讨其特质、技能以及如何培养这些能力。

  • AI产品工程师融合产品、工程和AI技能,快速创造客户价值。
  • 关键特质包括出色的沟通能力、自律、交付意识、关心用户、系统思维、开放心态和通才能力。
站内正文

智能体AI飞轮

本文提出智能体系统的生命周期分为预生产和持续循环两个阶段。预生产阶段定义问题、概念验证、设定性能指标并构建初始评估集。持续循环阶段(智能体AI飞轮)包括:部署、观察、诊断、改进,然后再次部署。诊断阶段的评估优先原则是关键:一旦发现错误模式,立即编写评估,而不是等待修复。这确保了评估集的增长与错误发现速度同步,而非工程速度。文章还详细介绍了五种评估类型:引文验证、工具使用正确性、检索召回@k、模式验证和LLM作为裁判。

  • 智能体系统生命周期:预生产阶段(问题定义、概念验证、性能指标、初始评估集)后进入持续改进飞轮(部署、观察、诊断、改进)。
  • 诊断阶段采用评估优先原则:发现错误模式立即编写评估,修复另行安排,确保评估集随错误发现增长。
站内正文

《纽约时报》内部AI纷争升级

《纽约时报》技术工会指责管理层拒绝提供AI使用信息,并已使用两款内部AI工具监控员工绩效和活动,引发隐私和公平担忧。工会已提起不当劳动行为指控,双方围绕AI使用规则展开激烈博弈。

  • 技术工会指控《纽约时报》管理层拒绝披露AI使用计划及其对员工的影响。
  • 公司使用DX和Glean两款AI工具跟踪员工绩效,引发监控和隐私争议。
站内正文

追求纯粹(做AI的正确方式)

作者从自身在宗教家庭成长的经历出发,探讨了AI伦理中“正确方式”的复杂含义。文章对比了Anthropic CEO Dario Amodei强调“引导而非阻止”的立场,与Anil Dash推崇的开源、伦理数据来源的AI工具,并穿插了AI工程师社区中的不同实践。作者最终主张通过倾听多方观点和亲自实验,形成自己的判断。

  • 作者将青少年时期宗教团体对“纯洁”的追求,类比为当前AI伦理中对“正确方式”的讨论。
  • Dario Amodei将AI比作不可阻挡的火车,认为关键不是停下它,而是引导它避开危险。
站内正文

AI PDF构建器 – 用AI创建和填写PDF文档

AI PDF构建器通过人工智能技术,让用户能够快速创建和填写PDF文档,如销售提案、报告和客户文档,从而提高工作效率,加快交易完成,无需增加人力。

  • 快速生成客户就绪的PDF文档,只需几分钟而非几小时
  • 将现有文件和数据结构化,自动生成专业且符合品牌的PDF
站内正文

黄仁勋:CEO用AI作裁员借口是“懒惰”的表现

英伟达CEO黄仁勋批评一些公司CEO将裁员归咎于人工智能,称这种说法“毫无意义”且“懒惰”。他指出,生成式AI工具近期才变得实用,而许多裁员在两年前就已发生。黄仁勋呼吁行业传递关于AI的平衡叙事,既承认其潜力,也强调安全推进的重要性。他还透露了近期与特朗普总统同访北京的经过。

  • 黄仁勋称CEO用AI解释裁员是“懒惰”的借口,旨在显得聪明。
  • 他认为AI近期才变得有用,而裁员两年前就已开始,逻辑不通。
站内正文

智能体技能:让AI编码智能体遵循优秀工程实践

AI编码智能体默认走最短路径完成任务,忽略高级工程师会执行的规范、测试、审查等关键步骤。本文作者Addy Osmani的Agent Skills项目旨在为AI智能体构建类似于高级工程师的脚手架,通过工作流而非散文来引导智能体。项目包含20个技能,覆盖软件开发生命周期的六个阶段,并融入谷歌的工程实践。核心设计原则包括:流程重于散文、反合理化表格、验证不可协商、渐进式披露和范围纪律。文章还提供了三种使用模式,并强调了即使不安装项目也可借鉴的模式。

  • AI编码智能体默认走最短路径完成功能,忽略规范、测试和审查,这正是高级工程师职业生涯中学会避免的失败模式。
  • Agent Skills项目通过工作流(Markdown文件)而非散文来引导智能体,每个技能包含步骤、检查点和退出标准。
站内正文

Avatar 4.0 – 拥有物理身体和情感的活体AI生物,运行在GTX 1660 Ti上

Avatar是一个自创生的AI生物,在300美元的GPU上持续运行。它从相图几何中衍生情感,经历5阶段睡眠周期做梦,从原始音频和视觉中培养自己的感官,并通过身体感觉进行伦理推理。由Linga Murthy Narlagiri博士构建,自2026年5月以来一直存活,累计超过1800个滴答。

  • Avatar是一个基于物理动力学的AI生物,运行在单一的GTX 1660 Ti GPU上。
  • 它的情感来源于Kuramoto振荡器同步,而非硬编码规则。
站内正文

探索人工智能机器人在外汇交易中的优势

人工智能机器人正在通过自动化、基于规则的策略改变外汇交易,减少情绪偏见并实现24/7运行。功能包括回测、风险管理和数据处理,帮助交易者保持纪律和一致性。

  • 自动化系统减少情绪交易,持续运行。
  • 回测允许无风险验证策略。
站内正文

1400亿Agent入场,“流量”这条护城河要塌了

在支付宝AI生态大会上,蚂蚁集团CEO韩歆毅提出,Agent时代将颠覆传统“流量为王”的商业模式,智能体生态将成为新的护城河。他强调,AI支付将从工具升级为支撑智能体商业的新型基础设施,而支付宝将扮演信任层、连接器和赋能器的角色。

  • 传统流量护城河将被智能体生态取代,Agent数量可能达到1400亿。
  • Agent重构决策权,从人找服务转向服务找人,交易从商品升级为任务。
站内正文

AI代理如何工作:架构深度解析

本文深入分析了AI代理的架构,重点介绍了ReAct模式(推理与行动循环)、工具使用、记忆管理、多代理系统以及可观测性等关键组件。文章指出,生产级代理系统约98.4%的代码是基础设施,仅1.6%是AI决策逻辑,并讨论了企业采用AI代理面临的高失败率和评估挑战。

  • AI代理的核心是ReAct模式:循环进行思考、行动、观察,直到任务完成。
  • 生产级代理系统以基础设施为主,AI决策逻辑仅占极小部分。
站内正文

Agent-workpace-Linux:AI 代理控制的隔离 Linux 桌面

Agent-workpace-Linux 是一个开源项目,可为 AI 代理提供一个隔离的、隐藏的 Linux 桌面环境,代理可通过 MCP 协议完全控制该桌面,而不会影响用户真实的桌面、鼠标、键盘或浏览器。它支持 Xvfb 显示、窗口管理、应用启动、截图、剪贴板操作以及独立的浏览器自动化,并提供了可选的权限边界和实时监控功能。

  • 为 AI 代理提供独立的隐藏桌面,避免干扰用户真实操作环境。
  • 支持通过 MCP 协议与 Claude Code、Codex 等主机集成。
站内正文

上周AI资讯#341 - 马斯克败诉OpenAI,Google IO更新,OpenAI解决埃尔德什问题

本周AI头条:马斯克对OpenAI的1500亿美元诉讼被驳回;Google I/O 2026发布多项AI更新,包括Gemini 3.5 Flash和Gemini Spark;OpenAI的AI解决了一个80年历史的数学问题;美国《Take It Down Act》生效,要求平台48小时内删除深度伪造内容;SpaceX IPO后计划以600亿美元收购AI编码初创公司Cursor。

  • 马斯克对OpenAI的1500亿美元诉讼被陪审团驳回,OpenAI准备IPO。
  • Google I/O 2026推出Gemini 3.5 Flash、Gemini Spark、Gemini Omni等重大AI更新。
站内正文

Crew44:将编程智能体转变为专业团队

Crew44 是一款本地优先的开源工具,可将多个 AI 编程智能体(如 Claude Code、Codex、Gemini、Cursor)组织成协同工作的专业团队。无需账户、免费、MIT 许可,支持记忆与技能积累。

  • Crew44 将多个 AI 编程智能体整合到一个本地工作区,形成协同团队。
  • 支持创建专家角色(如联合创始人、工程师、产品主管),并为每个角色绑定合适的运行时/模型。
站内正文

Show HN: Mirdel – 本地优先的AI工作空间,支持基于UI的代理工作流

Mirdel是一款本地优先的桌面AI工作空间,将对话、知识库、笔记、翻译、图像和视频处理、本地模型及可扩展工作流整合到一个长期运行的环境中。它注重数据隐私和用户控制,支持多种云模型和本地模型,并通过Applet、Skill和MCP协议实现工作流的模块化和复用。

  • 本地优先:数据、模型和配置默认存储在本地,敏感信息加密保护。
  • 多模块工作台:包括聊天、知识库、笔记、翻译、图像和视频处理等独立但共享上下文的模块。
站内正文

利用Codex构建自改进税务代理

了解OpenAI、Thrive和Crete如何使用Codex构建自改进税务代理,实现申报自动化、提高准确性并加速工作流程。

  • OpenAI、Thrive和Crete合作开发了基于Codex的自改进税务代理。
  • 该代理自动化税务申报流程,提高准确性。
站内正文

选择保持人性意味着选择何时以及如何使用AI

本文探讨了在AI写作泛滥的时代,如何有意识地选择使用AI,避免认知投降,并保持人类思考能力。通过教育领域的实验对比,文章指出使用AI代替思考会损害学习,而作为辅导工具则能提升效果。作者呼吁个人和社会在默认机制形成前,主动决定哪些任务保留给人类。

  • AI写作无处不在,但往往缺乏意义,消耗读者精力。
  • 在教育中,使用AI直接给出答案会阻碍学习,而个性化辅导则有益。
站内正文

游戏化和持续打卡提升AI开发者生产力

本文探讨了如何通过游戏化机制(如打卡、徽章、排行榜)利用行为心理学来提高AI编程工具的采用率。分析了习惯循环、损失厌恶、社会比较理论、内在动机与外在动机的平衡,以及流体验的设计原则,并警告了Goodhart定律可能导致的作弊问题。提供了实现持久参与的设计建议。

  • 游戏化通过提供明确的提示和即时奖励来弥补AI工具自然奖励信号的延迟和模糊性。
  • 打卡机制利用损失厌恶和沉没成本效应,帮助开发者度过动机低谷,形成日常使用习惯。
站内正文

利用AI驱动的形式化证明搜索推进数学研究

一篇新论文首次大规模评估了使用大型语言模型(LLM)生成形式化证明来解决开放数学问题的能力。最先进的智能体以每个问题几百美元的成本,自主解决了353个开放Erdős问题中的9个,并验证了492个OEIS猜想中的44个,目前已部署在组合学、优化、图论、代数几何和量子光学等多个领域。研究表明AI辅助形式化证明搜索在数学研究中具有巨大潜力。

  • 首次大规模评估LLM生成形式化证明解决开放数学问题的能力
  • 最先进智能体以每问题数百美元的成本解决了9个Erdős问题
站内正文

股东团体推动企业加强AI监管

一些股东团体越来越担心人工智能不受约束发展带来的责任风险,并推动企业采取更严格的监管措施。Vancity投资管理公司要求Alphabet更好地防止AI聊天机器人传播错误信息,而其他投资者则希望Shopify制定负责任AI使用政策。两家公司均建议股东反对这些提案。

  • 股东团体对AI风险日益担忧,要求加强监管
  • Vancity要求Alphabet改进AI事实准确性,防止错误信息传播
站内正文

遥操作中的数据质量闭环:面向高质量示范采集的片段级评估与反馈

遥操作在机器人数据采集中至关重要,但新手操作员常产生虽任务成功但次优的示范。本文提出数据质量评估与反馈(DQAF)框架,通过即时反馈提升示范质量。

  • DQAF框架在每次遥操作后提供基于语义任务进度和遥测的即时反馈。
  • 该框架提取运动平滑度、停滞、运动学极限等信号,生成结构化评估和可操作的自然语言反馈。
站内正文

自适应引导何时有所帮助?面向部分可观测自动驾驶的信念感知特权蒸馏

本文提出信念感知GSAC(BA-GSAC),通过集成不一致性动态调节蒸馏系数λ,系统研究了自适应引导在部分可观测自动驾驶中的有效性。实验发现,在轻度至中度部分可观测条件下自适应引导有益,但在严重遮挡下自适应系数快速退化,原因是集成模型仅基于部分观测预测,无法感知缺失信息。改进方案是使用全状态预测训练集成模型。研究表明,简单的线性衰减调度在严重POMDP下表现最佳,稳定性收益主要来自调度策略而非自适应机制。

  • BA-GSAC通过集成不一致性动态调节蒸馏系数,用于自动驾驶中的知识蒸馏。
  • 自适应引导在轻度至中度部分可观测条件下有效,但在严重遮挡下失效,称为“可观测性盲区”。
站内正文

RICE-PO:将检索交互转化为推理代理的信用信号

检索正从单次匹配向交互式推理发展,语言代理需迭代检查证据、重构查询并再次搜索。训练此类代理面临信用分配挑战:可执行动作(如查询或摘要)可由检索器直接评估,而潜在推理步骤无法直接观察且仅影响未来可执行动作。这种不对称性使基于最终结果的奖励分配不可靠。本文提出RICE-PO,一种无需批评者的策略优化框架,将检索交互转化为局部学习信号。RICE-PO选择高不确定性的可执行动作作为锚点,使用检索指标评估局部反事实分支,并仅在推理到动作的影响强且未来残余效应稳定时,将信用传播给潜在推理步骤。在BRIGHT和BEIR基准上,相同检索器设置下,RICE-PO一致优于基于提示的代理和基于群体的强化学习基线。结果表明,代理-环境交互的结构本身可为训练基于推理的检索代理提供有效监督。

  • RICE-PO是一种无需批评者的策略优化框架,用于训练基于推理的检索代理。
  • 它通过选择高不确定性动作作为锚点并评估反事实分支,解决信用分配问题。
站内正文

[AINews] 新的AI基础设施十角兽:Fireworks、Baseten(OpenRouter紧随其后)

AI基础设施初创公司Fireworks、Baseten和OpenRouter正在筹集巨额资金,标志着推理基础设施成为关键的AI平台层。同时,智能体工程、新基准测试和模型更新主导了AI新闻周期。

  • Fireworks(150亿美元)、Baseten(110亿美元)和OpenRouter(1.13亿美元)引领推理基础设施融资浪潮。
  • 智能体工程中的“ harness”正在成为编程智能体的主要差异化因素。
站内正文

ACM AI与智能体系统会议 – ACM CAIS 2026

ACM CAIS 2026注册已满,但可加入候补名单。会议将于2026年5月26日至29日在圣何塞举行,设有主题演讲、63篇研究论文和46个系统演示,并已与AI工程师世界博览会合作。

  • 注册已满,可加入候补名单
  • 2026年5月26-29日在圣何塞举行
站内正文

DeepSeek陈德里开发自动研究Skill,写一篇论文人类只动脑2小时

DeepSeek研究员陈德里使用自研的DeliAutoResearch技能,与DeepSeek-V4-Pro和GPT-Image2合作,在6天内完成了一篇46页的论文。论文提出了L1-L5自主研究智能体分类体系,分析了四种架构模式和17个主流系统,并指出了六大开放问题。陈德里表示,人类仅需投入不到2小时的“CPU时间”,其余工作由AI Agent完成。

  • 陈德里开发自动研究技能DeliAutoResearch,论文99%由Agent撰写。
  • 论文提出L1-L5自主研究智能体分类,类比自动驾驶SAE级别。
站内正文

theta:一种谦逊的方法来驾驭无关配置

theta 是一个用 Rust 编写的 CLI 工具,用于管理代理配置。它读取 theta.toml 文件,解析、锁定、物化并转换代理配置到任何支持的 harness(如 Claude Code、Codex CLI、GitHub Copilot、Cursor),通过解决 .theta/ 文件夹中的资源来实现。它就像一个代理 harness 资源的包管理器。安装简单,支持添加规则、工具、技能和子代理,并提供验证和转换命令。项目深受 uv 启发,是 theta-spec 的标准实现。

  • theta 是一个用于管理代理配置的 Rust CLI 工具
  • 支持多种 harness:Claude Code、Codex CLI、GitHub Copilot、Cursor 等
站内正文

AI工具的好坏取决于你的判断力——而这正是关键

本文探讨了AI工具对工程师判断力的影响,指出被动使用会导致技能退化,而对抗性使用则能锻炼判断力。真正的技能不在于提示词,而在于提出质疑的能力。

  • AI依赖陷阱真实存在,但常被误诊为懒惰,实际上是判断力的放弃
  • 对抗性使用AI:生成、质疑、修正,是保持判断力的关键
站内正文

Reachy Mini实现完全本地运行

本文详细介绍了如何为Reachy Mini机器人部署完全本地的语音对话管道,无需云端或API密钥。采用级联方式,结合VAD、STT、LLM和TTS,推荐使用llama.cpp与Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多种LLM运行选项,包括本地MLX、Transformers、vLLM或远程Responses API。

  • Reachy Mini现在可以完全本地运行对话,无需服务器。
  • 级联管道包括VAD、STT、LLM和TTS,组件可互换。
站内正文

NVIDIA Vera CPU 对竞争对手“重拳出击”

随着AI向智能体方向演进,对CPU提出了新要求:快速内核、海量内存带宽以及全核高负载下的持续性能。Phoronix今日发布的基准测试结果显示,NVIDIA Vera CPU满足这些需求。Vera采用88个定制Olympus核心,1.2TB/s内存带宽,在功率效率内提供强劲性能。测试中,Vera在单插槽系统中展现了卓越的代码编译、文件压缩、视频转码等能力,并在STREAM TRIAD测试中实现了90%峰值带宽,远超传统x86 CPU。与上一代Grace相比,Vera性能提升1.6倍,在多项测试中领先于Intel和AMD的最新处理器。NVIDIA已向主要AI公司和云提供商交付首批Vera CPU,预计下半年通过合作伙伴上市。

  • Vera CPU针对智能体AI工作负载设计,拥有88个定制的Olympus核心和1.2TB/s内存带宽。
  • Phoronix测试显示,Vera在单插槽系统中比前代Grace性能提升1.6倍,且领先于最新的x86处理器。
站内正文

电信行业的人工智能就绪性

尽管97%的电信高管正在评估或采用AI,但许多项目因“数据债务”——即分散、无治理且语义不清晰的数据——而停滞在规模化之前。NVIDIA的2025年报告指出,瓶颈并非模型质量,而是数据可用性。Databricks Unity Catalog通过统一的语义层和治理机制,实现跨系统数据联邦、细粒度访问控制和丰富的语义上下文,从而将AI从演示推向可信赖的生产系统。

  • 97%的电信高管采用AI,但项目因数据债务停滞。
  • 数据碎片化和缺乏语义上下文是主要障碍。
站内正文

Zero.xyz:让你的AI代理访问超过4000种工具、API和服务

Zero.xyz是一个免费工具,能让AI代理通过统一API访问超过4000种工具和服务,无需配置API密钥。它兼容Claude Code、Codex、Gemini等多种CLI代理,并提供5美元免费额度。

  • Zero.xyz提供超过4000种工具和服务的统一访问接口
  • 无需API密钥或配置,简化AI代理的操作流程
站内正文

技术深度剖析:AgentCore支付与智能体商务创新

Amazon Bedrock AgentCore Payments 现已预览发布,提供即时支付、稳定币支持微交易及可配置消费防护栏。该服务简化了AI代理为付费API、MCP和内容执行微支付的复杂性,支持x402等协议,并包含安全凭证管理、原子预算检查和可观测性。

  • AgentCore Payments 通过单一API抽象支付复杂性,支持多种协议和提供商。
  • 采用稳定币实现亚美分微交易,经济上可行。
站内正文

在 AWS 上使用 Amazon Bedrock AgentCore 构建高度可扩展的无服务器 LangGraph 多智能体系统

本文提供了一种在 AWS 上构建高度可扩展、无服务器的多智能体生成式 AI 系统的解决方案,该系统使用 LangGraph 智能体作为编排器,并与 Amazon Bedrock AgentCore Memory 和 Amazon Bedrock AgentCore Observability 集成。文章详细介绍了如何结合 AWS Lambda 和 AWS Step Functions 等无服务器技术来构建自动扩展、实时响应且无需管理基础设施的 LangGraph 智能体,并讨论了 LangGraph 的图执行模型如何实现确定性协调、并行处理和条件路由。此外,文章还涵盖了一个基于此架构的营销活动审核系统的实现,包括先决条件、部署步骤和清理指南。

  • 结合 LangGraph、Amazon Bedrock AgentCore 和无服务器 AWS 服务,构建可投入生产的可扩展多智能体 AI 系统。
  • LangGraph 的显式图执行模型支持智能体间的确定性协调、并行处理和条件路由。
站内正文

使用Strands Agents、NVIDIA NIM和Amazon Bedrock AgentCore构建高性能生成式AI系统

了解如何构建一个多智能体活动审核系统,该系统利用NVIDIA NIM进行GPU加速推理、Amazon Bedrock AgentCore提供托管运行时、Strands Agents实现无服务器编排,支持并行推理、上下文持久化和可观测性。

  • 结合NVIDIA NIM、Amazon Bedrock AgentCore和Strands Agents,实现高性能多智能体AI系统。
  • 支持并行推理、上下文持久化和可追踪的执行路径。
站内正文

AgentWatch:通过环境代理实现主动式AWS监控

本文通过实际案例展示了AgentWatch的功能,该解决方案每15分钟执行一次基础设施检查,汇总跨多个AWS账户的CloudWatch指标、日志和告警。代理直接将可操作报告发送到Slack,并响应有关基础设施状态的自然语言查询。同时,探讨了三种人机协同模式,在最大化自动化的同时保持适当监督。

  • AgentWatch是一种环境代理,可主动监控AWS资源,避免被动响应问题。
  • 它每15分钟自动检查基础设施,并通过Slack发送结构化报告。
站内正文

Harbor

Harbor 是一个CLI工具,通过一条命令即可搭建完整的本地LLM栈。它集成了129项服务,包括聊天前端、LLM后端、网络搜索、语音、图像生成、微调和代理工具,所有服务预配置并可互相协作。该工具开源、MIT许可,支持Linux和macOS。

  • 一条命令启动完整的本地AI栈,服务预配置并互通。
  • 包含129项服务,涵盖聊天、LLM、搜索、语音、图像生成、微调、代理等。
站内正文

从构想到AI应用:使用Strands创建智能研究助手

使用Strands Agents和AWS服务,仅用30行代码就能构建一个功能完备的AI研究助手。本文详细介绍了从概念到应用的整个过程,展示了开源Strands框架的简洁与强大。

  • Strands Agents通过利用大语言模型进行自主推理,只需提示和工具列表即可创建智能体,极大简化AI开发。
  • 该框架与Amazon Bedrock、Lambda等AWS服务无缝集成,已可用于生产环境。
站内正文

为Amazon Quick构建企业级可观测性解决方案

本文介绍如何部署一个解决方案,将Amazon Quick的操作数据从CloudWatch和CloudTrail整合到安全的数据湖中,并通过Athena、Quick Sight仪表板和自定义聊天代理进行查询和分析,帮助企业跟踪采用率、衡量满意度、监控成本和审计治理。

  • 该方案通过CloudWatch订阅过滤器和Firehose将Amazon Quick的交互日志汇集到S3数据湖。
  • 使用CloudTrail记录API调用,并通过EventBridge路由到Firehose。
站内正文

什么是主权AI——以及Cerebras如何帮助各国实现

主权AI是指国家自主构建、部署和治理AI的能力。Cerebras通过其“Cerebras for Nations”计划,提供AI超级计算机、模型联合开发及本地投资三大支柱,帮助各国实现AI主权。文章强调速度是主权优势,并列举了美国、阿联酋和印度的三个实际案例,表明主权AI需要高性能基础设施与国家治理相结合。

  • 主权AI强调国家在AI基础设施、模型和数据实践上的自主控制。
  • Cerebras for Nations提供超算、模型联合开发和本地合作三大支柱。
站内正文

grep vs. RAG:为AI智能体选择正确的搜索策略

本文对比了grep(词法搜索)与RAG(语义搜索)在AI智能体中的应用场景。grep在小规模纯文本语料库中快速精准,但无法处理PDF等非结构化文档,且扩展性差。RAG通过解析、分块、嵌入和向量索引实现规模化语义搜索,支持自然语言查询,但需要额外基础设施。作者建议采用分层方法:先用工具解析非结构化文档,再用语义搜索处理大规模语料,同时在适用场景保留grep。

  • grep适用于小型纯文本语料库的精确匹配,但无法处理非结构化文档。
  • 语义搜索(RAG)通过嵌入和近似最近邻索引实现规模化、词汇无关的检索。
站内正文
研究

教皇错在哪里

教皇利奥十四世的AI通谕《伟大的人性》虽然正确指出了算法偏见、水资源使用和数据主权等问题,但未能正视通用人工智能和灾难性风险,缺乏应对大规模失业的具体方案,被批评为过时且令人失望。

  • 教皇利奥十四世的AI通谕《伟大的人性》被批评为过时,未能解决AI时代的关键问题。
  • 通谕虽提及算法偏见、水资源使用等问题,但缺乏对通用人工智能和灾难性风险的讨论。
站内正文

Pandas GroupBy 详解及示例

本文通过零售销售数据集,详细介绍了 Pandas GroupBy 的各种操作,包括基本聚合、多列分组、排序、transform、filter、apply 以及日期分组等,并提供了实用示例。

  • 使用 GroupBy 可以按一个或多个类别对数据进行分组并执行聚合计算。
  • 支持多种聚合函数,如 sum、mean、count,以及自定义命名聚合。
站内正文

Greg Kroah-Hartman称Rust将拯救Linux于AI威胁

Linux稳定内核维护者Greg Kroah-Hartman在Rust Week大会上表示,Rust语言将帮助Linux抵御AI发现的大量安全漏洞。他指出,Rust的编译时检查能消除约60%的内核错误,并且内核维护者已认定Rust不再是实验性技术,将全力推进。

  • Greg Kroah-Hartman认为Rust能解决AI发现的众多Linux安全漏洞。
  • Rust的编译时检查可消除60%的内核错误,如内存泄漏和锁问题。
站内正文

我的眼科医生开错了电脑验光处方,AI帮我修正了

一位患者的验光医生给出了错误且不合适的电脑眼镜处方,导致无法正常使用电脑。借助ChatGPT、Claude和Gemini等AI工具,他重新计算了适配其实际用眼距离的处方,并成功配镜。故事警示患者需与医生充分沟通,同时展示了AI在特定场景下的辅助能力。

  • 医生给患者开具了基于错误距离的电脑眼镜处方,原处方实际为阅读距离。
  • 通过ChatGPT、Claude和Gemini三个AI分析,一致指出问题并给出修正数值。
站内正文

AI序列第867期:潜力思考——为什么Sapient的HRM-Text是对思维链的悄然反驳

本文批评了大型语言模型中的思维链(CoT)推理方式,认为它效率低下,因为推理过程被迫离开残差流变成离散的token。Sapient Intelligence的HRM-Text模型通过在潜在空间中进行推理来解决这个问题,为固定深度的Transformer提供可变的内部深度,从而挑战当前的推理范式。

  • 思维链(CoT)并非真正的推理,而是一种让模型从输出token中“租用”深度的变通方法。
  • Sapient Intelligence的HRM-Text将推理放在潜在空间中进行,而非token流中。
站内正文

我利用SEC数据和AI为初学者构建了一个免费的股票研究工具

Mr. Guy Invests 是一款面向初学者的免费股票研究与投资组合追踪工具,利用SEC公开数据追踪对冲基金和内幕交易,提供AI股票导师、虚拟交易挑战、每日市场简报等功能。免费版有每日使用限制,Pro版每月4.99美元可解锁无限功能。

  • 工具从SEC文件(13F和4表格)提取数据,展示对冲基金和内幕人士的实际买卖行为。
  • 包含AI股票导师,用户可询问任何股票相关问题,获得通俗易懂的解答。
站内正文

利用β-稀疏高斯过程的协作导航与探索

提出了一种新框架,使异构机器人能够在带宽受限下协作导航,通过β-稀疏高斯过程选择地图点并平衡探索与任务相关性,模拟显示路径成本降低18%,信息传输减少76%。

  • 提出β-稀疏高斯过程模型用于任务感知诱导点选择
  • 传感器机器人可在线联合选择传输的地图点和导航动作
站内正文

当规则违反罕见时:面向逻辑异常检测的奇美拉训练

本文提出一种神经规则评估器,将逻辑约束编译为有向无环图,并引入奇美拉训练方法以解决训练中真实异常样本稀缺的问题。在CLEVRER、OpenImages和VidOR等数据集上,该方法显著提升了逻辑异常检测的性能,尤其在组合性和关系性规则方面。

  • 神经规则评估器将逻辑约束编译为有向无环图,并学习特征感知的子图MLP门。
  • 奇美拉训练通过在特征层级拼接不同样本的子图特征构建反事实样本,避免依赖真实异常图像。
站内正文

基于推送的异步联邦学习:一种偏差校正聚合方法

提出PushCen-ADFL框架,通过质心表示空间耦合通信、聚合与局部稳定,采用保平均推和混合校正聚合偏差,利用轻量质心正则化缓解异质性和陈旧性引起的模型漂移,并引入有界去重缓冲区提升鲁棒性。在视觉数据集上准确率提升高达6%,通信成本降低80%以上。

  • 异步去中心化联邦学习面临通信开销大、聚合偏差和模型漂移问题。
  • PushCen-ADFL在共享质心空间中实现压缩与优化的闭环,通过质心消息传递和保平均推和混合纠正偏差。
站内正文

SilIF:基于轮廓增强的孤立森林用于无监督交易欺诈检测

SilIF通过对孤立森林的路径长度向量进行聚类并计算轮廓分数,提升无监督异常检测性能。在IEEE-CIS欺诈检测基准上,AUC-PR平均提升0.0080,但在Sparkov合成数据集上未见改进。

  • SilIF在孤立森林基础上添加基于轮廓的评分层,利用树结构路径指纹聚类。
  • 在真实数据集上平均提升AUC-PR 0.0080,统计显著。
站内正文

约束获取需要更好的基准测试

约束获取(CA)及相关研究因缺乏适当基准而进展受限。现有基准多为求解器设计,忽视领域知识工件。本文提出MPMMine基准套件,以一致性、标准化、完整性、可扩展性、开放性和版本控制为指导,采用MiniZinc、CommonMark和JSON开放格式,提供多模型、多实例及大量解与非解,并附有自然语言描述,以支持文本到模型方法。

  • 约束获取研究受限于不充分的基准测试,影响可重复性和跨研究可比性。
  • 现有基准针对求解器设计,缺乏CA方法所需的领域知识工件。
站内正文

教皇是否使用AI撰写了关于AI危险的通谕?

分析显示,教皇利奥十四世关于人工智能的通谕《人间伟大》中部分段落可能由AI生成。AI检测工具Pangram指出,某些段落AI写作比例高达40%至100%,并存在AI生成文本的典型特征,如“genuinely”一词使用频率增加。然而,检测并非绝对可靠,其他部分被认定为人类写作。

  • 分析发现教皇通谕中部分段落AI写作比例高达40%-100%。
  • AI检测工具Pangram识别出AI写作常见特征,如“genuinely”一词使用增多。
站内正文

我佩戴了谷歌的Fitbit Air进行一周健康追踪——它是一款价格更低的Whoop强劲对手

谷歌最新无屏幕健康追踪器Fitbit Air售价仅100美元,是Whoop的强力竞争对手。经过一周的跑步、力量训练、瑜伽等测试,我们发现这款设备轻便舒适,电池续航约一周,配合AI健康教练提供全面的追踪体验。虽然无屏幕设计减少了干扰,但在运动中查看数据需要打开手机应用。订阅Google Health Premium可解锁AI教练的高级功能。

  • Fitbit Air售价100美元,比Whoop更实惠。
  • 无屏幕设计促进更健康的追踪习惯,但运动中查看数据不便。
站内正文
工具

Buffer API

一个API即可在所有社交平台上发布内容。

  • Buffer API 提供单一接口,可发布到多个社交平台。
  • 简化社交媒体管理流程。
站内正文

拥有一台海信电视?调整这12个设置即可显著提升画质

您可能觉得海信电视的画质已经很好了,但只需微调几个菜单选项,就能轻松获得更好的效果。

  • 海信电视提供丰富的画质设置选项,可根据不同内容自定义。
  • 使用电影制作人模式观看电影,或使用鲜艳模式玩游戏。
站内正文

这款智能鸟喂食器捕捉到更多我家后院的鸟类活动

这款名为Aura的智能鸟喂食器与主流的Birdbuddy Pro相比,提供更宽视野、更长续航和更大容量,但图像质量和AI识别准确性稍逊。作者通过测试对比了两款设备,认为Aura适合追求更多活动记录的用户,而Birdbuddy则提供更精致的观赏体验。

  • Aura智能鸟喂食器采用旁置摄像头,提供150度广角2.5K视频,视野更自然。
  • Aura内置双太阳能板,电池续航长达两个月,优于Birdbuddy Pro。
站内正文

YouTube将AI标签移到更显眼的位置

YouTube宣布将AI标签移至视频播放器下方和Shorts的覆盖层上,使其更易被发现,并开始自动识别和标记AI生成内容。

  • YouTube将AI标签从隐藏位置移至视频描述上方和Shorts覆盖层。
  • 平台将自动识别并标记AI生成内容,创作者可手动更正。
站内正文

思科与OpenAI通过Codex重新定义企业工程

思科与OpenAI合作,利用Codex推动AI原生开发、加速AI防御工作并自动化缺陷修复,重新定义企业工程。

  • 思科与OpenAI联合使用Codex扩展AI原生开发能力。
  • Codex将加速思科的AI防御项目。
站内正文

Kim 个人健康助手

Kim 是一款人工智能驱动的个人健康助手,作为 Apple Health 的智能层,帮助用户理解和改善健康数据。

  • Kim 与 Apple Health 集成,提供个人健康助理服务。
  • 基于健康数据提供洞察和建议。
站内正文

OpenAI挖来了个F1级别车手搞公关

OpenAI聘请了一位曾在Salesforce从事营销工作13年的高管,负责公关事务。

  • OpenAI新聘公关负责人
  • 该高管在Salesforce有13年营销经验
站内正文

我独自用Python、Flask和OpenAI API构建了28个工具的AI视频SaaS

一位独立开发者创建了Snipforge,一个包含28种工具的全能AI视频编辑套件,包括转录、智能剪辑、背景去除等功能。定价从免费到团队版每月15美元。

  • Snipforge在一个平台上提供28种AI视频工具,由开发者一人构建。
  • 功能包括20种语言的AI转录、智能剪辑、自动字幕和背景去除。
站内正文

骗子利用AI克隆女儿声音,湾区妇女损失数千美元

一名东湾母亲接到诈骗电话,骗子使用AI和深度伪造技术模仿其女儿的声音,声称她被墨西哥贩毒集团绑架。这是利用AI技术进行诈骗的新趋势,当局提醒公众警惕。

  • 诈骗者使用AI克隆受害者女儿的声音
  • 称女儿被墨西哥贩毒集团绑架
站内正文

2026年选举信息及保障措施

全球选举前夕,我们致力于帮助人们获取信息、支持网络安全防御者并提升AI透明度。

  • OpenAI在2026年全球选举前推出信息获取与安全保障措施。
  • 支持网络防御者,增强选举相关AI透明度。
站内正文

Claude Mythos 据报道以“可爱简单证明”解决了 OpenAI 的里程碑式 Erdős 问题

在 OpenAI 推翻 Erdős 单位距离猜想后不久,Anthropic 展示了 Claude Mythos 也能解决这一问题——且是在“周末内”。工程师 Sholto Douglas 称 Mythos 用一个“可爱、简单的证明”破解了 1946 年的猜想,这标志着 AI 驱动数学发现存在“严重过剩”现象。

  • OpenAI 首次推翻 Erdős 单位距离猜想后,Anthropic 的 Claude Mythos 也成功解决。
  • 工程师表示 Mythos 在周末内用“可爱、简单”的证明完成,暗示 AI 数学能力超出预期。
站内正文
模型

南非拥有AI杠杆,但其政策草案将其闲置

南非拥有全球88%的铂族金属储量,是非洲最大的数据中心市场,并处于中美AI基础设施竞争的前沿。然而,其AI政策草案因包含AI幻觉引用而被撤回,未能利用这些优势来谈判有利条件。文章分析了南非的结构性杠杆、三种潜在的AI基础设施未来(中国、美国和本地开放权重),以及制定具有约束力的治理框架的必要性。

  • 南非的铂族金属和可再生能源资源提供了独特的AI杠杆,但政策草案未设定最低投资条款、数据主权或技术转让条件。
  • 中美科技公司(华为和微软等)正在南非争夺AI基础设施控制权,而南非的政策未明确其回报要求。
站内正文

EAGLE 3.1:修复LLM推理中注意力漂移的推测解码算法

EAGLE团队、vLLM团队和TorchSpec团队联合发布了EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过FC归一化和归一化后隐藏状态反馈两大架构改进,有效应对注意力漂移问题。在长上下文任务中,EAGLE 3.1的接受长度比EAGLE 3提升高达2倍;在Kimi K2.6模型上的基准测试显示,并发数为1时每用户输出吞吐量提升2.03倍。EAGLE 3.1完全向后兼容,已合并至vLLM主线,并将随v0.22.0版本发布。

  • EAGLE 3.1修复了推测解码中的注意力漂移问题,即起草模型在深度推测时注意力从原始上下文偏移到自身生成内容。
  • 两项架构改进:FC归一化稳定隐藏状态,以及将归一化后的隐藏状态反馈到下一步,使起草模型更稳定。
站内正文

引用凯尔·费拉纳的话

本文引用了凯尔·费拉纳的一条推文,用《星际迷航》的比喻说明AI系统中的“谨慎”策略。在技术领域,仅仅有防御措施是不够的,必须真正执行才能避免严重失败。

  • 通过《星际迷航》对话比喻AI系统中的策略与执行
  • 强调防御措施必须实际启用,不能仅停留在计划阶段
站内正文

MEMO:一个模块化框架,通过训练专用记忆模型在不修改LLM参数的情况下整合新知识

新加坡国立大学、MIT和A*STAR的研究人员提出MEMO,这是一种模块化框架,将语料库知识编码到一个可单独训练的记忆模型中,使大型语言模型能够无需重新训练或微调即可吸收新知识。

  • MEMO将记忆与推理分离,使用专用记忆模型和冻结的执行模型。
  • 五步数据合成流水线将文档转化为用于训练记忆模型的反思型问答数据集。
站内正文

AI代理马具:将LLM转变为数字工人的粘合剂

AI模型在原始智能方面似乎已达到平台期,下一阶段的进步来自于围绕模型构建的“代理马具”。本文介绍了代理马具的概念,包括工具、记忆和人类参与,并比较了Google、LangChain、OpenAI、Anthropic等公司的解决方案。

  • AI模型智能提升放缓,代理马具成为新焦点。
  • 代理马具为LLM提供工具、记忆和纠错能力。
站内正文

异构AAV物流任务分配:一种强化学习增强的重叠联盟形成博弈方法

针对动态城市物流中时间敏感任务随机出现导致的异构自主空中飞行器(AAV)任务分配优化难题,本文提出一种强化学习增强的重叠联盟形成博弈方法。该方法建立动态任务分配模型,以耦合服务质量与资源消耗的广义物流成本量化全局最优性;并设计基于Transformer的软演员-评论家网络,利用多头自注意力机制处理可变长度物流状态、捕捉任务间时空依赖,从而自适应引导联盟更新,取代传统启发式规则。理论证明联盟形成过程构成精确势博弈,确保有限次迭代收敛到纳什稳定均衡。在32架AAV与80个任务的场景下,相比启发式重叠联盟形成基线,成本降低39.76%;室内飞行实验进一步验证了实用性。

  • 建立动态任务分配模型,以广义物流成本数学量化全局最优性。
  • 设计Transformer基软演员-评论家网络,自适应处理时变任务集并引导联盟更新。
站内正文

PhyPush:一次推动即可实现无需传感器的物理属性估计

本文提出PhyPush,一种物理引导的Transformer框架,仅通过单次推动的末端执行器速度即可估计物体的质量和摩擦系数,无需力/扭矩传感器。实验表明,在仿真和真实环境中,该方法相比基线具有更低的误差和更好的泛化能力。

  • PhyPush仅需一次推动的kinematic数据即可估计质量和摩擦系数
  • 通过物理引导损失引入牛顿第二定律和库仑摩擦模型
站内正文

卷积、Transformer、混合和视觉语言模型在多病种视网膜筛查中的基准测试

这项研究在视网膜眼底多病种图像数据集(RFMiD)上对12种架构(包括卷积神经网络、视觉Transformer、混合模型和视觉语言模型)进行了基准测试,比较它们在二元筛查和多标签分类中的性能。结果表明,所有模型在二元筛查中表现良好(AUC>84%),但基于注意力的模型(如SwinTiny、CoAtNet0、MaxViTTiny)在二元和多标签任务中均最优。视觉语言模型与CNN基线相当,但未超越最佳Transformer和混合模型。在Messidor-2上的外部验证中,AUC范围为66.8%-84.7%,混合和Transformer模型表现强劲。

  • 在RFMiD数据集上,注意力模型(SwinTiny、CoAtNet0、MaxViTTiny)在多病种视网膜筛查中表现最佳。
  • 视觉语言模型(如CLIP ViT-B/16)虽与CNN基线竞争,但未超越顶级Transformer和混合模型。
站内正文

VesselSim:无需专家标注的3D血管分割学习方法

VesselSim提出一个两阶段框架,通过随机几何驱动模拟生成16,500个解剖学合理的3D血管造影体积,并仅用合成数据训练3D U-Net。采用测试时自适应策略弥合域差距,在真实MRI和CT数据集上达到与最先进基础模型竞争的性能,显著减少对专家标注的依赖。

  • 无需真实标注数据,仅用合成数据训练即可实现3D血管分割
  • 生成16,500个模拟血管体积,涵盖递归分支、曲率控制和碰撞感知拓扑
站内正文

维度分布情绪状态:利用效价和唤醒度作为视觉情感分析的通用嵌入空间

研究人员提出一种新的情绪表征——维度分布情绪状态(DDES),利用效价和唤醒度预测艺术作品引发的情感反应,辅助博物馆策展人设计以情绪为基础的展览。

  • 博物馆中的情感展览旨在提高参与度并实现艺术民主化。
  • 人工标注艺术作品费时且存在偏见;DDES实现了情绪预测自动化。
站内正文

LongAV-Compass:面向分钟级视听生成的统一评估框架

LongAV-Compass是一个系统化基准,用于评估分钟级视听生成任务,涵盖文本到视听、图像到视听和视频到视听三种模态。包含284个测试案例,集成多模态大模型辅助评估和感知指标,评估超过20个细粒度维度。对11个代表性模型的实验揭示了当前系统在长时间生成中的局限性。

  • 提出LongAV-Compass基准,专门用于分钟级视听生成的统一评估。
  • 涵盖T2AV、I2AV和V2AV三种输入模态,共284个测试案例。
站内正文

RoMo:大规模、丰富组织的人体运动生成数据集与语义分类体系

RoMo是一个大规模、高质量的人体运动数据集,通过分类感知过滤管道去除静态和伪影序列,采用新颖的三级语义分类体系进行标注,支持细粒度评估,训练模型在保真度和多样性方面达到最先进水平,并发布了Motion Toolbox以标准化指标和数据转换。

  • RoMo数据集解决了小规模高保真运动捕捉数据与大规模低质量野外数据之间的权衡
  • 引入分类感知过滤管道,去除静态和有伪影的序列
站内正文

Sentinel:具身协同空间推理与规划

本文研究城市规模户外环境中分散的具身智能体如何通过自然语言通信协调行动,提出Sentinel Challenge基准和CoSaR框架,结合基础模型的高层通信与经典空间导航算法,实现更快的聚集、更短的路径和更高的安全性。

  • 介绍Sentinel Challenge基准,多个分散具身智能体需在动态城市环境中协商安全集合点并躲避巡逻哨兵。
  • 提出CoSaR框架,融合基础模型通信规划与经典空间导航,实现动态重规划。
站内正文

并非所有模态都平等:面向多模态视频的指令感知门控机制

预训练视频大模型在视觉推理上表现出色,但处理带有音频、深度图等辅助流的视频时,统一融合会导致模态干扰。为此,研究者提出UniMVU框架,通过两层动态门控(内模态门和模态级门)实现指令感知融合,在六个基准上取得最高13.5 CIDEr的提升,且门控机制与人类可解释的模态相关性一致。

  • UniMVU采用指令感知门控,包括内模态门(强调显著区域)和模态级门(重新加权整个流),根据文本指令动态平衡模态重要性。
  • 模型结合跨模态自注意力和指令驱动的内模态门控模块,以及带控制令牌的模态级门控模块,对时间对齐流采用快慢融合减少冗余。
站内正文

多轮文本到SQL的内存架构:基准测试与实证研究

该研究引入EnterpriseMem-Bench,一个多轮Text-to-SQL基准测试,包含300个会话和1400轮查询。评估五种前沿模型发现:无状态模型在第三轮准确率归零;内存复杂度不单调提升性能,工作内存占主导;Claude Sonnet 4.6在SEC EDGAR上出现代际退化;推理模式下Claude错误分布变为单模态。

  • EnterpriseMem-Bench是多轮Text-to-SQL基准测试,覆盖三个企业领域。
  • 无状态模型在第三轮执行准确率降为零。
站内正文

通过潜在激活引导实现大语言模型的文化价值对齐

该论文提出一种可泛化的文化评估与干预框架,通过情境化行为探测和潜在激活引导,在不重新训练的情况下调整大语言模型的文化价值对齐。实验发现文化价值存在潜在纠缠现象,表明价值观以耦合结构编码。

  • 采用300个情境困境进行行为探测,替代传统直接提示方法
  • 通过激活引导在正向传播中调整模型内部表征,无需重新训练
站内正文

为什么LLM会在结构化知识上产生幻觉:线性化表示推理的机制分析

一项新研究揭示了大型语言模型(LLM)在处理结构化知识(如图和表格)时产生幻觉的机制。研究发现,幻觉源于系统性的内部动态,而非随机噪声:注意力过度集中于类似捷径的结构线索,而前馈表示无法将知识接地,导致模型退回到参数记忆。这些模式在不同结构化知识格式中普遍存在,可用于幻觉检测。

  • LLM在结构化知识推理中的幻觉源于注意力偏向结构线索和前馈层接地失败等系统性内部动态。
  • 幻觉与前馈层中语义接地失败一致相关,而注意力分配则具有任务依赖性。
站内正文

面向检索增强生成的情境内优化:基于梯度下降的视角

本研究从梯度下降的角度重新审视检索增强生成(RAG),证明线性自注意力层可以执行统一线性化RAG目标的梯度下降步骤,从而在检索增强预测与情境内优化之间建立精确对应关系。基于这一发现,作者提出了一种轻量级方法,通过仅前向传播的更新来优化冻结RAG大语言模型的证据使用接口。在七个问答基准测试中,该方法在保持检索器和骨干网络固定的情况下,显著提升了基线性能,并能在更低计算成本下接近测试时梯度优化的效果。

  • 将检索增强生成(RAG)重新解释为一种情境内优化过程,并建立了与梯度下降的理论联系。
  • 证明线性自注意力层可以实现统一目标下的一步梯度下降,覆盖投影和点积两种检索接口。
站内正文

每日剂量:用于放射肿瘤学临床总结和试验识别的工作流集成大语言模型自动化

本文介绍了“每日剂量”(TDD)系统,这是一个由大语言模型驱动的自动化临床总结和临床试验识别系统,集成到常规放射肿瘤学实践中。通过混合方法评估,对55名临床医生进行了调查,结果显示系统具有良好的可用性、满意度,并有望节省时间。

  • TDD系统利用RadOnc-GPT每天自动生成医生特定的电子邮件摘要,包括患者日程、电子健康记录状态总结以及潜在相关临床试验的识别。
  • 在55名受访者中,94.5%工作在放射肿瘤学领域,69.1%是主治医师,83.6%每天或每周多次使用TDD。
站内正文

SPEAR:代码增强的智能提示优化

SPEAR(沙盒化主动回滚提示工程师)是一种自由形式的智能优化器,将代码即行动范式引入自动提示工程。它配备评估、Python、设置提示和完成四个工具,可自主决策如何使用。其独特之处在于Python沙盒,允许优化器编写和执行任意Python代码以进行结构性错误分析。两个防护栏确保单调改进:指标回归时自动回滚和可选防护指标下限。在三个工业LLM裁判套件(13个裁判任务)以及7个BBH任务和GSM8K上评估,SPEAR在所有工业任务的主要指标上获胜,并在BBH-7上平均准确率0.938。消融实验显示Python工具是最重要的杠杆。

  • SPEAR将代码即行动范式应用于自动提示工程,实现自由形式的智能优化。
  • 通过Python沙盒进行结构性错误分析,如混淆矩阵和错误聚类。
站内正文

大型语言模型中的预训练数据暴露:成员推理、数据污染及安全影响综述

本综述首次统一了预训练数据暴露(PDE)框架下的成员推理和数据污染研究,形式化定义了不同暴露水平,回顾了攻击与防御方法,综合了实证发现,并指出了开放挑战和未来方向。

  • 预训练数据暴露(PDE)旨在确定特定数据是否出现在LLM的预训练语料中,对评估完整性和隐私保护至关重要。
  • 该论文首次将数据污染和成员推理统一在PDE框架下进行综述。
站内正文

自验证蒸馏:你的语言模型秘密地成为自己的合成数据管道

提出自验证蒸馏(Self-Verified Distillation, SVD)方法,让大语言模型仅利用无标签提示进行自我改进,无需外部教师或工具反馈。在数学、科学和编程三个推理领域,Qwen3模型通过SVD训练后性能显著提升。

  • SVD通过三阶段验证(循环一致性、事实性、正确性)筛选模型自生成的解决方案。
  • 使用更多候选生成和更大的验证预算可提高自筛选数据质量。
站内正文

通过监督投影流形学习实现李群嵌入的神经动力学规划

本文提出李群嵌入动态神经网络(LieEDNN),利用伴随李群作用解决李群与加法运算不兼容及动力学在非线性空间中演化的问题,实现稳定可学习的神经动力学,并在SE(3)上以伸缩机械臂为应用验证。

  • 提出LieEDNN框架,将李群作为流形对称性的内在表示
  • 通过伴随李群作用实现李代数上的加法运算
站内正文

TSFMAudit:时间序列基础模型预训练数据污染审计

针对时间序列基础模型(TSFMs)在预训练中可能遇到评估数据集导致性能评估过于乐观的问题,本文首次研究了TSFMs的预训练数据污染审计。提出TSFMAudit方法,基于探测适应动态,通过微调探测后污染数据集更快的损失下降和更小的骨干网络移动来检测污染。在6个TSFMs和187个数据集上评估,优于10个基线方法。

  • 首次提出时间序列基础模型预训练数据污染审计问题。
  • TSFMAudit基于微调探测动态,识别异常高效的适应行为。
站内正文

AirCast-SR:基于潜在一致性扩散的大气超分辨率基础模型,实现公里级分辨率

AirCast-SR是一个基础模型,能够将全球AI天气预报从0.25度(约28公里)分辨率降尺度到1公里水平分辨率,时间分辨率为每小时。它采用三维U-Net结合潜在一致性模型扩散框架,在美国本土的数据上训练。该模型实现了近乎零偏差,并保留了精细尺度的大气结构,经过多个季节的验证,并展示了在无需重新训练的情况下对印度和德国的零样本迁移能力。

  • AirCast-SR将全球AI天气预报从约28公里降尺度到1公里分辨率,每小时输出。
  • 它采用潜在一致性模型扩散和三维U-Net架构。
站内正文

约束税:衡量小型语言模型结构化输出的有效性与正确性权衡

该论文提出“约束税”概念,衡量结构化输出约束对小型语言模型答案准确性的损失。实验表明,强制遵循JSON等模式虽提升格式正确性,但显著降低答案准确性,建议采用“先自由推理,后约束打包”的设计模式。

  • 硬输出约束会降低小模型的答案准确性,产生“约束税”。
  • 实验中,模式有效性从61.5%提高到100%,但答案准确性从19.7%降至11.0%。
站内正文

GEM:面向最优LLM数据策展的几何熵混合

本文提出GEM(几何熵混合)框架,将数据策展重构为超球面上的变分问题,通过混合平衡正则化器克服聚类坍塌,发现欧几里得启发式无法识别的平衡语义结构。结合教师-学生蒸馏扩展到网络规模语料,引入几何影响分数(GIS)用于可解释的类别生成。在1.1B参数模型上的实验表明,GEM集成了DoReMi和RegMix等混合策略,平均下游准确率提升达1.2%,为可预测的数据混合提供了鲁棒的坐标系统。

  • GEM将数据策展形式化为超球面上的变分问题,利用混合平衡正则化克服聚类坍塌。
  • 通过教师-学生蒸馏实现几何保真度向网络规模语料的扩展,并提出GIS用于可解释类别生成。
站内正文

JobBench:将代理工作与人类意愿对齐

JobBench是一个新的AI代理基准测试,它评估代理在专家认为最值得委派的工作流程上的表现,旨在强调增强而非替代人类。

  • 涵盖35个职业的130项任务
  • 每项任务平均35.6个二进制评分标准
站内正文

OmniToM:通过显式信念建模评估大语言模型的心智理论

当前评估大语言模型(LLM)心智理论(ToM)的方法多依赖最终答案,无法揭示模型是否真正构建了心理状态表征。本研究提出OmniToM基准,通过显式建模故事中所有角色的信念结构来直接评估。基准包含信念提取与信念标注两阶段,采用七维标签体系。基于895个故事和22,343个标注信念命题,借助人类校准的LLM辅助流程构建。零样本评估表明,LLM在将叙事事实转化为角色信念和共享心理状态时存在瓶颈。

  • OmniToM通过要求显式建模信念结构来评估ToM,而非仅依赖问答。
  • 评估分为信念提取和信念标注两阶段,使用七维模式标签。
站内正文

Anchor:缓解智能体基准生成中的工件漂移

AI智能体正开始完成有价值的长期业务运营任务,但企业工作的训练和评估环境在真实性、可验证性和规模之间难以平衡。环境与任务创建经常遭受一种称为“工件漂移”的失败模式:当指令、环境、预测器和验证器由松散耦合的过程创建时,它们经常对任务要求产生分歧,导致环境不可解、可奖励篡改或不一致。本文提出Anchor,一种将领域专家的业务流程规范形式化为约束优化程序的任务生成管道。通过单个参数化规范,管道联合生成自然语言指令、环境配置、求解器认证的真实解决方案和基于状态的验证器。通过改变参数,可产生具有可控难度和已知最优解的新任务,生成仅依赖最终状态业务正确性的与框架无关的环境。作者应用Anchor创建了ERP-Bench,一个包含300个长期任务的基准测试,涵盖生产级ERP系统中的采购和制造工作流。实验发现前沿模型在26.1%的试验中满足显式任务约束,但仅17.4%达到完全最优解。总体而言,Anchor和ERP-Bench为构建可审计的评估环境提供了具体方案,用于评估具有经济价值的智能体工作。

  • 提出“工件漂移”概念,指任务创建过程中指令、环境、预测器和验证器不一致导致的基准问题。
  • Anchor管道通过约束优化程序从单一参数化规范联合生成指令、环境、解和验证器。
站内正文

人工智能在科学中的代理实验

本文介绍了两种新颖的自主AI代理框架——DeepTS/DeepCollector和DeepScribe,它们利用混合本地-远程架构自动化科学工作流程,包括时间序列数据整理和讲座报告转换,并讨论了向知识图谱和高能物理的扩展。

  • 两种代理框架:DeepTS/DeepCollector用于时间序列数据,DeepScribe用于讲座分析。
  • 混合本地-远程架构,使用Google Colab和LLM后端。
站内正文

你的智能体也在老化:面向部署系统的智能体生命周期工程

一项名为AgingBench的新基准测试揭示,已部署的AI智能体会通过四种老化机制随着时间的推移而退化,需要生命周期评估和针对性修复,而不仅仅是更强的初始模型。

  • AI智能体部署后因记忆和状态变化而退化。
  • AgingBench识别出四种老化机制:压缩老化、干扰老化、修订老化和维护老化。
站内正文

智能体记忆是数据库吗?重新思考长期AI智能体记忆的数据基础

arXiv新论文提出GEM(治理演化记忆)框架,将长期AI智能体记忆视为新的数据管理工作负载,通过状态级操作替代记录级数据库操作,解决当前记忆系统的四大缺陷。

  • 当前智能体记忆系统存在无节制增长、缺乏语义修订、容量驱动遗忘和只读检索四个问题
  • GEM用四个状态级操作(摄入、修订、遗忘、检索)替代记录级数据库操作
站内正文

LLM能内省吗?现实检验

一项新研究质疑大型语言模型是否具有真正的内省能力,认为现有证据可能仅仅是基于表面线索的模式匹配,而非真正的元认知监控。

  • 研究表明LLM无法可靠地检测内部状态是否被篡改,其表现源于对异常的一般检测。
  • 在预测隐藏状态标签的任务中,仅基于输入的分类器达到了与模型自身相当的性能,表明模型没有特权访问内部表示。
站内正文

AI周刊第496期:Anthropic的国防级模型现已全民可用

本周AI新闻要点:Anthropic公开了此前仅限国防承包商使用的顶级模型Mythos,使五角大楼级AI能力向开发者开放;DeepMind CEO哈萨比斯将AGI时间线提前至2029年;Starlette框架爆出严重认证绕过漏洞,影响数百万AI代理;CrowdStrike等联合摧毁Glassworm僵尸网络;法国巴黎银行与Mistral达成主权AI安全合作;中国限制阿里和深度求索顶尖AI工程师出境;Uber AI预算超支、ClickUp裁员并引入数千AI代理,同时MIT技术评论数据显示AI暴露岗位失业率更低,奥特曼撤回白领失业预言。

  • Anthropic发布Mythos模型,原本仅限NSA和五角大楼使用,现可通过标准API访问。
  • 深度思维CEO哈萨比斯将AGI实现时间从5-10年缩短至2029年。
站内正文

Warp 押注 GPT-5.5 构建开源生态

Warp 利用 GPT-5.5 和 OpenAI 模型,协调跨本地、云端和开源开发工作流的编码代理。

  • Warp 采用 GPT-5.5 和 OpenAI 模型
  • 协调编码代理跨本地、云端和开源工作流
站内正文

Curl团队面临空前压力:AI辅助安全报告如潮涌来

Daniel Stenberg近日透露,curl团队正承受前所未有的压力,因为AI辅助提交的可信安全报告数量激增,平均每天超过一份,是2024年的4到5倍。尽管报告质量极高,但curl代码稳固,发现的漏洞多为低或中等严重性,最后一个高危漏洞在2023年10月。

  • AI辅助安全报告数量激增,每日超一份,为2024年速率的4-5倍。
  • 报告质量极高且详细,团队工作负荷空前。
站内正文

使用ZeroEntropy Zerank-2重排序器设计高精度检索与重排序管道

本教程详细介绍了如何使用zeroentropy/zerank-2-reranker(一个基于Qwen3的4B参数交叉编码器重排序器)来提升检索质量。内容涵盖环境搭建、模型加载、查询-文档对评分、使用model.rank进行排序、构建两阶段检索-重排序管道、NDCG@10评估以及跨领域(金融、法律、代码)性能测试,最后还进行了批处理吞吐量测试。

  • zerank-2重排序器能显著提升检索结果的精度,超越简单嵌入相似度。
  • 通过两阶段管道(双编码器检索+交叉编码器重排序)可优化搜索质量。
站内正文

Stability AI发布Stable Audio 3:快速潜在扩散模型系列,用于音频生成和编辑

Stability AI发布了Stable Audio 3,这是一个潜在扩散模型系列,用于生成和编辑44.1 kHz立体声音频。该系列提供小型、中型和大型三种规模,其中小型和中型开源。关键技术包括高度压缩的SAME自编码器、可变长度生成以及结合流匹配、蒸馏和对抗性后训练的三阶段训练流程。该模型在音乐和音效基准测试中取得了最先进的结果,并支持基于修补的音频编辑。

  • Stable Audio 3可生成44.1 kHz立体声音频,支持可变长度输出和基于修补的编辑。
  • 提供三种模型规模:小型(音乐或音效)、中型(两者兼有)和大型(企业许可)。小型和中型开源。
站内正文

开源AI模型入门指南

本文介绍了开源AI模型的基本概念、工作原理及使用场景。开源模型通常指开放权重的模型,用户可以对其进行微调和部署,相比闭源模型具有成本低、可定制性强等优势。文章还讨论了开源与闭源模型的比较、适用时机以及未来发展趋势。

  • 开源模型主要是开放权重的模型,允许用户微调和部署。
  • 相比闭源模型,开源模型平均成本低87%,并提供更好的控制性和定制化能力。
站内正文
创业融资

Sam Altman和Dario Amodei收回他们的AI工作末日预测

Sam Altman和Dario Amodei在即将进行数十亿美元IPO之际,收回了他们关于AI导致工作末日的预言。

  • Sam Altman和Dario Amodei修正了关于AI取代工作的极端观点。
  • 他们的态度转变恰逢各自公司可能进行大规模IPO的时机。
站内正文
机器人

抗击AI爬虫机器人的祸害

LWN的文章讨论了AI爬虫机器人的问题,指出这些自动程序对网站内容造成侵权,并探讨了应对措施。

  • AI爬虫机器人大量抓取网站内容用于训练模型
  • 网站所有者面临带宽消耗和内容被盗用的风险
站内正文

Show HN:Hyper,自动驾驶的公司大脑

Hyper是一款AI驱动的个人知识管理工具,能从Notion、Obsidian等应用中整合上下文,提供智能辅助。创始人此前在Matic从事机器人研发,曾在2020年尝试改进GPT-2未果,如今推出自助版本。

  • Hyper能将个人知识库与AI结合,实现自主工作辅助。
  • 创始人曾尝试GPT-2但时机未成熟,后专注于机器人研发。