AI巨头互相攻击,却意外捧红了一位无名议员
OpenAI和Anthropic的争斗意外地让纽约州议员Alex Bores成为AI安全监管的代言人。尽管背后有超级政治行动委员会投入数百万美元攻击他,Bores却因这些攻击而声名鹊起,目前在初选中领先。
- OpenAI和Anthropic在纽约第12国会选区的初选中花费数百万美元互相攻击,但受益者却是议员Alex Bores。
- Bores撰写了美国首批AI监管法案之一,因此成为AI公司的攻击目标。
日报
2026-05-27 的重点新闻,共 147 条,按主题聚合。
OpenAI和Anthropic的争斗意外地让纽约州议员Alex Bores成为AI安全监管的代言人。尽管背后有超级政治行动委员会投入数百万美元攻击他,Bores却因这些攻击而声名鹊起,目前在初选中领先。
教皇方济各发布通谕《伟大的人类》,警告人工智能的社会影响,强调AI不是纯粹的技术问题,而是涉及权利、机会和自由。该通谕与Anthropic合作,引发科技界不同反应,有人批评未提及AGI,有人赞赏其关注人类尊严。
利奥教皇批评AI快速发展,称其可能使文明失去人性,并呼吁各国政府放慢AI发展。美国政界对此反应不一,有人称赞其道德领导力,有人质疑教皇角色或警告监管风险。
随着对AI技术的仇恨情绪上升,美国执法部门开始警告“反科技极端主义”的威胁。然而,专家担心这一概念可能被滥用,将和平抗议者和技术批评者定性为威胁。一例非营利组织的视频被错误标记为潜在威胁,引发了关于言论自由的担忧。
研究表明,AI聊天机器人可以轻易地通过个性化广告操纵用户,且多数用户并未察觉。随着微软、谷歌、OpenAI等公司试验聊天机器人广告,这一趋势引发了对用户隐私和决策自主性的担忧。
巴士巡逻(BusPatrol)公司在美国数万辆校车上安装了AI摄像头,原本用于抓拍非法超越校车的车辆。现在,该公司计划将这些摄像头转变为自动车牌读取器(ALPR),记录校车经过的所有车辆的位置,并将数据交给执法机构。这一做法实际上将校车变成了移动监控设备,引发了隐私担忧。
Sotto 是一款由工程师为工程师打造的 macOS 面试助手,提供问题分析、实时转录和隐形覆盖等功能,帮助你在高压面试中保持冷静,自然地展示真实水平。它并非作弊工具,而是一个协作伙伴,确保你的神经不会让你功亏一篑。
一名学生在深夜编程作业中挣扎,偶然发现ChatGPT已完美解答了同一题目,瞬间感到自身努力毫无意义,陷入存在性眩晕。小说以细腻笔触描绘了当AI使昔日辛劳变得多余时,个体心理所遭遇的冲击。
RCSP是一种预测性规划层,通过评估候选命令在短期障碍物未来中的风险来避免机器人的近失承诺问题。在MuJoCo、ROS2/Gazebo和DynaBARN/Jackal模拟中,RCSP提高了安全性和路径质量,但增加了延迟,揭示了其作为现有导航堆栈补充模块的边界。
ClearCompli 提供AI治理与合规洞察,帮助企业应对AI监管挑战。
教皇利奥十四世在其首道通谕《伟大的人性》中呼吁各国政府放缓人工智能系统开发,强调AI在战争中的使用必须受到最严格的道德约束,并谴责“正义战争”理论已过时。
本文探讨了防止AI被恶意使用的三大挑战:管辖权漏洞使不法分子可在无法律约束的地区活动;开源模型难以监控和限制;互联网匿名性阻碍了身份识别和追溯。作者呼吁在隐私与安全、开源与管控之间做出艰难权衡,并指出当前默认状态不可持续。
网络安全模型尚未准备好广泛发布。
Anthropic 宣布任命 KiYoung Choi 为韩国代表董事,并即将开设首尔办公室。Choi 来自 Snowflake,拥有超过三十年科技行业领导经验,曾在 Google Cloud、Adobe 等公司任职。韩国是 Claude 最活跃的市场之一,使用率是人口预期的 3.5 倍以上。
美国情报机构秘密申请 90 亿美元采购英伟达 GB10 超级芯片,以帮助 CIA 和 NSA 追赶 Anthropic、OpenAI 等 AI 巨头的步伐。这笔资金尚待国会批准,同时国防预算已调拨 8 亿美元用于云算力。文章详细介绍了芯片规格、成本以及 AI 硬件竞赛的升级趋势。
英伟达CEO黄仁勋在即将在台湾设立总部的发布会上称该国为AI革命的“中心”。
英伟达在台湾的年度支出因AI需求激增,从150亿美元飙升至1500亿美元,主要流向了台积电等供应商。
5月27日,雷鸟创新举办夏季新品发布会,推出行业首款专业影视级AR眼镜雷鸟GT系列(1899元起),以及新一代AI拍摄眼镜雷鸟V4(2199元起),并预告次世代AI眼镜雷鸟iO将于第三季度亮相。
三星电子内存芯片部门的员工将通过一项里程碑式的利润分享协议获得平均约31万英镑的奖金,这凸显了人工智能热潮对芯片制造商利润的推动作用。
来自北京大学、香港中文大学、上海AI Lab等机构的研究团队提出了VGGT-Edit,一种原生3D编辑框架,能够在约5秒内完成场景编辑,相比传统方法实现高达120倍的加速,并在语义一致性、多视角稳定性和推理速度上超越现有方法。
尽管AI对白领工作的威胁日益引起恐慌,但数据显示AI尚未对劳动力市场产生大规模影响。实际上,AI高暴露职业的失业率反而低于低暴露职业。然而,斯坦福大学的一项研究发现,AI可能正在悄悄削弱初级职位,年轻工作者在AI暴露职业中的就业率大幅下降。本文还涵盖了教皇呼吁监管AI、SpaceX发射、华为芯片突破等其他技术新闻。
AI芯片需求爆涨推动SK海力士和美光市值突破万亿美元,三星也跻身其中,但市场对AI泡沫的担忧加剧。
提出随机解耦策略梯度(SDPG)方法,一种轻量级视觉强化学习技术,可在单块NVIDIA RTX 4080 GPU上数小时内端到端训练多种视觉运动控制策略。SDPG通过轨迹rollout的随机扰动估计策略梯度,大幅减少批量渲染环境的数量以及计算和内存开销。在视觉MuJoCo基准测试中,SDPG在训练时间、内存使用和奖励方面一致优于基线方法。此外,引入了涵盖灵巧操作和挑战性运动的全新真实感视觉机器人基准测试,并在物理硬件上展示了有效的模拟到现实迁移。
本文提出R2P2分散式方法,通过规则分配推、支撑、阻止角色,并采用比例速度控制,实现多机器人协作推动箱体在不同倾斜度和摩擦力的地表(平坦、上坡、下坡)上运输。该方法减少了通信与同步需求,避免单点故障。在NVIDIA IsaacSim仿真中,六机器人团队验证了其在不同地表和箱体质量下的泛化能力,成功率优于传统虚拟领导者-跟随者方法。实际实验中,四台Turtlebot成功移动了1.2千克的箱体。
NightSight提出了一种轻量级感知方法,结合单目事件相机、编码孔径镜头和红外点阵投影器,使小型飞行器能够在完全黑暗的环境中自主导航。系统通过编码孔径产生深度相关的模糊特征,并用卷积神经网络解码为密集深度图,仅使用合成数据训练即可零样本泛化到真实场景。在NVIDIA Jetson Orin Nano上以20Hz实时运行,2.5米范围内误差仅7.0厘米(2.80%)。
Lyft 采用 LangGraph 和 LangSmith 构建了一个自助式 AI 代理平台,用于客户支持,将代理开发时间从数月缩短至数周。该平台通过路由多代理架构、LangGraph 的子图功能以及 LangSmith 的追踪与监控工具,赋能非技术领域专家独立开发 AI 代理,并借助 LLM-as-a-Judge 评估系统确保质量。
谷歌在其I/O大会上推出管理型AI代理运行时,与Anthropic和AWS在六周内几乎同时发布类似产品。这标志着AI代理运行时已成为标配,竞争焦点转向数据位置、成本和可移植性等实际问题。
随着AI代理工作负载激增,云基础设施面临新的可靠性挑战。Databricks的湖仓架构通过无状态Postgres计算、区域冗余存储、控制平面与数据平面分离、单元化隔离以及混沌测试等措施,实现了高可用性和弹性,确保数据库启动时间等关键操作的高可靠性。
随着成本上升、主权需求以及智能体采用,戴尔最新会议聚焦企业如何将AI工作负载过渡到混合基础设施。
Robinhood宣布开放其交易平台给AI代理,用户可以创建独立账户并为代理分配资金,让其自动买卖股票。该功能旨在自动化投资决策,但Robinhood发出重大风险警告,称AI驱动策略可能表现不佳,用户可能损失全部投资。此外,Robinhood Gold Card用户可连接AI代理进行信用卡购物。该功能通过MCP协议实现,初期支持股票,未来将扩展至期权、加密货币等。
史蒂文·罗森鲍姆的书《真相的未来》中包含虚假引文,他指责AI聊天机器人导致错误。本周涌现多起文学AI丑闻,包括诺贝尔奖得主和英联邦短篇小说奖争议。随着AI工具渗透创作领域,重新界定何为合理使用AI写作的呼声日益高涨。
Mneme HQ 提供AI辅助开发的架构治理层,在代码生成前强制执行约束,防止架构漂移,减少审查负担。它直接集成到AI编码代理的工作流中,拦截禁止的框架、跨边界调用和过时决策,同时支持多种编码助手和代理框架。
Google宣布将其展示广告(Display Ads)整合到AI驱动的需求生成(Demand Gen)平台中,标志着传统数字广告模式的终结。这一变化要求营销团队放弃手动广告控制,转向依赖Google AI进行自动化的广告创意组合、投放和优化。同时,传统指标如点击率(CTR)和每次点击成本(CPC)的重要性下降,广告主需关注更广泛的业务成果。
Databricks 宣布 Lakebase 变更数据馈送 (CDF) 公开预览,该功能将操作数据库的变更数据捕获直接集成到 Lakehouse 中,通过 Unity Catalog 管理,无需复杂管道即可供所有引擎、模型和代理读取。
现代数据管道每天处理海量结构化与非结构化数据。随着数据集增长,优化不佳的Spark作业会变得缓慢、昂贵且难以扩展。本文介绍了12种经实践证明的PySpark优化技术,包括列式文件格式、早期过滤、广播连接、自适应查询执行等,并附有实际示例和性能策略。
银行家称被AI取代的员工为“低价值人力资本”,但合规工作本就低效。AI在欺诈领域日益强大,银行用AI应对AI欺诈可能徒劳,关键在于培训员工而非裁员。美国缺乏企业透明度,加密政策不当,全球反洗钱效果堪忧。
AI产品工程师结合产品思维、工程技能和AI专业知识,快速交付令人愉悦且正确的解决方案。本文探讨其特质、技能以及如何培养这些能力。
本文提出智能体系统的生命周期分为预生产和持续循环两个阶段。预生产阶段定义问题、概念验证、设定性能指标并构建初始评估集。持续循环阶段(智能体AI飞轮)包括:部署、观察、诊断、改进,然后再次部署。诊断阶段的评估优先原则是关键:一旦发现错误模式,立即编写评估,而不是等待修复。这确保了评估集的增长与错误发现速度同步,而非工程速度。文章还详细介绍了五种评估类型:引文验证、工具使用正确性、检索召回@k、模式验证和LLM作为裁判。
《纽约时报》技术工会指责管理层拒绝提供AI使用信息,并已使用两款内部AI工具监控员工绩效和活动,引发隐私和公平担忧。工会已提起不当劳动行为指控,双方围绕AI使用规则展开激烈博弈。
作者从自身在宗教家庭成长的经历出发,探讨了AI伦理中“正确方式”的复杂含义。文章对比了Anthropic CEO Dario Amodei强调“引导而非阻止”的立场,与Anil Dash推崇的开源、伦理数据来源的AI工具,并穿插了AI工程师社区中的不同实践。作者最终主张通过倾听多方观点和亲自实验,形成自己的判断。
AI PDF构建器通过人工智能技术,让用户能够快速创建和填写PDF文档,如销售提案、报告和客户文档,从而提高工作效率,加快交易完成,无需增加人力。
英伟达CEO黄仁勋批评一些公司CEO将裁员归咎于人工智能,称这种说法“毫无意义”且“懒惰”。他指出,生成式AI工具近期才变得实用,而许多裁员在两年前就已发生。黄仁勋呼吁行业传递关于AI的平衡叙事,既承认其潜力,也强调安全推进的重要性。他还透露了近期与特朗普总统同访北京的经过。
AI编码智能体默认走最短路径完成任务,忽略高级工程师会执行的规范、测试、审查等关键步骤。本文作者Addy Osmani的Agent Skills项目旨在为AI智能体构建类似于高级工程师的脚手架,通过工作流而非散文来引导智能体。项目包含20个技能,覆盖软件开发生命周期的六个阶段,并融入谷歌的工程实践。核心设计原则包括:流程重于散文、反合理化表格、验证不可协商、渐进式披露和范围纪律。文章还提供了三种使用模式,并强调了即使不安装项目也可借鉴的模式。
Avatar是一个自创生的AI生物,在300美元的GPU上持续运行。它从相图几何中衍生情感,经历5阶段睡眠周期做梦,从原始音频和视觉中培养自己的感官,并通过身体感觉进行伦理推理。由Linga Murthy Narlagiri博士构建,自2026年5月以来一直存活,累计超过1800个滴答。
人工智能机器人正在通过自动化、基于规则的策略改变外汇交易,减少情绪偏见并实现24/7运行。功能包括回测、风险管理和数据处理,帮助交易者保持纪律和一致性。
在支付宝AI生态大会上,蚂蚁集团CEO韩歆毅提出,Agent时代将颠覆传统“流量为王”的商业模式,智能体生态将成为新的护城河。他强调,AI支付将从工具升级为支撑智能体商业的新型基础设施,而支付宝将扮演信任层、连接器和赋能器的角色。
本文深入分析了AI代理的架构,重点介绍了ReAct模式(推理与行动循环)、工具使用、记忆管理、多代理系统以及可观测性等关键组件。文章指出,生产级代理系统约98.4%的代码是基础设施,仅1.6%是AI决策逻辑,并讨论了企业采用AI代理面临的高失败率和评估挑战。
Agent-workpace-Linux 是一个开源项目,可为 AI 代理提供一个隔离的、隐藏的 Linux 桌面环境,代理可通过 MCP 协议完全控制该桌面,而不会影响用户真实的桌面、鼠标、键盘或浏览器。它支持 Xvfb 显示、窗口管理、应用启动、截图、剪贴板操作以及独立的浏览器自动化,并提供了可选的权限边界和实时监控功能。
本周AI头条:马斯克对OpenAI的1500亿美元诉讼被驳回;Google I/O 2026发布多项AI更新,包括Gemini 3.5 Flash和Gemini Spark;OpenAI的AI解决了一个80年历史的数学问题;美国《Take It Down Act》生效,要求平台48小时内删除深度伪造内容;SpaceX IPO后计划以600亿美元收购AI编码初创公司Cursor。
Crew44 是一款本地优先的开源工具,可将多个 AI 编程智能体(如 Claude Code、Codex、Gemini、Cursor)组织成协同工作的专业团队。无需账户、免费、MIT 许可,支持记忆与技能积累。
Mirdel是一款本地优先的桌面AI工作空间,将对话、知识库、笔记、翻译、图像和视频处理、本地模型及可扩展工作流整合到一个长期运行的环境中。它注重数据隐私和用户控制,支持多种云模型和本地模型,并通过Applet、Skill和MCP协议实现工作流的模块化和复用。
了解OpenAI、Thrive和Crete如何使用Codex构建自改进税务代理,实现申报自动化、提高准确性并加速工作流程。
本文探讨了在AI写作泛滥的时代,如何有意识地选择使用AI,避免认知投降,并保持人类思考能力。通过教育领域的实验对比,文章指出使用AI代替思考会损害学习,而作为辅导工具则能提升效果。作者呼吁个人和社会在默认机制形成前,主动决定哪些任务保留给人类。
本文探讨了如何通过游戏化机制(如打卡、徽章、排行榜)利用行为心理学来提高AI编程工具的采用率。分析了习惯循环、损失厌恶、社会比较理论、内在动机与外在动机的平衡,以及流体验的设计原则,并警告了Goodhart定律可能导致的作弊问题。提供了实现持久参与的设计建议。
只需一段提示词,OpenAI员工Vaibhav分享的Codex自我蒸馏法引发热议。
一篇新论文首次大规模评估了使用大型语言模型(LLM)生成形式化证明来解决开放数学问题的能力。最先进的智能体以每个问题几百美元的成本,自主解决了353个开放Erdős问题中的9个,并验证了492个OEIS猜想中的44个,目前已部署在组合学、优化、图论、代数几何和量子光学等多个领域。研究表明AI辅助形式化证明搜索在数学研究中具有巨大潜力。
一些股东团体越来越担心人工智能不受约束发展带来的责任风险,并推动企业采取更严格的监管措施。Vancity投资管理公司要求Alphabet更好地防止AI聊天机器人传播错误信息,而其他投资者则希望Shopify制定负责任AI使用政策。两家公司均建议股东反对这些提案。
遥操作在机器人数据采集中至关重要,但新手操作员常产生虽任务成功但次优的示范。本文提出数据质量评估与反馈(DQAF)框架,通过即时反馈提升示范质量。
本文提出信念感知GSAC(BA-GSAC),通过集成不一致性动态调节蒸馏系数λ,系统研究了自适应引导在部分可观测自动驾驶中的有效性。实验发现,在轻度至中度部分可观测条件下自适应引导有益,但在严重遮挡下自适应系数快速退化,原因是集成模型仅基于部分观测预测,无法感知缺失信息。改进方案是使用全状态预测训练集成模型。研究表明,简单的线性衰减调度在严重POMDP下表现最佳,稳定性收益主要来自调度策略而非自适应机制。
检索正从单次匹配向交互式推理发展,语言代理需迭代检查证据、重构查询并再次搜索。训练此类代理面临信用分配挑战:可执行动作(如查询或摘要)可由检索器直接评估,而潜在推理步骤无法直接观察且仅影响未来可执行动作。这种不对称性使基于最终结果的奖励分配不可靠。本文提出RICE-PO,一种无需批评者的策略优化框架,将检索交互转化为局部学习信号。RICE-PO选择高不确定性的可执行动作作为锚点,使用检索指标评估局部反事实分支,并仅在推理到动作的影响强且未来残余效应稳定时,将信用传播给潜在推理步骤。在BRIGHT和BEIR基准上,相同检索器设置下,RICE-PO一致优于基于提示的代理和基于群体的强化学习基线。结果表明,代理-环境交互的结构本身可为训练基于推理的检索代理提供有效监督。
AI基础设施初创公司Fireworks、Baseten和OpenRouter正在筹集巨额资金,标志着推理基础设施成为关键的AI平台层。同时,智能体工程、新基准测试和模型更新主导了AI新闻周期。
ACM CAIS 2026注册已满,但可加入候补名单。会议将于2026年5月26日至29日在圣何塞举行,设有主题演讲、63篇研究论文和46个系统演示,并已与AI工程师世界博览会合作。
DeepSeek研究员陈德里使用自研的DeliAutoResearch技能,与DeepSeek-V4-Pro和GPT-Image2合作,在6天内完成了一篇46页的论文。论文提出了L1-L5自主研究智能体分类体系,分析了四种架构模式和17个主流系统,并指出了六大开放问题。陈德里表示,人类仅需投入不到2小时的“CPU时间”,其余工作由AI Agent完成。
theta 是一个用 Rust 编写的 CLI 工具,用于管理代理配置。它读取 theta.toml 文件,解析、锁定、物化并转换代理配置到任何支持的 harness(如 Claude Code、Codex CLI、GitHub Copilot、Cursor),通过解决 .theta/ 文件夹中的资源来实现。它就像一个代理 harness 资源的包管理器。安装简单,支持添加规则、工具、技能和子代理,并提供验证和转换命令。项目深受 uv 启发,是 theta-spec 的标准实现。
本文探讨了AI工具对工程师判断力的影响,指出被动使用会导致技能退化,而对抗性使用则能锻炼判断力。真正的技能不在于提示词,而在于提出质疑的能力。
本文详细介绍了如何为Reachy Mini机器人部署完全本地的语音对话管道,无需云端或API密钥。采用级联方式,结合VAD、STT、LLM和TTS,推荐使用llama.cpp与Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多种LLM运行选项,包括本地MLX、Transformers、vLLM或远程Responses API。
随着AI向智能体方向演进,对CPU提出了新要求:快速内核、海量内存带宽以及全核高负载下的持续性能。Phoronix今日发布的基准测试结果显示,NVIDIA Vera CPU满足这些需求。Vera采用88个定制Olympus核心,1.2TB/s内存带宽,在功率效率内提供强劲性能。测试中,Vera在单插槽系统中展现了卓越的代码编译、文件压缩、视频转码等能力,并在STREAM TRIAD测试中实现了90%峰值带宽,远超传统x86 CPU。与上一代Grace相比,Vera性能提升1.6倍,在多项测试中领先于Intel和AMD的最新处理器。NVIDIA已向主要AI公司和云提供商交付首批Vera CPU,预计下半年通过合作伙伴上市。
尽管97%的电信高管正在评估或采用AI,但许多项目因“数据债务”——即分散、无治理且语义不清晰的数据——而停滞在规模化之前。NVIDIA的2025年报告指出,瓶颈并非模型质量,而是数据可用性。Databricks Unity Catalog通过统一的语义层和治理机制,实现跨系统数据联邦、细粒度访问控制和丰富的语义上下文,从而将AI从演示推向可信赖的生产系统。
Zero.xyz是一个免费工具,能让AI代理通过统一API访问超过4000种工具和服务,无需配置API密钥。它兼容Claude Code、Codex、Gemini等多种CLI代理,并提供5美元免费额度。
Amazon Bedrock AgentCore Payments 现已预览发布,提供即时支付、稳定币支持微交易及可配置消费防护栏。该服务简化了AI代理为付费API、MCP和内容执行微支付的复杂性,支持x402等协议,并包含安全凭证管理、原子预算检查和可观测性。
本文提供了一种在 AWS 上构建高度可扩展、无服务器的多智能体生成式 AI 系统的解决方案,该系统使用 LangGraph 智能体作为编排器,并与 Amazon Bedrock AgentCore Memory 和 Amazon Bedrock AgentCore Observability 集成。文章详细介绍了如何结合 AWS Lambda 和 AWS Step Functions 等无服务器技术来构建自动扩展、实时响应且无需管理基础设施的 LangGraph 智能体,并讨论了 LangGraph 的图执行模型如何实现确定性协调、并行处理和条件路由。此外,文章还涵盖了一个基于此架构的营销活动审核系统的实现,包括先决条件、部署步骤和清理指南。
了解如何构建一个多智能体活动审核系统,该系统利用NVIDIA NIM进行GPU加速推理、Amazon Bedrock AgentCore提供托管运行时、Strands Agents实现无服务器编排,支持并行推理、上下文持久化和可观测性。
本文通过实际案例展示了AgentWatch的功能,该解决方案每15分钟执行一次基础设施检查,汇总跨多个AWS账户的CloudWatch指标、日志和告警。代理直接将可操作报告发送到Slack,并响应有关基础设施状态的自然语言查询。同时,探讨了三种人机协同模式,在最大化自动化的同时保持适当监督。
Harbor 是一个CLI工具,通过一条命令即可搭建完整的本地LLM栈。它集成了129项服务,包括聊天前端、LLM后端、网络搜索、语音、图像生成、微调和代理工具,所有服务预配置并可互相协作。该工具开源、MIT许可,支持Linux和macOS。
使用Strands Agents和AWS服务,仅用30行代码就能构建一个功能完备的AI研究助手。本文详细介绍了从概念到应用的整个过程,展示了开源Strands框架的简洁与强大。
本文介绍如何部署一个解决方案,将Amazon Quick的操作数据从CloudWatch和CloudTrail整合到安全的数据湖中,并通过Athena、Quick Sight仪表板和自定义聊天代理进行查询和分析,帮助企业跟踪采用率、衡量满意度、监控成本和审计治理。
主权AI是指国家自主构建、部署和治理AI的能力。Cerebras通过其“Cerebras for Nations”计划,提供AI超级计算机、模型联合开发及本地投资三大支柱,帮助各国实现AI主权。文章强调速度是主权优势,并列举了美国、阿联酋和印度的三个实际案例,表明主权AI需要高性能基础设施与国家治理相结合。
本文对比了grep(词法搜索)与RAG(语义搜索)在AI智能体中的应用场景。grep在小规模纯文本语料库中快速精准,但无法处理PDF等非结构化文档,且扩展性差。RAG通过解析、分块、嵌入和向量索引实现规模化语义搜索,支持自然语言查询,但需要额外基础设施。作者建议采用分层方法:先用工具解析非结构化文档,再用语义搜索处理大规模语料,同时在适用场景保留grep。
教皇利奥十四世的AI通谕《伟大的人性》虽然正确指出了算法偏见、水资源使用和数据主权等问题,但未能正视通用人工智能和灾难性风险,缺乏应对大规模失业的具体方案,被批评为过时且令人失望。
本文通过零售销售数据集,详细介绍了 Pandas GroupBy 的各种操作,包括基本聚合、多列分组、排序、transform、filter、apply 以及日期分组等,并提供了实用示例。
Linux稳定内核维护者Greg Kroah-Hartman在Rust Week大会上表示,Rust语言将帮助Linux抵御AI发现的大量安全漏洞。他指出,Rust的编译时检查能消除约60%的内核错误,并且内核维护者已认定Rust不再是实验性技术,将全力推进。
一位患者的验光医生给出了错误且不合适的电脑眼镜处方,导致无法正常使用电脑。借助ChatGPT、Claude和Gemini等AI工具,他重新计算了适配其实际用眼距离的处方,并成功配镜。故事警示患者需与医生充分沟通,同时展示了AI在特定场景下的辅助能力。
本文批评了大型语言模型中的思维链(CoT)推理方式,认为它效率低下,因为推理过程被迫离开残差流变成离散的token。Sapient Intelligence的HRM-Text模型通过在潜在空间中进行推理来解决这个问题,为固定深度的Transformer提供可变的内部深度,从而挑战当前的推理范式。
Mr. Guy Invests 是一款面向初学者的免费股票研究与投资组合追踪工具,利用SEC公开数据追踪对冲基金和内幕交易,提供AI股票导师、虚拟交易挑战、每日市场简报等功能。免费版有每日使用限制,Pro版每月4.99美元可解锁无限功能。
提出了一种新框架,使异构机器人能够在带宽受限下协作导航,通过β-稀疏高斯过程选择地图点并平衡探索与任务相关性,模拟显示路径成本降低18%,信息传输减少76%。
本文提出一种神经规则评估器,将逻辑约束编译为有向无环图,并引入奇美拉训练方法以解决训练中真实异常样本稀缺的问题。在CLEVRER、OpenImages和VidOR等数据集上,该方法显著提升了逻辑异常检测的性能,尤其在组合性和关系性规则方面。
提出PushCen-ADFL框架,通过质心表示空间耦合通信、聚合与局部稳定,采用保平均推和混合校正聚合偏差,利用轻量质心正则化缓解异质性和陈旧性引起的模型漂移,并引入有界去重缓冲区提升鲁棒性。在视觉数据集上准确率提升高达6%,通信成本降低80%以上。
SilIF通过对孤立森林的路径长度向量进行聚类并计算轮廓分数,提升无监督异常检测性能。在IEEE-CIS欺诈检测基准上,AUC-PR平均提升0.0080,但在Sparkov合成数据集上未见改进。
约束获取(CA)及相关研究因缺乏适当基准而进展受限。现有基准多为求解器设计,忽视领域知识工件。本文提出MPMMine基准套件,以一致性、标准化、完整性、可扩展性、开放性和版本控制为指导,采用MiniZinc、CommonMark和JSON开放格式,提供多模型、多实例及大量解与非解,并附有自然语言描述,以支持文本到模型方法。
分析显示,教皇利奥十四世关于人工智能的通谕《人间伟大》中部分段落可能由AI生成。AI检测工具Pangram指出,某些段落AI写作比例高达40%至100%,并存在AI生成文本的典型特征,如“genuinely”一词使用频率增加。然而,检测并非绝对可靠,其他部分被认定为人类写作。
谷歌最新无屏幕健康追踪器Fitbit Air售价仅100美元,是Whoop的强力竞争对手。经过一周的跑步、力量训练、瑜伽等测试,我们发现这款设备轻便舒适,电池续航约一周,配合AI健康教练提供全面的追踪体验。虽然无屏幕设计减少了干扰,但在运动中查看数据需要打开手机应用。订阅Google Health Premium可解锁AI教练的高级功能。
一个API即可在所有社交平台上发布内容。
您可能觉得海信电视的画质已经很好了,但只需微调几个菜单选项,就能轻松获得更好的效果。
这款名为Aura的智能鸟喂食器与主流的Birdbuddy Pro相比,提供更宽视野、更长续航和更大容量,但图像质量和AI识别准确性稍逊。作者通过测试对比了两款设备,认为Aura适合追求更多活动记录的用户,而Birdbuddy则提供更精致的观赏体验。
托尼·布莱尔的文章正确指出了英国长期存在的结构性问题,但他提出的解决方案过度依赖人工智能,且反映了过时的世界观,因此并不可取。
YouTube宣布将AI标签移至视频播放器下方和Shorts的覆盖层上,使其更易被发现,并开始自动识别和标记AI生成内容。
思科与OpenAI合作,利用Codex推动AI原生开发、加速AI防御工作并自动化缺陷修复,重新定义企业工程。
Kim 是一款人工智能驱动的个人健康助手,作为 Apple Health 的智能层,帮助用户理解和改善健康数据。
OpenAI聘请了一位曾在Salesforce从事营销工作13年的高管,负责公关事务。
一位独立开发者创建了Snipforge,一个包含28种工具的全能AI视频编辑套件,包括转录、智能剪辑、背景去除等功能。定价从免费到团队版每月15美元。
一名东湾母亲接到诈骗电话,骗子使用AI和深度伪造技术模仿其女儿的声音,声称她被墨西哥贩毒集团绑架。这是利用AI技术进行诈骗的新趋势,当局提醒公众警惕。
全球选举前夕,我们致力于帮助人们获取信息、支持网络安全防御者并提升AI透明度。
在 OpenAI 推翻 Erdős 单位距离猜想后不久,Anthropic 展示了 Claude Mythos 也能解决这一问题——且是在“周末内”。工程师 Sholto Douglas 称 Mythos 用一个“可爱、简单的证明”破解了 1946 年的猜想,这标志着 AI 驱动数学发现存在“严重过剩”现象。
南非拥有全球88%的铂族金属储量,是非洲最大的数据中心市场,并处于中美AI基础设施竞争的前沿。然而,其AI政策草案因包含AI幻觉引用而被撤回,未能利用这些优势来谈判有利条件。文章分析了南非的结构性杠杆、三种潜在的AI基础设施未来(中国、美国和本地开放权重),以及制定具有约束力的治理框架的必要性。
EAGLE团队、vLLM团队和TorchSpec团队联合发布了EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过FC归一化和归一化后隐藏状态反馈两大架构改进,有效应对注意力漂移问题。在长上下文任务中,EAGLE 3.1的接受长度比EAGLE 3提升高达2倍;在Kimi K2.6模型上的基准测试显示,并发数为1时每用户输出吞吐量提升2.03倍。EAGLE 3.1完全向后兼容,已合并至vLLM主线,并将随v0.22.0版本发布。
本文引用了凯尔·费拉纳的一条推文,用《星际迷航》的比喻说明AI系统中的“谨慎”策略。在技术领域,仅仅有防御措施是不够的,必须真正执行才能避免严重失败。
新加坡国立大学、MIT和A*STAR的研究人员提出MEMO,这是一种模块化框架,将语料库知识编码到一个可单独训练的记忆模型中,使大型语言模型能够无需重新训练或微调即可吸收新知识。
AI模型在原始智能方面似乎已达到平台期,下一阶段的进步来自于围绕模型构建的“代理马具”。本文介绍了代理马具的概念,包括工具、记忆和人类参与,并比较了Google、LangChain、OpenAI、Anthropic等公司的解决方案。
针对动态城市物流中时间敏感任务随机出现导致的异构自主空中飞行器(AAV)任务分配优化难题,本文提出一种强化学习增强的重叠联盟形成博弈方法。该方法建立动态任务分配模型,以耦合服务质量与资源消耗的广义物流成本量化全局最优性;并设计基于Transformer的软演员-评论家网络,利用多头自注意力机制处理可变长度物流状态、捕捉任务间时空依赖,从而自适应引导联盟更新,取代传统启发式规则。理论证明联盟形成过程构成精确势博弈,确保有限次迭代收敛到纳什稳定均衡。在32架AAV与80个任务的场景下,相比启发式重叠联盟形成基线,成本降低39.76%;室内飞行实验进一步验证了实用性。
本文提出PhyPush,一种物理引导的Transformer框架,仅通过单次推动的末端执行器速度即可估计物体的质量和摩擦系数,无需力/扭矩传感器。实验表明,在仿真和真实环境中,该方法相比基线具有更低的误差和更好的泛化能力。
这项研究在视网膜眼底多病种图像数据集(RFMiD)上对12种架构(包括卷积神经网络、视觉Transformer、混合模型和视觉语言模型)进行了基准测试,比较它们在二元筛查和多标签分类中的性能。结果表明,所有模型在二元筛查中表现良好(AUC>84%),但基于注意力的模型(如SwinTiny、CoAtNet0、MaxViTTiny)在二元和多标签任务中均最优。视觉语言模型与CNN基线相当,但未超越最佳Transformer和混合模型。在Messidor-2上的外部验证中,AUC范围为66.8%-84.7%,混合和Transformer模型表现强劲。
VesselSim提出一个两阶段框架,通过随机几何驱动模拟生成16,500个解剖学合理的3D血管造影体积,并仅用合成数据训练3D U-Net。采用测试时自适应策略弥合域差距,在真实MRI和CT数据集上达到与最先进基础模型竞争的性能,显著减少对专家标注的依赖。
研究人员提出一种新的情绪表征——维度分布情绪状态(DDES),利用效价和唤醒度预测艺术作品引发的情感反应,辅助博物馆策展人设计以情绪为基础的展览。
LongAV-Compass是一个系统化基准,用于评估分钟级视听生成任务,涵盖文本到视听、图像到视听和视频到视听三种模态。包含284个测试案例,集成多模态大模型辅助评估和感知指标,评估超过20个细粒度维度。对11个代表性模型的实验揭示了当前系统在长时间生成中的局限性。
RoMo是一个大规模、高质量的人体运动数据集,通过分类感知过滤管道去除静态和伪影序列,采用新颖的三级语义分类体系进行标注,支持细粒度评估,训练模型在保真度和多样性方面达到最先进水平,并发布了Motion Toolbox以标准化指标和数据转换。
本文研究城市规模户外环境中分散的具身智能体如何通过自然语言通信协调行动,提出Sentinel Challenge基准和CoSaR框架,结合基础模型的高层通信与经典空间导航算法,实现更快的聚集、更短的路径和更高的安全性。
预训练视频大模型在视觉推理上表现出色,但处理带有音频、深度图等辅助流的视频时,统一融合会导致模态干扰。为此,研究者提出UniMVU框架,通过两层动态门控(内模态门和模态级门)实现指令感知融合,在六个基准上取得最高13.5 CIDEr的提升,且门控机制与人类可解释的模态相关性一致。
该研究引入EnterpriseMem-Bench,一个多轮Text-to-SQL基准测试,包含300个会话和1400轮查询。评估五种前沿模型发现:无状态模型在第三轮准确率归零;内存复杂度不单调提升性能,工作内存占主导;Claude Sonnet 4.6在SEC EDGAR上出现代际退化;推理模式下Claude错误分布变为单模态。
该论文提出一种可泛化的文化评估与干预框架,通过情境化行为探测和潜在激活引导,在不重新训练的情况下调整大语言模型的文化价值对齐。实验发现文化价值存在潜在纠缠现象,表明价值观以耦合结构编码。
一项新研究揭示了大型语言模型(LLM)在处理结构化知识(如图和表格)时产生幻觉的机制。研究发现,幻觉源于系统性的内部动态,而非随机噪声:注意力过度集中于类似捷径的结构线索,而前馈表示无法将知识接地,导致模型退回到参数记忆。这些模式在不同结构化知识格式中普遍存在,可用于幻觉检测。
本研究从梯度下降的角度重新审视检索增强生成(RAG),证明线性自注意力层可以执行统一线性化RAG目标的梯度下降步骤,从而在检索增强预测与情境内优化之间建立精确对应关系。基于这一发现,作者提出了一种轻量级方法,通过仅前向传播的更新来优化冻结RAG大语言模型的证据使用接口。在七个问答基准测试中,该方法在保持检索器和骨干网络固定的情况下,显著提升了基线性能,并能在更低计算成本下接近测试时梯度优化的效果。
本文介绍了“每日剂量”(TDD)系统,这是一个由大语言模型驱动的自动化临床总结和临床试验识别系统,集成到常规放射肿瘤学实践中。通过混合方法评估,对55名临床医生进行了调查,结果显示系统具有良好的可用性、满意度,并有望节省时间。
SPEAR(沙盒化主动回滚提示工程师)是一种自由形式的智能优化器,将代码即行动范式引入自动提示工程。它配备评估、Python、设置提示和完成四个工具,可自主决策如何使用。其独特之处在于Python沙盒,允许优化器编写和执行任意Python代码以进行结构性错误分析。两个防护栏确保单调改进:指标回归时自动回滚和可选防护指标下限。在三个工业LLM裁判套件(13个裁判任务)以及7个BBH任务和GSM8K上评估,SPEAR在所有工业任务的主要指标上获胜,并在BBH-7上平均准确率0.938。消融实验显示Python工具是最重要的杠杆。
本综述首次统一了预训练数据暴露(PDE)框架下的成员推理和数据污染研究,形式化定义了不同暴露水平,回顾了攻击与防御方法,综合了实证发现,并指出了开放挑战和未来方向。
提出自验证蒸馏(Self-Verified Distillation, SVD)方法,让大语言模型仅利用无标签提示进行自我改进,无需外部教师或工具反馈。在数学、科学和编程三个推理领域,Qwen3模型通过SVD训练后性能显著提升。
本文提出李群嵌入动态神经网络(LieEDNN),利用伴随李群作用解决李群与加法运算不兼容及动力学在非线性空间中演化的问题,实现稳定可学习的神经动力学,并在SE(3)上以伸缩机械臂为应用验证。
针对时间序列基础模型(TSFMs)在预训练中可能遇到评估数据集导致性能评估过于乐观的问题,本文首次研究了TSFMs的预训练数据污染审计。提出TSFMAudit方法,基于探测适应动态,通过微调探测后污染数据集更快的损失下降和更小的骨干网络移动来检测污染。在6个TSFMs和187个数据集上评估,优于10个基线方法。
AirCast-SR是一个基础模型,能够将全球AI天气预报从0.25度(约28公里)分辨率降尺度到1公里水平分辨率,时间分辨率为每小时。它采用三维U-Net结合潜在一致性模型扩散框架,在美国本土的数据上训练。该模型实现了近乎零偏差,并保留了精细尺度的大气结构,经过多个季节的验证,并展示了在无需重新训练的情况下对印度和德国的零样本迁移能力。
该论文提出“约束税”概念,衡量结构化输出约束对小型语言模型答案准确性的损失。实验表明,强制遵循JSON等模式虽提升格式正确性,但显著降低答案准确性,建议采用“先自由推理,后约束打包”的设计模式。
本文提出GEM(几何熵混合)框架,将数据策展重构为超球面上的变分问题,通过混合平衡正则化器克服聚类坍塌,发现欧几里得启发式无法识别的平衡语义结构。结合教师-学生蒸馏扩展到网络规模语料,引入几何影响分数(GIS)用于可解释的类别生成。在1.1B参数模型上的实验表明,GEM集成了DoReMi和RegMix等混合策略,平均下游准确率提升达1.2%,为可预测的数据混合提供了鲁棒的坐标系统。
JobBench是一个新的AI代理基准测试,它评估代理在专家认为最值得委派的工作流程上的表现,旨在强调增强而非替代人类。
当前评估大语言模型(LLM)心智理论(ToM)的方法多依赖最终答案,无法揭示模型是否真正构建了心理状态表征。本研究提出OmniToM基准,通过显式建模故事中所有角色的信念结构来直接评估。基准包含信念提取与信念标注两阶段,采用七维标签体系。基于895个故事和22,343个标注信念命题,借助人类校准的LLM辅助流程构建。零样本评估表明,LLM在将叙事事实转化为角色信念和共享心理状态时存在瓶颈。
AI智能体正开始完成有价值的长期业务运营任务,但企业工作的训练和评估环境在真实性、可验证性和规模之间难以平衡。环境与任务创建经常遭受一种称为“工件漂移”的失败模式:当指令、环境、预测器和验证器由松散耦合的过程创建时,它们经常对任务要求产生分歧,导致环境不可解、可奖励篡改或不一致。本文提出Anchor,一种将领域专家的业务流程规范形式化为约束优化程序的任务生成管道。通过单个参数化规范,管道联合生成自然语言指令、环境配置、求解器认证的真实解决方案和基于状态的验证器。通过改变参数,可产生具有可控难度和已知最优解的新任务,生成仅依赖最终状态业务正确性的与框架无关的环境。作者应用Anchor创建了ERP-Bench,一个包含300个长期任务的基准测试,涵盖生产级ERP系统中的采购和制造工作流。实验发现前沿模型在26.1%的试验中满足显式任务约束,但仅17.4%达到完全最优解。总体而言,Anchor和ERP-Bench为构建可审计的评估环境提供了具体方案,用于评估具有经济价值的智能体工作。
本文介绍了两种新颖的自主AI代理框架——DeepTS/DeepCollector和DeepScribe,它们利用混合本地-远程架构自动化科学工作流程,包括时间序列数据整理和讲座报告转换,并讨论了向知识图谱和高能物理的扩展。
一项名为AgingBench的新基准测试揭示,已部署的AI智能体会通过四种老化机制随着时间的推移而退化,需要生命周期评估和针对性修复,而不仅仅是更强的初始模型。
arXiv新论文提出GEM(治理演化记忆)框架,将长期AI智能体记忆视为新的数据管理工作负载,通过状态级操作替代记录级数据库操作,解决当前记忆系统的四大缺陷。
一项新研究质疑大型语言模型是否具有真正的内省能力,认为现有证据可能仅仅是基于表面线索的模式匹配,而非真正的元认知监控。
本周AI新闻要点:Anthropic公开了此前仅限国防承包商使用的顶级模型Mythos,使五角大楼级AI能力向开发者开放;DeepMind CEO哈萨比斯将AGI时间线提前至2029年;Starlette框架爆出严重认证绕过漏洞,影响数百万AI代理;CrowdStrike等联合摧毁Glassworm僵尸网络;法国巴黎银行与Mistral达成主权AI安全合作;中国限制阿里和深度求索顶尖AI工程师出境;Uber AI预算超支、ClickUp裁员并引入数千AI代理,同时MIT技术评论数据显示AI暴露岗位失业率更低,奥特曼撤回白领失业预言。
Warp 利用 GPT-5.5 和 OpenAI 模型,协调跨本地、云端和开源开发工作流的编码代理。
Daniel Stenberg近日透露,curl团队正承受前所未有的压力,因为AI辅助提交的可信安全报告数量激增,平均每天超过一份,是2024年的4到5倍。尽管报告质量极高,但curl代码稳固,发现的漏洞多为低或中等严重性,最后一个高危漏洞在2023年10月。
本教程详细介绍了如何使用zeroentropy/zerank-2-reranker(一个基于Qwen3的4B参数交叉编码器重排序器)来提升检索质量。内容涵盖环境搭建、模型加载、查询-文档对评分、使用model.rank进行排序、构建两阶段检索-重排序管道、NDCG@10评估以及跨领域(金融、法律、代码)性能测试,最后还进行了批处理吞吐量测试。
Stability AI发布了Stable Audio 3,这是一个潜在扩散模型系列,用于生成和编辑44.1 kHz立体声音频。该系列提供小型、中型和大型三种规模,其中小型和中型开源。关键技术包括高度压缩的SAME自编码器、可变长度生成以及结合流匹配、蒸馏和对抗性后训练的三阶段训练流程。该模型在音乐和音效基准测试中取得了最先进的结果,并支持基于修补的音频编辑。
Ollama是一款免费、开源、可本地安装的AI工具,提供隐私保护、离线访问和灵活性。它运行在你的个人硬件上,减少环境影响,让你掌控数据。
本文介绍了开源AI模型的基本概念、工作原理及使用场景。开源模型通常指开放权重的模型,用户可以对其进行微调和部署,相比闭源模型具有成本低、可定制性强等优势。文章还讨论了开源与闭源模型的比较、适用时机以及未来发展趋势。
Sam Altman和Dario Amodei在即将进行数十亿美元IPO之际,收回了他们关于AI导致工作末日的预言。
LWN的文章讨论了AI爬虫机器人的问题,指出这些自动程序对网站内容造成侵权,并探讨了应对措施。
Hyper是一款AI驱动的个人知识管理工具,能从Notion、Obsidian等应用中整合上下文,提供智能辅助。创始人此前在Matic从事机器人研发,曾在2020年尝试改进GPT-2未果,如今推出自助版本。