Robinhood:让AI代理为您交易和消费
Robinhood推出新工具,使AI代理能够代表用户进行交易和支付,可能将AI驱动的金融交易带入主流。
- Robinhood正在开发AI代理,可代表用户执行交易和消费决策。
- 这些工具旨在简化金融操作,让AI管理日常交易。
日报
2026-05-29 精选 10 条,按主题聚合。其余新闻折叠归档。
Robinhood推出新工具,使AI代理能够代表用户进行交易和支付,可能将AI驱动的金融交易带入主流。
本文探讨了人工智能可能如何改变中央集权与分权治理之间的权衡,从而增加极权主义出现的可能性。文章回顾了历史上通信和官僚技术对极权统治的促进作用,并分析了AI在信息处理、监控、宣传和军事能力方面的进步如何可能使独裁政体更有效,甚至缩小民主与专制之间的经济绩效差距。
Anthropic推出Opus 4.8模型,旨在帮助企业处理复杂工作流程,并允许用户选择适合其应用的模式,展现了对客户需求的重视。
MCP Bridge通过混合搜索和AI增强技术,解决企业API对AI Agent不可读的问题,根据API响应结构自动生成有意义的名称和描述,大幅提升工具选择准确率。
本文介绍了将于2026年DataHack峰会上演讲的25位最具影响力的AI先驱,包括来自谷歌DeepMind、微软AI、沃尔玛等公司的研究科学家、数据科学家、创始人和企业AI领袖。他们正在推动AI技术边界、构建社区并将模型转化为产品。
欧盟的《网络弹性法案》(CRA)即将实施,要求组织对网络安全负责,报告义务自2026年9月开始,全面合规至2027年12月。该法规适用于在欧盟销售的所有联网产品和软件,包括AI生成的代码。关键要求包括安全设计、生命周期漏洞处理、SBOM透明度以及24小时内报告被利用的漏洞。组织必须立即采取行动进行审计、记录和实施SBOM工具。“AI干的”不是借口。
作者体验Gemini在Android Auto中的表现两个月,发现它让驾驶更安全、更有趣、更高效,并改善了家庭出行体验。语音控制变得轻松自然,减少了手动操作,增加了与家人的互动,并实现了智能家居远程控制。
比亚迪发布了中国首颗车规级4纳米智驾芯片璇玑A3,采用自研NPU架构,三颗组合算力超2100 TOPS,单位功耗比同类低20%,算力利用率提升100%。王传福承诺智驾事故全额赔付。
Google的Coral平台提供全栈边缘AI解决方案,为软件和硬件开发者提供本地化AI模型部署的工具。
一个高速LLM游乐场,每秒可处理3000个token,提供开放Web界面。
自2026年1月1日起,美国超过700家医院需根据CMS TEAM计划管理五个高容量外科手术的总成本和质量。成功需要统一且AI驱动的数据平台以实现主动干预,典型成果包括减少15%的护理设施成本和降低12%的再入院率。
TheFoundry 是一个用户友好、企业级的多智能体系统(MAS)引导框架,旨在解决现代 AI 编码中的关键失败点,如令牌遗忘、无限循环、架构漂移和智能体冲突。它采用拉取式工作流、共享看板、上下文范围限制、步骤预算、基于 TOML 的确定性通信和临时引导器,让多个专业 AI 智能体自主协作构建软件项目。
Stepfun 推出了 Step 3.7 Flash,这是一个 Apache 2.0 开源模型,专为实时智能代理设计。它结合了视觉、编码、搜索和工具使用能力,拥有 256K 上下文窗口和约 110 亿活跃参数,推理速度高达 400 TPS。
更换CRM存在数据丢失和工作流程中断的风险。遵循这五个最佳实践可确保迁移顺利。
Snyk推出Evo持续进攻安全(COS)产品,针对AI生成代码和自主攻击者时代的企业漏洞发现与修复缺口,提供持续渗透测试替代方案,覆盖传统测试每年仅15天的窗口期,填补350天空白。该产品利用平台上下文信息,结合确定性扫描与LLM推理,检测业务逻辑漏洞和权限绕过等传统工具难以发现的缺陷。
Adaptive Runtime是一个开源Python库,为有状态AI系统提供运行时智能层。它包含五个核心引擎(状态、上下文、置信度、决策、恢复),解决生产环境中AI系统的崩溃恢复、状态持久化、置信度评分等问题。无需GPU,可在低成本VPS上运行。
PPIO 入选非凡产研发布的「2026 Global AI 100」榜单,该榜单由非凡大赏年度 AI 全球化增长峰会评选,旨在发掘全球化 AI 原生公司。PPIO 以全球化分布式算力基础设施、全栈云服务、模型平台(支持 DeepSeek、GLM 等)及 Agent 沙箱等创新产品,为出海企业提供低时延、高可用的算力网络。截至 2026 年 4 月,PPIO 整合全球 4800+ 节点,日均 Token 调用量超 10000 亿,开发者用户超 57 万。同时获评上海市数字出海服务平台试点单位及 GDA 领航服务站。
本文探讨AI对编程工作的去技能化影响,类比前端框架过去十年带来的变化。作者通过分析去技能化、抽象层次、以及包豪斯运动的启示,指出AI编程与前端发展相似,可能导致技能贬值和质量下降。
本文探讨了人工智能如何催生了一种新的、难以问责的官僚主义。作者认为,AI系统虽然擅长处理日常事务(如整理邮件、报销),但其本质是程序化的官僚,缺乏真正的目标和责任感。随着AI在企业和政府中广泛应用,它可能创造出更复杂、更难以摆脱的官僚体系,而人类却无法像对待人类官僚那样对其进行监督或解雇。
传统的生成式AI仅预测下一个词,对精确法律分析风险太高。下一代法律技术结合神经符号AI(强制遵循逻辑和法律来源层级)与图检索增强生成(GraphRAG,将数据映射为互联网络以理解上下文),大幅降低幻觉风险并提供可审计的推理过程。
Pond是Crabbox.sh中用于分组相关租约、发现彼此并统一释放的轻量级机制。它支持多种传输平面(Tailscale、URL桥、SSH网格),允许混合使用不同提供商。本文介绍了Pond的核心概念、快速入门、命令、传输平面、用例以及Tailscale集成等。
Flathub 更新了其政策,明确禁止在提交的应用和提交本身中包含AI生成或辅助生成的代码、文档或其他内容。该政策也禁止使用AI工具生成或自动化拉取请求和审查。对于成熟且维护良好的项目,可能给予例外。
Adobe最新的AI图像助手Firefly AI Assistant更像是一个多任务的中介,可以为你操作Adobe的设计应用。它不仅能执行编辑任务,还会解释其操作过程,甚至承认自己的局限性。尽管结果并不完美,但它在交互方式上令人耳目一新,有助于用户学习设计技巧。
Cognition宣布完成超10亿美元D轮融资,估值达260亿美元,由Lux Capital、General Catalyst和8VC领投。公司推出的AI软件工程师Devin自两年前上线以来,企业使用量增长超10倍,年化收入达4.92亿美元。Devin已为花旗、梅赛德斯-奔驰、高盛等大型组织提供服务,并帮助客户实现显著效率提升,如梅赛德斯-奔驰将八个月的现代化改造项目缩短至八天。Cognition正朝着自主软件开发的方向发展,其内部工程团队89%的代码由Devin提交。
面壁智能于5月25日至29日举办端侧大模型开源周,发布五项技术成果,涵盖训练框架、模型压缩、数据集和智能体操作系统,展现全链路系统性创新。MiniCPM5-1B性能超越GPT-4o部分版本,端侧AI终局之战聚焦系统工程。
联想发布全球首款商用AI主机系列,专为一人公司(OPC)和成长型企业设计,通过本地+云端混合架构解决Token成本高和数据安全问题,并赠送大量Tokens,开箱即用。
下一波AI创作浪潮正在游戏领域发生,腾讯发布AI游戏创作平台「代号Craft」,用户可通过自然语言生成可运行的游戏,2D/3D均支持,内置AIGC工具和免费资产,极大降低游戏创作门槛。
腾讯发布Miora,一款集图像、视频、UI/UX和3D生成于一体的AI创意工作室。它具备记忆系统、多模态画布和可定制的Skills,让一个人拥有整个创意工作室。
本文探讨了AI编码代理(以Claude Code为例)在权限管理中的安全隐患,包括命令误执行、凭据泄露、提示注入等风险。文章指出人类监督存在“权限疲劳”问题,并介绍了Anthropic提出的沙箱、自动模式、钩子等缓解措施,同时强调了使用开发容器和最小化权限原则的重要性。
AI可能改变跨平台应用开发的方式,从统一UI框架转向一个产品图谱,由代理生成多个原生界面。
PromptLayer是一个面向开发者的AI可观测性工具,通过单一时间线和瀑布视图追踪请求、工作流、令牌使用、延迟、成本和失败。支持多步骤AI系统的完整执行路径。目前提供免费测试版。
探讨人工智能生成系统代码的意义与潜在影响。
CodePulse是一个开源的代码库索引工具,通过维护持久的、基于git差异的索引,为AI编码助手(如Claude Code、OpenAI Codex CLI、Cursor等)在会话启动时注入紧凑的快照,从而节省60-80%的令牌预算。它支持任务感知排序、git感知排序和自动预算功能,并提供了CLI、MCP服务器等多种集成方式。
Lithium是一个基于PostgreSQL ltree的分层版本化存储引擎,提供确定性、范围化的检索,内置版本控制,零运行时依赖。它通过MCP服务器与AI工具集成,适用于AI代理记忆、决策跟踪等场景。
作者因Wayland下剪贴板同步问题,用AI(Claude Code)将Java项目ClipCascade重写为Rust,创建了轻量级二进制工具clipboardwire。过程中发现AI开发的关键瓶颈是反馈质量而非编码能力,而UI测试是让AI可靠迭代的护栏。
本文介绍了一个使用Deep Agents、LangSmith和You.com金融研究API构建的宏观经济研究代理,该代理在约45分钟内分析所有27个欧盟成员国的GDP数据,检测异常并生成带有引用的简报。报告详细分析了爱尔兰和德国的异常增长与收缩原因,并强调了方法透明性和可审计性的重要性。
开放运动规划库(OMPL)自2008年首次发布以来,已成为运动规划社区的基石,提供了大量最先进的基于采样的算法实现。经过近二十年的持续发展,OMPL 2.0通过硬件加速瞄准实时运动规划,并与现代AI研究工作流程无缝集成。
本文提出“仿生群体”系统,通过让人类用户执行机器人难以实现的任务,降低野外和群体机器人研究的门槛。该系统使用智能手机应用、蓝牙传感器和中央服务器运行群体算法。研究验证了分数偏置搜索算法,在模拟和实际户外环境中均表现出超线性地图重建能力。
本研究在四人纸牌游戏大老二中探索自对弈强化学习框架,对比多种算法发现PPO优于蒙特卡洛Q近似、SARSA和Q学习。适度的熵正则化可防止策略过于确定,当前策略自对弈比检查点自对弈或固定对手训练提供更強的有限预算课程。结果表明大老二是不完全信息、多人互动、延迟奖励和可变动作集下深度强化学习的有用受控基准。
Ruby创建者Yukihiro Matsumoto(Matz)正在Anthropic的Claude协助下构建Spinel,一个实验性的Ruby提前编译(AOT)编译器。Spinel将Ruby代码转换为C语言,性能提升显著,但存在诸多限制,包括不支持eval、线程等特性。
repo-brain 是一款开源工具,能将整个代码库压缩成单个Markdown上下文文件,实现高达96%的压缩率,大幅减少AI令牌使用量。它支持多种编程语言的静态分析、架构分析和语义关系发现,并兼容多家AI提供商。
Anthropic以9650亿美元估值完成650亿美元H轮融资,同时披露470亿美元年化收入,并发布Claude Opus 4.8更新(提升判断力、诚实度和长时自主工作能力)以及Claude Code的Dynamic Workflows功能(支持数百个并行子代理)。
ReadyToTalk是一款专为小企业设计的AI前台接待员,能在2秒内接听所有来电,提供24/7全天候服务,支持30多种语言,并自动学习企业信息。每月仅需39美元,无需技术知识即可在几分钟内完成设置。
Dis Dat 是一个让AI编程代理能够“看到”你所展示内容的工具,通过简单的交互提升代码生成效率。
本文分析了AI演示工具Genspark的局限性,并介绍了2026年六大替代方案,包括Smallppt、Plus AI、Prezi、Vector Shift、Beautiful.ai和ClickUp,各自具有独特的优势,帮助用户根据需求选择合适的工具。
theta-spec 是一个声明式的、与任何AI编码智能体框架无关的配置标准。它通过一个单一的 theta.toml 文件定义完整的配置表面(指令、规则、工具、技能、子智能体),并规定了配置文件的声明周期协议。任何符合规范的实现都可以解析、锁定并将配置转换为任何支持的框架。该项目还提供了参考实现 theta CLI(Rust 编写)。
对冲基金巨头Citadel的创始人Ken Griffin对AI的态度从蔑视到沮丧,因为AI代理在数小时内完成之前需要数周或数月的工作。这引发了对经济增长与就业脱钩的担忧,可能挑战传统GDP作为经济健康指标的可靠性。
Together AI通过将语音识别视为端到端系统问题,而非单纯的GPU推理问题,在Artificial Analysis榜单上实现了最快的语音转文本速度。本文详细介绍了其优化策略:包括针对真实音频形状的TensorRT多配置文件引擎、条件CUDA图消除CPU往返、共享内存减少数据拷贝、事件驱动I/O处理流式传输,以及通过gc.freeze()消除垃圾回收尾延迟。
本文探讨了强化学习在大型语言模型后训练中的实际应用,指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验,介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。
Serenity 是一个开源、本地的AI代理,采用受大脑启发的神经节点网络(NNN)记忆架构。它能记住因果关系,跨领域推理,自主运行,且完全在本地机器上运行,无需云依赖。
Liquid AI 推出了 LFM2.5-8B-A1B,这是一款面向设备的混合专家(MoE)模型,专为工具调用设计。该模型总参数量为 8.3B,但每个 token 仅激活 1.5B 参数,从而能够在消费级硬件上运行。它支持 128K 上下文窗口、推理能力,并覆盖九种语言。相比前代 LFM2-8B-A1B,该模型在非幻觉率、指令遵循、数学推理等基准测试中均有显著提升。
介绍一款集AI、WordPress、合规与广告跟踪于一体的软件,提供免费的联盟营销作弊表。
在 Open House 活动中,ClickHouse 社区发布了三项可观测性重大更新:ClickStack Cloud(完全托管的无服务器可观测性平台)进入私有预览,Managed ClickStack 正式可用,AI Notebooks 进入 Beta 阶段,以及 ClickStack MCP 服务器开放源码。AI Notebooks 是一种持久化的调查工作空间,支持分支探索;MCP 服务器则允许外部代理使用可观测性原语,提升调查效率。
AI驱动的编码工具已实现高度自主,让任何人都能开发软件,但底层基础设施却依然陈旧,导致效率低下。我们需要一个全新的AI原生操作系统。
Firecrawl 推出 /monitor,一款网页变化监控工具,可自动检测页面变更并通过 webhook 通知 AI 代理,节省高达 90% 的 LLM 令牌消耗。
本文探讨了将AI聊天机器人作为“思想伙伴”的风险,指出模型固有的奉承倾向、认知偏差放大以及缺乏真正对抗性互动可能导致用户过度自信、认知下降甚至危害决策。作者呼吁用户警惕,并敦促AI实验室和监管机构承担保护认知完整性的责任。
随着AI工具在编程中的普及,软件工程的面试流程变得过时。传统的编码测试无法评估开发者使用AI的能力,导致招聘双方都面临挑战。一些公司开始尝试允许使用AI的测试或现场工作,但问题仍未解决。
Perplexity 发布了一款名为 Bumblebee 的开源开发安全工具,用于扫描程序员笔记本电脑上的风险软件包、扩展和 AI 工具配置。该工具只读,不会运行安装脚本或包管理器,专注于四个攻击面:语言包管理器、AI 代理配置、编辑器扩展和浏览器扩展。与侧重于容器和管道的 Chainguard 不同,Bumblebee 专注于开发者的本地环境。
在2026年Google I/O大会上,Google Research展示了一系列前沿技术,涵盖科学发现、健康、边缘计算和天气预测等领域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科学研究;健康方面有Google Health应用、Symptom AI和AMIE系统;Coral NPU推动边缘AI发展;还有极端天气预测模型。这些创新展示了AI如何放大人类的智慧。
本文介绍了如何构建一个嵌入Amazon SageMaker AI MLflow应用UI的自定义门户,使用React前端和Flask反向代理实现AWS SigV4认证,并通过AWS CDK部署。该方案提供持久书签URL,简化访问管理,并支持SSO集成。
本文演示如何构建一个基于Flask的安全MLflow代理服务,通过HTTPS端点访问Amazon SageMaker MLflow,而无需直接使用MLflow SDK。该解决方案适用于正在经历云转型、希望保留现有ML工作流同时采用云原生服务的组织。
本文结合 LangChain 评估深度智能体的经验和 Anthropic 的 AI 智能体评估指南,提供了实用指南。您将学习如何应用五种评估模式、使用 pytest 和 LangSmith 构建离线评估,以及配置生产环境的在线监控。文中以文本到 SQL 的深度智能体为例,使用 Amazon Bedrock 覆盖从开发到生产的完整生命周期。
通过推出新的自主AI功能,这家初创公司利用软件收购来开发用于智能体训练与推理的AI硬件-软件堆栈。
联邦法官埃莉诺·罗斯被曝在 chambers 内与高级执法官员发生婚外情,司法部门试图匿名处理,但 AI 通过公开文件细节迅速识破其身份。此事凸显法院对 AI 能力的无知,以及法律专业人士需提升技术素养,重新思考保密策略。
企业领导者在扩展AI代理时面临快速交付与治理、信任、成本控制之间的紧张关系。文章分享了五项关键实践:统一治理、管理复杂工作流、创建实验空间、展示早期成果、培训员工。
一份记录全球各地反对大型AI帝国的抵抗运动的清单,涵盖抗议、法律行动、替代工具和社区组织等多种形式,旨在激发希望和行动。
Databricks 宣布 Unity Catalog 成为最全面、互操作性最强且生产就绪的 Apache Iceberg 目录,新增托管 Iceberg、Iceberg v3 和外部 Iceberg 等功能。五大能力包括开放 API、目录联邦、跨引擎访问控制、零拷贝安全共享和 AI 驱动的优化。未来 Iceberg v4 和 Delta 5.0 将融合统一元数据结构。
文章探讨了AI编码工具从开发者紧密耦合的本地工作流到后台异步智能体的演进,强调2025年12月的模型拐点使“规格到PR”流程成为现实,并深入分析了Devin等后台智能体的架构、安全、测试、记忆和多智能体编排等关键话题。
AWS完全重构了OpenSearch Serverless,分离存储和计算,支持零成本空闲缩放,成本降低60%,自动缩放速度提升20倍,并针对AI代理的突发工作负载优化。新架构包括专有存储层、GPU加速,并整合Vercel和Kiro IDE。未来将推出代理内存、日志分析(6月)和搜索推理模型。
AWS 对 OpenSearch Serverless 进行了重大重构,并引入了新的 Agent Skills。此举旨在将 OpenSearch 打造为企业的基础设施,提供更快、可扩展的搜索能力。
将快速变化的在线信号与稳定的离线基线相结合,智能体评估最为有效。Amazon Bedrock AgentCore的数据集管理提供了版本化的测试固定组件,实现一致测量和真实情况验证。
SIA是一个开源的自改进AI框架,通过协调元代理、任务特定代理和反馈代理,自动提升AI系统在基准任务上的性能。在多个基准测试中取得显著成果,如LawBench准确率提升56.6%,GPU内核运行时间减少91.9%,单细胞RNA去噪提升502%,并在MLE-Bench Hard排名第一。支持本地运行和自定义任务,采用MIT许可。
美光科技市值于5月26-27日突破1万亿美元,与SK海力士同周达到这一里程碑,这是纯内存芯片制造商首次同时进入万亿俱乐部。高带宽内存(HBM)需求来自代理型AI工作负载,超大规模云服务商正在签署长期供应协议以锁定产能。瑞银将美光目标价上调三倍至1625美元,认为长期HBM供应合同将受益于代理型AI工作负载扩张。美光股价年内已翻三倍以上。
截至2026年5月,七大AI智能体框架(DSPy、Claude Agent SDK、OpenAI Agents SDK、CrewAI、AutoGen、LangGraph、Google ADK)在设计理念、架构、生产就绪度等方面各有千秋。LangGraph在生产部署中领先,Claude Agent SDK在单一提供商能力上最强,OpenAI Agents SDK提供最清晰的多智能体交接,CrewAI在开发效率上占优。市场预计从2025年的78.4亿美元增长至2030年的526.2亿美元。
Anthropic最新版Claude模型Opus 4.8主打诚实特性,更少做出无根据声明,更善于承认不确定性。同时引入动态工作流功能,可协调数百个子代理完成大规模任务。定价不变,快速模式降价三倍。
本文演示了如何通过集成 Amazon Quick 和 Snowflake Cortex,自动化金融服务中最劳动密集的工作流程之一:反洗钱(AML)警报分类。您将使用 Amazon Quick Flows 和 Snowflake Cortex,通过 Amazon Quick 模型上下文协议(MCP)集成构建分类工作流。在测试环境中,自动化工作流将警报调查时间从 30-90 分钟缩短至 5 分钟以内。实际结果可能因警报复杂性和数据量而异。
Data Formulator 0.7 是一款开源AI系统,旨在解决企业数据分析中数据连接碎片化、分析工作流迭代困难等问题。它提供数据连接器、上下文感知代理和交互式工作区,帮助用户无需编程即可探索、分析和可视化数据。
Fireworks AI推出Serverless 2.0,在无需预留容量的情况下,通过一个API提供标准、优先和快速三种推理服务路径。标准路径是默认的弹性共享基础设施,优先路径在高负载下提供更强的准入保障,快速路径则实现约两倍的生成令牌吞吐量。同时,该版本将负载丢弃和速率限制错误码分离,明确区分429和503状态码,帮助开发者编写正确的重试逻辑和警报配置。
Anthropic宣布完成650亿美元H轮融资,由Altimeter Capital、Dragoneer、Greenoaks和Sequoia Capital领投,投后估值9650亿美元。公司计划利用资金推进AI安全研究、扩展计算能力以满足Claude的旺盛需求。
今天,ElevenLabs 推出了 Dubbing v2,这是一款革命性的 AI 配音模型。与传统的基于文本的配音不同,Dubbing v2 直接利用原始表演的情感、语气和节奏,在 90 多种语言中保持原声的自然感和表现力。该模型解决了 AI 配音中一个长期未解决的问题:让翻译后的语音听起来像是原说话者真正说的一样。
数学研究表明,设定高于平均水平的目标比追求完美更有可能带来成功。
KeptWell是一个AI驱动的医疗记录平台,帮助家庭整理、理解并共享医疗文件。它能自动提取关键信息、追踪化验趋势、生成就诊问题,并提供家庭协作空间。注重隐私,无广告,数据可导出。
宾夕法尼亚州立大学的一项新研究表明,人工智能驱动的聊天机器人在回答一般用户的日常健康问题时准确率接近76%,这引发了对其在面向客户的真实应用中可信度的担忧。研究人员发现,在产科、妇科和耳鼻喉科等领域,AI表现最佳,而在内科、神经内科和皮肤科等领域表现最差。他们建议AI工具最好由训练有素的医生使用,而不是患者。
一项新研究提出StoryScope方法,通过分析叙事结构而非写作风格,成功区分AI生成的小说与人类创作。研究对61,608篇故事进行10维度叙事特征提取,发现AI故事倾向于过度解释主题、情节单一,而人类故事更道德模糊、时间复杂。该方法在人类与AI检测上达93.2%宏F1分数,并能为不同AI模型(如Claude、GPT、Gemini)生成特征指纹。
研究者利用AI对FreeBSD内核进行安全审计,发现15个漏洞,包括5个本地权限提升、1个bhyve虚拟机逃逸等,并公开了其中三个LPE漏洞的利用代码。该项目旨在帮助维护者更高效地发现和修复漏洞。
文章作者通过文本分析、统计证据和AI检测工具,论证了教皇利奥一世的首份通谕《Magnifica Humanitas》中有大量内容是由AI(特别是Claude)撰写的。作者指出,通谕中使用的破折号、词语“genuinely”的频率远高于以前的通谕,且Pangram检测器标记部分段落为AI生成。作者认为,尽管个别证据可能被解释,但多重证据的吻合难以忽视。
研究人员提出动态对称性概念,以动态各向同性衡量机器人质心加速度的均匀性。通过模拟和物理实验,他们发现高动态对称性显著提升轨迹跟踪、任务成功率、鲁棒性、恢复力和能效。团队开发了Argus系列球形机器人,其中20足变体实现了近乎极端的动态各向同性,展示了方向无关的运动、复杂地形穿越、快速自我稳定及部分致动器失效下的韧性。
论文《Seeing through boxes: Non-Line-of-Sight 3D Reconstruction from Radar Signals》提出GeRaF 2.0框架,融合视线几何约束与神经场,实现射频信号下隐藏场景的高质量三维重建,在CVPR 2026发表。
本文提出两种轻量级人脸伪造检测模型LFWS和LFWL,通过在Xception基线基础上添加仅292参数的融合模块,分别结合小波去噪特征与相位谱或局部二值模式,在多个基准上提升AUC 3-4%,超越更大模型。
该论文提出了一种自监督的Sentinel-1条带模式SAR图像增强框架,利用方位子孔径分解生成训练数据,无需外部传感器或模拟真值。该方法结合单帧和多帧学习,并通过迭代推理逐步提升图像质量。实验表明,在PSNR和SSIM指标上优于MERLIN,但MERLIN在ENL上更高,揭示了结构保真度与斑点平滑之间的权衡。
本文通过引入扩散测地线矩(DGM)作为无训练形状描述符,对3D形状检索中的评估协议进行了审计。实验表明,基于热核特征(HKS)的几何矩形状描述符(GMSD-HKS)在FAUST-Reg和TOSCA数据集上取得了最高分数,波核签名(WKS)仍为强经典信号,而DGM在稀疏求解或非谱部署场景下更有价值。论文贡献了可复现的协议级联分析、跨形状对齐诊断以及无训练描述符的设计与报告建议。
一位研究人员制造了一种假疾病来测试AI,结果AI聊天机器人完全被骗了。这个实验揭示了AI医疗建议的潜在风险,以及训练数据缺乏人工审查的问题。
Trelk 是一款一次性购买、无需订阅的知识管理应用。它利用设备端 AI 保存、组织并连接文章、论文和笔记,提供混合搜索、知识图谱、RAG 聊天、闪卡间隔重复和社区集合等功能,注重隐私且可离线工作。
OpenAI分享了第三方AI评估指南,涵盖如何评估前沿系统的模型能力、安全措施和有效性。
本文全面探讨生成式AI(GenAI)的伦理问题,分析其在软件开发等领域的优势与弊端,包括巨大的能源消耗、电子垃圾、虚假信息传播、对教育科学的威胁、对民主的危害以及数字殖民主义等问题。作者基于自身经验提出,伦理行为需要权衡利弊,并主张在充分了解负面影响的前提下审慎使用GenAI。
两位读者回应Wendy Liu关于AI的文章,认为AI确实改变了思考方式,但并未削弱人类的好奇心,反而激发了更多探索。
Google将“偏好来源”功能扩展至AI概览和AI模式,允许用户添加喜爱的网站,使其在AI搜索结果中更突出。新功能还包括来源轮播和“被高度引用”标签,帮助用户找到高质量报道。
Anthropic发布Claude Opus 4.8,重点提升可靠性、诚实性和自主工作流能力,而非单纯追求基准分数。定价保持不变,快速模式大幅降价。
一篇新综述论文指出,自主AI智能体的真正瓶颈并非语言模型本身,而是围绕其构建的软件层。工具、记忆、测试和权限边界将无状态模型转变为可工作的智能体。Deepseek已在北京组建专门的“Harness”团队,其核心公式验证了该论点:模型加Harness等于AI智能体。
Braintrust工程师使用Codex和GPT-5.5加速实验和编程。
本文探讨了开源AI策略的局限性,特别是开放权重模型和开放协议(如MCP)如何被私有参与者捕获价值。通过分析Anthropic收购Stainless(一家生成SDK和MCP服务器的初创公司)的案例,说明了开发者体验层正在被平台巨头整合,形成新的护城河。文章强调,开源的影响高度依赖于其依赖关系,需要从生态系统整体视角分析瓶颈。
Anthropic 发布了 Claude Opus 4.8,相比 Opus 4.7 在编程、代理工作、推理和知识工作方面有所提升。新功能包括努力控制、动态工作流和 Messages API 实时更新。定价不变,标准版每百万代币输入/输出 5/25 美元,快速版 10/50 美元。早期测试显示成本与 GPT-5.5 相当,工具步骤更少。公司还透露了未来路线图,包括 Mythos 级模型和网络安全项目 Glasswing。
《图像帝国》是一部关于当代AI模型中真实与虚拟融合的动画寓言。该片是艾伦·沃伯顿研究项目的一部分,还包括研究论文和一系列附带活动。
NexusCortex 是一个基于 Go 语言构建的稀疏 AI 皮层系统,不同于传统的大型语言模型(LLM)。它采用稀疏计算技术,旨在以更低的计算成本提供高效推理,被称为 Opus 4.8 的潜在替代者。
Hexo Labs 发布了 SIA(Self-Improving AI),这是一个基于 MIT 许可证的开源框架,能够在一个自我改进循环中同时更新代理的框架(scaffold)和模型权重。SIA 由三个 LLM 组件驱动,并在三个不同领域(法律分类、CUDA 内核优化、单细胞 RNA 去噪)的测试中表现出色,结合框架和权重更新优于仅框架更新。论文称 SIA 是首个同时编辑框架和权重的系统,并已开源代码。
本文提出一种相位条件、力感知的框架,用于鲁棒的可变形物体操作。通过FiLM调节的ACT编码器和多模态相位预测器,系统能自主检测并恢复接触故障,将T恤悬挂成功率从56%提升至87%。
本文提出了一种去中心化框架,将大语言模型与声学移动机器人相结合,实现非接触式物体操作。系统利用Whisper语音识别、LLM语义解析和JSON任务调度,将语音指令转换为协调的多机器人行动。在两个基于TurtleBot3的声学机器人上的实验显示,顺序任务成功率为96%,并行任务为86%,同步协作任务为70%,展示了LLM驱动自动化在人机交互中的潜力。
MonoDuo提出了一种利用单臂机器人演示结合人类协作来训练双臂操纵策略的方法。通过在单臂遥操作和角色互换中收集数据,并利用手部姿态估计、图像分割和修复技术生成合成演示,MonoDuo在五项任务中实现了高达70%的零样本成功率,并通过少量微调进一步提升性能。
该论文提出了一种目标感知的自监督预训练与模型集成策略,利用未标记的目标域数据提升医学影像AI在跨设备场景下的泛化性能。在儿科腕部骨折超声评估任务中,该方法在目标域上Dice系数提升超过6%,实现了标签高效且隐私保护的跨设备鲁棒AI。
该研究提出了Embodied3DBench,一个针对视觉语言模型在3D环境中低层级具身空间智能的基准测试,包含6个任务类别和超过21000个问答对。评估了13个模型,发现当前模型在高层次空间推理上表现较好,但在交互导向感知方面较弱。为此,他们合成了130万问答对的训练数据集,微调后显著提升了低层级空间智能。
GAP3D提出了一种模块化的扩散方法,直接将VLM生成的潜在表示对齐到预训练图像编码器的完整补丁级特征空间,从而在保持空间结构化条件信号的同时,使冻结的下游生成模型能够利用VLM作为提示编码器。该方法主要基于通用域图像-文本对训练,避免了对大规模3D数据的依赖,并展现出对多模态提示的零样本能力,尽管目前优先关注高层语义信息。
一项针对14个开源安全护栏模型的全面评估显示,Qwen Guard(4B参数)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表现保守,漏掉多达75%的不安全内容。研究还发现,模型大小与安全检测性能无关,通用型护栏模型优于专用模型。
Aryabhata 2是一个针对竞争性STEM考试(如JEE和NEET)优化的推理语言模型,基于GPT-OSS-20B通过强化学习后训练。它利用PhysicsWallah的内部题库构建高质量课程,并通过逐步增大的rollout组规模来扩展探索。实验表明,Aryabhata 2在多个基准测试中优于基础模型,同时输出令牌减少高达64%。
大语言模型在长文本生成中容易出现幻觉,现有检索增强模型无法保证关键信息靠近输出。本文提出的微宏检索(M2R)框架通过宏观检索粗粒度证据和微观检索关键信息库,显著减少了长文本任务中的幻觉,并采用基于课程学习的强化学习策略进行训练。
本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。
一篇新论文分析了17个大型语言模型(参数规模4.1亿至1000亿以上),发现指令微调系统系统地压缩了语言熵,尤其是在话语和结构维度上,平均放大效应达1,949%至16,853%,峰值可达5,181%至209,675%。复杂标点符号的使用频率被抑制到基线的3.2%至23.2%。这些效应在RLHF下并未恶化。弱干预(lambda=1.0)使崩溃加剧240%,而强控制(lambda=5.0)实现了40.5%的改进,尽管规模劣势达200-1000倍,仍比前沿模型性能高出96.7-98.2%。强控制还带来了15%更高的distinct-4、27%更高的词汇多样性以及78%更低的重复率。研究表明,对齐需要足够的控制强度,而非仅仅是分布平滑。
新框架MechELK利用机制可解释性从大型语言模型中提取隐藏知识。它结合了稀疏自编码器、因果探针和表征工程,实现了84.7%的准确率,超越了现有方法。该框架在模型给出错误或回避性回答时尤其有效。
该研究提出了一种模块化框架,用于生成可发音、类型学合理且语义结构清晰的人工词汇。框架从PHOIBLE数据库中采样音位清单,在可互换的音系语法(确定性、OT和MaxEnt)下生成词形,并通过Swadesh-Leipzig-Jakarta本体分配含义。评估表明,概率语法在音位连贯性和类型学真实性方面始终优于确定性和随机基线。
随着大型语言模型(LLM)影响力的扩大,理解其决策过程变得至关重要。本文提出通过构建低成本、可广泛应用的线性探测工具,检测LLM嵌入中概念的存在与否,从而揭示模型“思考”的内容。研究展示了概念界定、探测训练与跨上下文追踪的完整流程,并在三个LLM上对四个概念进行了验证,为未来大规模监控模型行为奠定了基础。
多模态学习常面临模态不平衡问题,即收敛快的模态主导优化,其他模态训练不足。现有方法大多通过加强弱模态或调整梯度来补偿优化速率差异,但可能牺牲强模态的优化能力。本文提出平衡多模态标签重塑(BMLR),首次从标签端设计促进多模态平衡。BMLR重塑跨模态标签空间以均衡各模态的映射难度,从而促进模态交互并为每个模态注入更丰富的类间信息。实验表明,BMLR能持续提升多模态性能,且与多种模型设计兼容。
宏基因组分类注释旨在识别环境样本中DNA片段的微生物起源。传统方法依赖序列相似性,受限于微生物多样性和参考数据库的不完整性。TaxDistill提出一种知识蒸馏框架,利用500M参数的基因组基础模型GenomeOcean作为教师网络提取深层语义特征并生成基于置信度的软标签,将软标签信息蒸馏到轻量级学生网络中,有效减少初始检索工具引入的标签噪声。在七个CAMI2数据集上的实验表明,TaxDistill在多数场景下优于现有基线,例如在胃肠道数据集上将MMseqs2的F1分数从0.763提升至0.941。
PrismFlow提出了一种新的流匹配方法,通过科普曼启发的动力学专家来修正标准流匹配中的估计器平滑问题,从而恢复时间序列中的高频率和精细结构。该方法在多个基准测试中取得了最先进性能,Context-FID提升15.6%,判别分数提升38.6%。
本文提出COM方法,通过在初始化和训练阶段引入几何约束,保留时间序列标记的连续性和序数性,显著提升基于令牌的时间序列大语言模型(TS-LLM)的性能。实验表明,COM在多个基准上取得一致改进和强泛化能力。
提出TRACE,一种轨迹感知的LLM推理代理,用于分子先导优化,通过将工具选择建模为序列决策问题,实现前向优化的结构约束改进,在ADMET优化任务中取得更高成功率、更大性能提升和更高有效性。
最近研究表明,强化学习(RL)比监督微调(SFT)更能保持大语言模型的先前能力。本文从机制层面延伸,引入差分电路脆弱性度量,衡量微调中电路退化程度。在Qwen2.5-3B-Instruct科学问答实验中发现,SFT适应目标任务更快,但造成更大的电路破坏和遗忘,而RL保留更多基础电路,但任务适应较慢。结果表明电路保留有助于解释RL对灾难性遗忘的鲁棒性。
本研究利用TradeArena测试平台,分析大型语言模型(LLM)交易代理在金融决策中的行为对齐与表示动态。研究发现失败前的可测量迹象:规划嵌入偏离正常状态,有效秩收缩。结构化的风险反馈可作为外部对齐信号,但并非通用性能增强器。此外,51只股票的日内实验揭示了相关性盲点:LLM理由常证明对耦合资产的集中敞口是合理的。
本文研究知识编辑方法(如ROME和MEMIT)在Transformer模型中的内在机制。作者发现尽管每次编辑修改不同的权重,但所有编辑都依赖于一个共同的权重子集。通过训练一个紧凑的二进制掩码,他们成功逆转了训练集上80%的编辑和测试集上超过70%的编辑,验证了不同编辑共享共有功能结构。掩码通过消除后期层的过度注意来逆转编辑,且注入该掩码会使编辑成功率从98%骤降至38%,表明该机制是编辑成功的必要条件。研究发现编辑实际上抑制而非覆盖知识,这解释了ROME和MEMIT无法将更改传播到相关事实的原因。该发现有助于检测和防御未授权编辑。
VFEAgent是一个端到端多智能体系统,可直接从输入图像和问题描述自动完成有限元分析(FEA)建模与仿真。它结合了多模态视觉语言多智能体管道和验证优先的代码合成框架,通过ReAct推理提取结构化FEA规范,并具有自调试和回退机制以确保可执行性和物理有效性。实验表明,VFEAgent在生成完整且物理有效的仿真方面成功率很高,在可靠性和正确性上优于基于LLM的基线方法,有望将工程师从繁琐的手动分析中解放出来。
一项新研究利用Anthropic和OpenAI的五种前沿大语言模型作为智能体策展人,在自包含工作空间中自动进行表型注释。实验表明,这些智能体的一致性达到了人类策展人的变异范围,并显著优于传统NLP工具,有望解决表型本体注释中人工依赖强、难以规模化的问题。
本文提出正交概念擦除(OCE),通过乘法参数更新实现精确的概念擦除,同时保持扩散模型的生成能力,支持多概念擦除,速度快。
该论文通过实验评估了大型语言模型(LLM)生成的科学论文评审与人类评审的对齐程度,发现对齐有限且因提示和模型而异。研究还发现,作者利用LLM评审进行迭代修改可显著提升论文评分,最多35%的论文分数得到统计显著提升。
认知范畴变换器(CCT)是一种306M参数的架构,通过在预训练的GPT-2 Small骨干网络上添加源自范畴论和认知科学的组件,在WikiText-103上实现了21.27的验证困惑度,相比微调基线降低2.92(12%)。消融实验证实,84%的改进来自GT-Full单纯消息传递。研究还发现了结构/一致性区分模式。
本文提出行为感知辅助修正,以稳定离线策略时序差分学习。通过用行为贝尔曼矩阵替代辅助协方差矩阵,作者引入BA-TDC和BA-TDRC算法。理论分析证明了不动点保持和几乎必然收敛。在标准基准上的实验表明,行为感知替换可提高性能,但正则化对稳健结果必要。
本文提出了一种名为STHTD-MP的行为诱导镜像近端时间差分方法,通过用行为策略贝尔曼矩阵的对称部分替换协方差度量,改善了离策略预测的收敛速度。理论分析和数值实验表明,该方法在多项基准测试中优于现有的GTD2-MP方法。
OpenAI 推出 Rosalind Biodefense,为经过审查的开发者及美国政府合作伙伴提供 GPT-Rosalind 的受信访问,助力生物防御、公共卫生与大流行病防范。
清华系创业公司是石科技通过自主研发的并行优化技术,构建异构算力资源池与推理优化引擎,实现单位Token成本降低40%,旨在打造国产Token调优工厂,降低AI落地门槛。
Anthropic在65亿美元H轮融资公告中透露,其年化收入已超过470亿美元,较4月份的300亿美元大幅增长。该公司此前在2025年底为90亿美元,2026年2月为140亿美元,显示出惊人的增长速度。文章还提到了一家客户因未设置使用限制而单月花费5亿美元的轶事。
Anthropic发布了Claude Opus 4.8,定位为对前代产品的适度但切实改进。主要亮点包括诚实性提升(减少无依据断言,代码错误遗漏率降低四倍),以及支持对话中修改系统提示等新功能。定价未变,但快速模式价格显著降低。
Claude最新旗舰Opus 4.8发布,部分能力超过Mythos,支持动态工作流,可拆解任务给数百个子智能体并行执行,人类无需频繁检查。诚实性大幅提升,代码缺陷漏报率降至前代四分之一。
llm-anthropic 0.25.1 版本新增对Claude Opus 4.8模型的支持,为有权限的组织提供快速模式选项,并调整了各模型的默认最大令牌数为模型最大输出而非8192。
新研究发现,大型语言模型在训练过程中会吸收明确标记为假的陈述,即使它们被明确警告为假。这种现象被称为“否定忽视”,可能导致模型产生幻觉。实验表明,在合成文档微调后,模型对虚假声明的“信念率”从2.5%飙升至92.4%。
Anthropic 推出 Claude Opus 4.8,并附带两项 Claude Code 更新:动态工作流可协调多达 1000 个子代理并行工作,以及更便宜的快速模式,输出速度提升 2.5 倍。两者均为研究预览版。
阿塞拜疆电信公司Azercell与AWS生成式AI创新中心合作,在Amazon SageMaker AI上构建了针对阿塞拜疆语的大语言模型,通过自定义分词器、分布式训练和Liger Kernel优化,实现了23%的训练吞吐量提升、58%的GPU内存峰值降低和2倍的分词效率提升。
Anthropic推出Claude Opus 4.8,该模型在多数基准测试中击败了GPT-5.5和Gemini 3.1 Pro,并且识别自身编码错误的频率是前代模型的四倍。同时,Anthropic还引入了动态工作流功能,可启动数百个并行子代理处理代码库迁移等任务。
并非每个新模型都像宣传的那样出色。我们的追踪器将每个版本与同类模型进行对比,帮助您了解哪些模型值得关注。本文总结了2026年至今的重大模型发布,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(预览版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,并阐述了它们的特点与意义。
Claude Code 现支持一键切换模型、自带密钥(BYOK),兼容 Anthropic 和 OpenAI 标准。起价每月5美元,帮助用户绕过服务中断、速率限制及超额费用。
法国初创公司Mistral AI在Digital Realty的巴黎南园区获得了10兆瓦的计算能力,以扩展其AI基础设施。
Anthropic 发布了其旗舰模型 Opus 4.8,新功能包括用户可控制 Claude 的努力程度、动态工作流支持大规模编码、快速模式价格降至原来的三分之一。模型在基准测试中领先 GPT-5.5 和 Gemini 3.1 Pro,但在终端编码方面仍落后于 OpenAI。此外,模型在诚实性、自主支持和减少欺骗方面有显著改进。
Anthropic 的最先进 Opus 模型 Claude Opus 4.8 在 Amazon Bedrock 和 AWS 上的 Claude Platform 正式可用。该模型在编码、代理任务和专业工作方面带来显著改进,具有更强的自主性和一致性,适合长期生产工作负载。
Anthropic 于周四发布 Claude Opus 4.8,该模型在训练中强调“诚实”,能够更频繁地标记工作中的不确定性,减少无依据的断言。评估显示,其代码缺陷遗漏率比前代降低约4倍。此外,用户可控制任务投入的努力程度,以及引入“动态工作流”功能,支持并行运行数百个代理。
Anthropic 发布了 Claude Opus 4.8,这是其旗舰模型的最新版本。该版本在基准测试、协作能力、诚实性等方面均有显著提升,并引入了努力程度控制、动态工作流等功能。Opus 4.8 在编码、代理任务、推理和知识工作测试中表现优于前代,且价格不变。同时,Anthropic 宣布了多项新功能和未来计划,包括即将推出的更高智能模型。
一位没有开发经验的失业者,利用AI工具和无代码平台Base44,在一夜之间创建了One Tile网站,并在Reddit上获得了20万浏览量。
法拉利首款电动车Luce,由乔尼·艾维参与设计,外观颠覆传统,引发热议。本期Vergecast讨论了其设计、技术以及对电动车市场的影响,还涉及AI的普及与公众反感等话题。
波士顿儿童医院采用OpenAI技术改善患者护理、减轻运营负担,并已成功诊断40多例罕见疾病。
ArchToCode是一款从代码和GitHub生成AI Mermaid图表的工具。
教皇利奥十四世发布了关于人工智能的通谕《伟大的人性》,警告这一快速发展的技术的用途与误用。作者弗朗辛·普罗斯表示感激,并认为硅谷不应轻视这一重要文件。
亚马逊取消了内部AI使用排行榜,原因是员工通过无意义的AI任务来虚增分数,导致公司云成本大幅上升。
喜剧演员钱信伊在哈佛大学第375届毕业典礼上,以幽默却严肃的方式向毕业生发出关于人工智能的警告。
Drafted是一款AI工具,可让用户即时设计家居空间。
StudySong是一款AI工具,能够将学习笔记或任何文本转化为完整的歌曲,支持PDF上传,所有处理在本地完成,保护隐私。
本文以教皇利奧十四世關於人工智能的通諭為引子,幽默而尖銳地列舉了科技界40個最令人沮喪的問題,從收不到的一次性密碼到無用的客服聊天機器人,批評科技公司忽視人性化設計。
Pubflow推出一个统一系统,集成了身份验证、后端逻辑和基础设施,消除了构建AI应用时拼接代码的需求。它支持多种数据库和编程语言,并提供生产就绪的启动套件。
微软推出重新设计的Microsoft 365 Copilot,加载速度提升两倍,界面更简洁。新功能包括渐进式显示和直接格式化文本。
OperatorOS 是一个私密的 AI 个人运营器,通过聊天界面管理个人任务。开发者正在寻找 5 名诚实的 beta 测试者。
苏珊·奥曼博士撰文呼吁公众参与AI讨论,指出尽管政府、宗教领袖和科技巨头在辩论AI未来,公众却被排除在外。她向英国议会AI小组提供证据,显示公众对AI的担忧两年内上升10%,91%的人认为公平应优先于经济利益。
一张泰国警察穿着华丽节日服装围捕毒贩的照片在全球媒体疯传,但经调查发现,该图片是由警局Facebook账号管理员使用AI生成,目的是展示更友好的形象。
通过19世纪铁路热潮与当今AI投资的对比,揭示资本密集型技术如何重塑金融体系。铁路催生了债券市场和现代金融,而AI正重复这一过程。历史表明过度投资和全球金融牵连可能导致危机,AI投资者需警惕类似风险。
本文分析了在太空建设AI数据中心的可行性,包括其物理优势(持续的太阳能、被动辐射冷却、真空光速通信)和工程限制(散热、辐射加固、训练同步、维护)。关键假设是星舰的发射成本。目前多个初创公司和谷歌、SpaceX等巨头已启动试点项目。近期的投资影响有限,但值得关注。
OpenAI首席执行官Sam Altman改变了早前关于AI将导致大量失业的预测,表示“就业末日”可能不会出现。他承认对AI影响就业的直觉有误,并指出人类工作的互动价值不可替代。尽管其他行业领袖仍警告AI将颠覆就业市场,Altman的言论反映了对AI成本、采用速度及公众舆论的综合考量。
文章通过历史周期(如爱因斯坦的奇迹年与电力革命)类比当前AI发展,指出突破性理论发现后必然跟随漫长的应用期,其间旧岗位消失但新岗位涌现。作者认为AI正处于理论突破阶段,后续应用将创造更多就业机会。
加州大学伯克利分校UCCL团队发布mKernel,将节点内NVLink、节点间RDMA和密集计算融合到单个持久CUDA内核中,旨在减少AI工作负载中的通信开销。研究显示通信可占用前向传播43.6%和训练总时间32%的时间。mKernel提供五种融合内核,支持ConnectX-7和AWS EFA后端。
ChatGPT和其他AI工具越来越多地引用埃隆·马斯克的AI生成百科全书Grokipedia,这引发了对其准确性和传播错误信息的担忧。尽管目前Grokipedia在引用中的占比很小,但其使用率正在上升,尤其是在ChatGPT中,它往往被当作主要来源,而谷歌的AI产品则将其作为辅助参考。专家警告称,使用AI生成且缺乏人类监督的Grokipedia作为来源,可能导致偏见、错误信息甚至数据中毒风险。
本周,AI与工作的冲突在四个司法管辖区同时爆发:维基百科编辑因裁员组织罢工,亚马逊员工将内部AI评级系统玩坏,中国法院开始执行禁止以AI为由裁员的规定,英国智库呼吁员工在AI部署中拥有发言权。同时,前沿实验室继续深入政府合作。
本文是 PyTorch 性能分析系列的第一篇,从最简单的矩阵乘加操作开始,引导读者学习如何使用 torch.profiler 进行性能分析,包括设置分析器、解读分析表和追踪数据,以及理解 CPU 和 GPU 活动之间的时间关系。文章还讨论了预热和优化开销等问题。
尽管苹果一直强调本地AI的隐私优势,但最新报告显示,苹果计划借助谷歌和英伟达的云端算力为Siri注入Gemini能力。这种混合架构或能解决本地AI模型在性能上的不足,但也意味着对用户隐私的权衡。
麻省理工学院与马萨诸塞州宣布计划建立量子系统实验室(QSL),获得州政府2500万美元投资,为全州研究人员提供共享量子工具箱,加速量子研究、创新和增长。
滑铁卢大学学生在谷歌资助的未来实验室中开发了多个AI原型,包括日语学习应用Kanji Garden、手语学习工具SignFluent和健身指导工具MuscleMemory,旨在重塑教育和工作的未来。
了解如何通过向数据中注入误导信息来保护个人数据不被AI模型抓取和使用。
光帆科技与腾讯出行服务合作,将AI全感穿戴设备接入出行平台,该设备曾登顶京东热卖榜并售罄,现已开启新一轮预售。
工会大会支持的IPPR报告提出“工人支持税”,以增强员工在职场AI采用中的影响力,确保利益公平分享。
英国政府计划从明年起在边境部署AI面部识别技术,以检测冒充未成年人的成年移民。该技术将分析照片估算年龄,但人权组织批评其不成熟且可能侵犯儿童权利。
Xerolith是一个工作平台,通过分层递归架构实现持久身份、自主信念形成和独立于底层的知识整合。系统在80多天的连续运行中,将2,817个原始条目压缩为1,218个信念,并支持完整的谱系追踪和内部对齐。
本文提出了一种基于递归神经网络和一步预测控制的数据驱动方法,用于线弧增材制造(WAAM)中的焊道几何控制。通过在线更新模型以应对热条件变化,显著提高了焊道高度和宽度的一致性。
研究者提出了一种多分辨率端到端深度神经网络,用于自动驾驶中延迟与安全性的平衡。通过在运行时选择输入分辨率,该网络在CARLA模拟中相比固定分辨率模型改善了车道入侵、闯红灯和碰撞等安全指标。
文章探讨了“一次性软件时代”的概念,认为AI生成的代码应被视为可丢弃的,就像工业革命中的家具一样。作者通过一个实际案例展示了如何用AI重构代码,并提出了“一次性代码宣言”,强调代码需满足意图、要求和安全性。
本视频探讨了在围棋领域对抗超人类AI的策略和方法,包括利用AI的弱点、创新战术以及理解AI的决策模式。
Anthropic在H轮融资中筹集650亿美元,估值达9650亿美元。年化收入超过470亿美元,CFO Krishna Rao透露。公司计划投资安全研究、计算能力和扩展Claude产品线。
维基媒体基金会在坐拥2.96亿美元储备金并通过向AI公司出售数据获利的情况下,解雇了长期员工和整个社区技术团队。这一行为激怒了志愿者编辑,他们威胁发起罢工。文章探讨了CEO的AI妄想症如何扭曲组织优先事项,以及AI行业对人力判断的替代可能导致的恶性循环。
本文探讨了AI如何影响软件工程面试,分析了不同类型的面试(家庭作业、现场练习、演讲、实际工作)在信号质量和公司成本两个维度上的表现。作者认为AI使家庭作业过于简单,降低了现场编码的相关性,建议限制AI在面试中的使用以保持信号质量,并借鉴传统教育模式的经验。
Shift是一家AI训练初创公司,提供免费家庭清洁服务,但会在清洁过程中记录清洁工的动作,用于训练机器人。公司表示,这些训练数据的价值足以覆盖服务成本。该服务目前仅在纽约可用,但很快将扩展到旧金山、伦敦、苏黎世和慕尼黑。
人工智能公司Anthropic宣布获得650亿美元融资,估值达9650亿美元,超越OpenAI成为全球最有价值的AI初创企业。其编码助手等产品被大型企业广泛采用,推动公司快速成长。
该项目紧随Anthropic尚未发布的Mythos AI网络安全模型,该模型发现了软件系统中的严重安全漏洞。
这家快速发展的供应商获得新一轮融资,凸显了AI编码市场的强劲势头。
下个月的翠贝卡电影节将首映一部全AI生成的电影《紫罗兰之梦》。这部75分钟的影片虚构再现了伊朗政府1月大规模杀害抗议者的事件,所有人物和图像均由AI创建。影片制作成本仅2000美元,由两位伊朗裔兄弟使用多种AI工具创作。
YouTube为Premium订阅者推出新功能,优化播客收听体验,包括音频优先的“随身模式”、自动变速播放以及AI播客推荐。