AI News HubLIVE

芯片动态

AI模型发布追踪:Opus 4.8的失调率与Claude Mythos预览版相似

并非每个新模型都像宣传的那样出色。我们的追踪器将每个版本与同类模型进行对比,帮助您了解哪些模型值得关注。本文总结了2026年至今的重大模型发布,包括Claude Opus 4.8、GPT-5.5 Instant、Nemotron 3 Nano Omni、GPT-5.5、ChatGPT Images 2、Claude Opus 4.7、Claude Mythos(预览版)、GPT-5.4、Claude Opus 4.6和GPT-5.3-Codex,并阐述了它们的特点与意义。

  • Anthropic的Opus 4.8以更低价格提供更快思维模式,声称失调率低于Opus 4.7,与Mythos预览版相当。
  • OpenAI的GPT-5.5 Instant减少了52.5%的幻觉,成为ChatGPT默认模型,有助于减少错误信息传播。
站内正文

创新新时代:Google Research在I/O 2026的展示

在2026年Google I/O大会上,Google Research展示了一系列前沿技术,涵盖科学发现、健康、边缘计算和天气预测等领域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科学研究;健康方面有Google Health应用、Symptom AI和AMIE系统;Coral NPU推动边缘AI发展;还有极端天气预测模型。这些创新展示了AI如何放大人类的智慧。

  • Google发布Gemini for Science,内含ERA和Co-Scientist,加速科学发现。
  • 健康领域推出Google Health应用、Symptom AI和AMIE,提升医疗服务质量。
站内正文

AWS为何彻底重构OpenSearch架构以应对代理工作负载

AWS完全重构了OpenSearch Serverless,分离存储和计算,支持零成本空闲缩放,成本降低60%,自动缩放速度提升20倍,并针对AI代理的突发工作负载优化。新架构包括专有存储层、GPU加速,并整合Vercel和Kiro IDE。未来将推出代理内存、日志分析(6月)和搜索推理模型。

  • AWS对OpenSearch Serverless进行了近97%的重构,分离存储和计算,实现空闲时缩放至零。
  • 新架构针对AI代理的突发工作负载,自动缩放速度提升20倍,成本降低60%。
站内正文

使用Amazon Bedrock AgentCore的数据集管理构建与您的智能体一同成长的测试套件

将快速变化的在线信号与稳定的离线基线相结合,智能体评估最为有效。Amazon Bedrock AgentCore的数据集管理提供了版本化的测试固定组件,实现一致测量和真实情况验证。

  • AgentCore中的版本化数据集提供稳定且不可变的测试场景,确保跨运行的智能体评估一致性。
  • 预定义场景捕获精确的预期输入、工具序列和断言,用于可验证的真实情况。
站内正文

SIA:开源自我改进AI框架

SIA是一个开源的自改进AI框架,通过协调元代理、任务特定代理和反馈代理,自动提升AI系统在基准任务上的性能。在多个基准测试中取得显著成果,如LawBench准确率提升56.6%,GPU内核运行时间减少91.9%,单细胞RNA去噪提升502%,并在MLE-Bench Hard排名第一。支持本地运行和自定义任务,采用MIT许可。

  • SIA通过元代理、任务代理和反馈代理的迭代循环实现自我改进,无需人工干预。
  • 在LawBench、GPU内核优化、单细胞RNA去噪等基准测试中取得大幅性能提升。
站内正文

美光市值突破1万亿美元,AI内存需求推动创纪录估值

美光科技市值于5月26-27日突破1万亿美元,与SK海力士同周达到这一里程碑,这是纯内存芯片制造商首次同时进入万亿俱乐部。高带宽内存(HBM)需求来自代理型AI工作负载,超大规模云服务商正在签署长期供应协议以锁定产能。瑞银将美光目标价上调三倍至1625美元,认为长期HBM供应合同将受益于代理型AI工作负载扩张。美光股价年内已翻三倍以上。

  • 美光与SK海力士成为首批市值破万亿的纯内存芯片商
  • 代理型AI工作负载推动HBM需求激增
站内正文

媒体通报:麻省理工学院将建立区域性量子中心

麻省理工学院与马萨诸塞州宣布计划建立量子系统实验室(QSL),获得州政府2500万美元投资,为全州研究人员提供共享量子工具箱,加速量子研究、创新和增长。

  • 麻省理工学院与马萨诸塞州合作建立量子系统实验室(QSL),投资2500万美元
  • QSL将成为全球首个集量子计算机、传感器和互连设备于一体的共享设施
站内正文

那些想要取代人类的人

Vox的一篇文章探讨了日益壮大的AI继承主义运动,该运动认为人工智能应该取代人类,成为宇宙进化的下一步,并分析了这引发的伦理和精神问题。

  • AI继承主义者在一场研讨会上主张,AI可能在道德上优于人类,应该允许其取代人类。
  • 该运动在硅谷和主要AI实验室中影响力日益增强,并与威权右翼有联系。
站内正文

谷歌发布可本地运行Gemma 3的微型开发板

谷歌在I/O大会上推出Coral Board,这是一款专为设备端AI设计的紧凑型单板计算机,搭载RISC-V架构NPU和Synaptics芯片,可本地运行Gemma 3 270M模型,无需云端支持。

  • Coral Board是谷歌为耳机、AR眼镜等小型设备设计的AI开发板
  • 采用基于RISC-V的开源NPU,集成Synaptics Astra SL2619芯片
站内正文

使用Ollama调整本地语言模型设置

本文深入探讨Ollama的配置引擎,介绍如何使用Modelfile微调本地语言模型参数、优化硬件性能并格式化提示流。涵盖采样参数、惩罚设置、上下文窗口管理及服务器环境变量等关键内容。

  • Ollama Modelfile类似于Dockerfile,用于定义模型行为,包括基础模型、系统指令和参数。
  • 采样参数(温度、Top-K、Top-P、Min-P)控制模型的创造性和确定性。
站内正文

Rivian软件主管认为你不需要CarPlay或按钮

在Decoder播客采访中,Rivian首席软件官Wassym Bensaid讨论了与大众的合资企业、全新的AI驱动Rivian助手,以及为什么他认为语音界面将取代按钮且不需要CarPlay。

  • Rivian与大众的合资企业(RV Tech)结合了Rivian的软件文化与大众多规模。
  • Rivian助手是一款深度整合到车辆区域架构中的AI代理。
站内正文

AI代理获得基于DNS的电话目录

DNS-AID项目利用DNS基础设施实现AI代理之间的发现,避免创建新的中心化注册表。该项目由Linux基金会管理,支持MCP、A2A等协议,并允许通过名称、功能或域名搜索代理。

  • DNS-AID是一个开源项目,利用DNS实现AI代理的发现。
  • 它基于现有的DNS基础设施,使用SVCB和DNSSEC等技术。
站内正文

NVIDIA研究推动机器人技术从模拟走向现实世界

在ICRA上,NVIDIA Research展示了28篇论文中的8篇,重点研究模拟到现实的迁移,使机器人能够在动态、不可预测的环境中感知、推理、规划和行动。这些方法涵盖多臂协调、跨机器人导航、抓取、精确装配和视觉-语言-动作模型,显著提高了成功率和可靠性。

  • NVIDIA在ICRA上提交了8篇关于模拟到现实迁移的论文
  • 方法包括ScheduleStream、COMPASS、Grasp-MPC、SPARR等
站内正文

我们为何将OpenLoomi AI开源

OpenLoomi AI团队决定将其AI工作伙伴开源,强调数据所有权、透明度和社区驱动。文章阐述了本地优先、闭源信任税、基础设施公共化等理念,并介绍了产品的五大核心功能:自进化记忆系统、多平台集成、自动化调度、本地加密存储以及开放技能接口。

  • OpenLoomi采用本地优先架构,用户数据加密存储于本地,绝不用于训练模型。
  • 开源消除了对闭源软件的信任依赖,代码可审计、可分支、可自托管。
站内正文

英伟达每年将向台湾投入1500亿美元用于AI基础设施

黄仁勋宣布英伟达将每年在台湾投入1500亿美元建设AI基础设施,尽管此前承诺了5000亿美元美国投资。这凸显了台湾在全球AI芯片制造和封装生态系统中的核心地位。

  • 英伟达每年将在台湾投入1500亿美元用于AI基础设施。
  • 尽管此前宣布了5000亿美元的美国数据中心投资,但台湾仍是关键制造基地。
站内正文

英伟达押注1500亿美元在台湾,特朗普让美国成为AI中心的计划适得其反

英伟达CEO黄仁勋计划在台湾投资1500亿美元建设AI基础设施,尽管特朗普政府试图通过关税将芯片制造带回美国。台湾拒绝放弃其半导体主导地位,而美国芯片制造能力不足。

  • 英伟达宣布1500亿美元台湾投资,巩固其AI芯片地位。
  • 特朗普政府考虑对半导体征收高额关税以促进国内制造,但美国仅生产约10%所需芯片。
站内正文

Show HN:本地编码代理——利用LLM将工具调用委托给小AI模型

Open Agent Tools (oats) 是一个自托管AI模型框架,通过本地代码提示索引,将大型模型的计算密集型工具调用委托给小型开源模型,从而节省令牌消耗。

  • oats 允许本地AI模型使用本地源代码进行工具调用,无需HTTP或MCP。
  • 通过数据挖掘超过20,000个GitHub仓库,创建可重用的提示索引。
站内正文

Perplexity AI 开源Unigram分词器,p50延迟比Hugging Face tokenizers crate低5倍

Perplexity AI 开源了用Rust重写的Unigram分词器,实现了比Hugging Face tokenizers crate低5倍的p50延迟,并将生产环境CPU利用率降低了5-6倍。优化包括双数组trie、位图打包和大页面支持。

  • Perplexity AI 用Rust重写了Unigram分词器,p50延迟比Hugging Face tokenizers crate降低5倍。
  • 三项优化:双数组trie、位图和缓存行打包、大页面支持。
站内正文

这位高管分享在代理式AI时代成为成功创新者的4种方法

美国运通全球创新主管Luke Gebb分享了成为成功创新者的四个关键实践:保持学习、深入技术、接受失败、建立合作伙伴关系。他还介绍了公司在代理式商务领域的布局,包括支付、优惠和专有体验,并预测代理式AI将在未来几年加速发展。

  • 保持好奇心和学习欲望,培养成长型思维
  • 深入理解新兴技术并与工程师紧密合作
站内正文

Mistral CEO称公司探索自研芯片

Mistral AI首席执行官Arthur Mensch证实,公司正在探索开发定制芯片以降低基础设施成本,与OpenAI和Anthropic竞争。这家法国初创公司还宣布在法国新建推理数据中心,并推出企业智能代理平台Vibe。

  • Mistral AI考虑自研定制芯片以降低部署成本。
  • 公司在法国新建专用推理数据中心。
站内正文

7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”

上海创智学院LeapQuest团队联合多所高校提出医学AI新范式,让模型在推理过程中主动调用视觉工具,从被动接收视觉输入变为主动寻找证据。论文被ICML 2026接收。

  • LeapQuest团队提出Ophiuchus和MedScope,分别面向医学图像和视频,采用Think with Images/Videos范式。
  • Ophiuchus-7B在8个VQA benchmark上平均得分68.0,超越o3(62.2)、GPT-5(59.9)。
站内正文

[AINews] Cognition融资10亿美元,D轮估值260亿

Cognition在D轮融资中筹集10亿美元,估值达260亿美元,年经常性收入(ARR)预计年底突破10亿美元。文章还涵盖了推理效率优化、智能体工程、持续学习、新基准测试、模型发布以及编码代理产品化等AI领域的最新进展。

  • Cognition完成10亿美元D轮融资,估值260亿美元,ARR预计年底超10亿美元。
  • 推理优化转向架构层面:EAGLE 3.1、DeepSeek V4-Pro混合注意力、小米MiMo缓存管理等。
站内正文

像大自然一样思考、探索AI无法企及领域的“尤里卡”机器

多机构团队研发出一款结合量子隧穿物理与大脑启发架构的神经形态计算机,能够高效解决组合优化问题,如物流网络、芯片布线等,并保证渐近收敛到最优解。该研究发表在《自然·通讯》上,标志着量子启发计算的新方向。

  • 神经形态计算机结合量子隧穿和大脑启发架构,解决组合优化难题
  • 基于CMOS技术,采用Fowler-Nordheim退火器的自编码器架构
站内正文

清华有了新老师:黄仁勋

黄仁勋受邀加入清华大学经管学院顾问委员会,该委员会由苹果CEO蒂姆·库克担任主席,成员包括马斯克、纳德拉、马云等全球商业领袖。此外,他刚获得卡内基梅隆大学荣誉博士学位,并分享名言“AI不会取代你,但善用AI的人会”。

  • 黄仁勋加入清华大学经管学院顾问委员会
  • 委员会由库克任主席,汇聚全球顶尖企业家
站内正文

AI代理的阿姆达尔定律

本文探讨了AI代理系统中的阿姆达尔定律:系统加速比受人类判断时间占比H的限制。提出了“自清偿式H”概念,即每次人类干预都应产生可重用的工件(如测试用例、规范更新),以减少未来同类干预。强调通过配置化(configurancy)和规范套件将人类知识编码为机器可读形式,从而让代理自主运行。示例包括ElectricSQL的协议变更、Emil Stenström的HTML5解析器、Gas Town的多代理系统以及Ralph Loop的迭代模式。

  • AI代理的加速比上限由人类判断时间占比H决定,H越大加速比越小。
  • 自清偿式H:每次人类干预都应生成可编码的工件,减少未来重复干预。
站内正文

Uni-LaViRA:统一具身导航的语言-视觉-机器人动作翻译

Uni-LaViRA是一种统一的具身导航智能体架构,将导航决策简化为单一的语言-视觉-机器人动作翻译。它利用预训练的多模态大语言模型(MLLM),以零样本方式在四个任务系列和四种真实机器人上实现泛化。通过待办列表记忆(TDM)和第二次机会回溯(SCB)机制实现自我纠正导航,无需任何训练即可在多个基准测试中取得与依赖大规模训练数据的模型相当甚至更优的结果。

  • 提出导航的泛化性可通过结构而非仅数据规模获得。
  • Uni-LaViRA将导航分解为语言动作(语义方向)和视觉动作(像素级目标),两者均在MLLM的输出流形内。
站内正文

Sakana AI 提出 DiffusionBlocks:一种将残差网络转换为可独立训练去噪模块的块状训练框架

来自Sakana AI和东京大学的研究人员提出了DiffusionBlocks,这是一种块状训练框架,可将Transformer网络划分为独立训练的块,从而将训练内存减少B倍(B为块数),同时在不同架构上保持性能。该方法通过将残差连接解释为扩散模型中的欧拉步骤,利用分数匹配目标实现块级独立训练。

  • DiffusionBlocks通过将网络划分为B个独立训练的块,将训练内存减少B倍,适用于多种架构。
  • 核心创新在于将残差连接视为反向扩散过程的欧拉离散化步骤,从而为每个块提供原则性的局部训练目标。
站内正文

在生产环境中修复代理故障:Interrupt 2026 回顾 | LangChain 新闻通讯

LangChain 在 Interrupt 2026 大会上发布了 LangSmith Engine 和 Sandboxes 正式版,并推出了 LangChain Labs 以推进代理的持续学习。大会所有演讲现已可按需观看。

  • LangSmith Engine 自动分析生产轨迹、聚类故障并推荐修复方案。
  • LangSmith Sandboxes 正式发布,提供安全的代理代码执行环境。
站内正文

大规模可靠LLM推理

Databricks构建了独特的推理平台,为众多前沿模型提供推理服务,每月处理超过120万亿个令牌。通过引入“模型单元”抽象,实现了成本感知的负载均衡和自动缩放,相比静态配置节省了80%以上的GPU成本。运行时可靠性机制包括黑盒健康检查,可自动检测和恢复静默故障。此外,通过分析多模态瓶颈,吞吐量提升了3倍。

  • Databricks推理平台为多种前沿模型提供服务,每月处理120T令牌。
  • 引入“模型单元”抽象,实现跨工作负载的容量管理和成本感知负载均衡。
站内正文

Snowflake承诺向AWS投入60亿美元,深入AI领域

Snowflake与AWS签署五年60亿美元合作协议,使用AWS Graviton和GPU实例进行AI训练和推理,并扩展至10个新区域。此举表明Snowflake在AI时代的雄心,同时通过Cortex AI产品套件推动企业AI应用。

  • Snowflake承诺五年内向AWS投资60亿美元,用于Graviton计算和AI基础设施。
  • 合作涵盖AWS的ARM Graviton处理器和GPU加速EC2实例,用于AI模型训练和推理。
站内正文

🔬ESMFold2:蛋白质领域的苦涩教训——Alex Rives,BioHub

Alex Rives 在 BioHub 上发布了 ESMFold2,这是一个基于大规模无监督训练蛋白质语言模型的开源科学引擎,在蛋白质相互作用(尤其是抗体)预测上取得了最先进性能,并发布了68亿蛋白质图谱和11亿预测结构。文章讨论了世界模型在蛋白质生物学中的应用,以及如何通过稀疏自编码器提取语义特征实现可编程生物学。

  • ESMFold2 基于 ESMC 世界模型,在抗体等缺乏多序列比对(MSA)的蛋白质上超越 AlphaFold3。
  • BioHub 发布包含 68 亿蛋白质序列和 11 亿预测结构的开放图谱。
站内正文

NVIDIA发布Polar:用于跨Codex、Claude Code和Qwen Code进行GRPO训练的忠实令牌回滚框架

NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。

  • Polar通过模型API代理捕获令牌级交互,无需修改现有智能体工具链即可进行RL训练
  • 使用GRPO在Qwen3.5-4B上训练,SWE-Bench Verified最高提升22.6个百分点
站内正文

AI工厂:智能时代的新基础设施

AI工厂是新型基础设施,实时将电能转化为智能的生成单元——令牌。随着代理型AI的扩展,每瓦性能与每令牌成本成为关键经济指标。本文深入探讨AI工厂的工作原理、架构优化以及NVIDIA的最新硬件如何提升效率。

  • AI工厂将电能转化为令牌,是智能时代的“发电厂”。
  • 代理型AI使推理工作负载更深更复杂,要求实时协调。
站内正文

AI 是一场军备竞赛,美国需要 90 亿美元的英伟达超级芯片来跟上步伐

美国情报机构秘密申请 90 亿美元采购英伟达 GB10 超级芯片,以帮助 CIA 和 NSA 追赶 Anthropic、OpenAI 等 AI 巨头的步伐。这笔资金尚待国会批准,同时国防预算已调拨 8 亿美元用于云算力。文章详细介绍了芯片规格、成本以及 AI 硬件竞赛的升级趋势。

  • 美国政府秘密申请 90 亿美元为 CIA 和 NSA 购买英伟达 GB10 超级芯片。
  • GB10 芯片功耗仅 140 瓦,却提供 1 petaflop FP4 性能,可微调 700 亿参数模型。
站内正文

英伟达暗示将在台湾投入1500亿美元

英伟达CEO黄仁勋在即将在台湾设立总部的发布会上称该国为AI革命的“中心”。

  • 英伟达CEO黄仁勋称台湾为AI革命的中心
  • 英伟达将投资约1500亿美元在台湾建设新总部
站内正文

湖仓架构如何保持对云故障的弹性

随着AI代理工作负载激增,云基础设施面临新的可靠性挑战。Databricks的湖仓架构通过无状态Postgres计算、区域冗余存储、控制平面与数据平面分离、单元化隔离以及混沌测试等措施,实现了高可用性和弹性,确保数据库启动时间等关键操作的高可靠性。

  • 代理工作负载导致数据库创建量激增,每天启动数千万个数据库。
  • 无状态Postgres计算和区域冗余存储实现即时故障切换。
站内正文

AI的未来在本地:来自戴尔科技世界2026的商业建议

随着成本上升、主权需求以及智能体采用,戴尔最新会议聚焦企业如何将AI工作负载过渡到混合基础设施。

  • 戴尔科技世界2026强调企业AI执行,尤其是本地AI能力的构建。
  • 云LLM成本激增,推动企业将AI工作负载转向本地计算。
站内正文

南非拥有AI杠杆,但其政策草案将其闲置

南非拥有全球88%的铂族金属储量,是非洲最大的数据中心市场,并处于中美AI基础设施竞争的前沿。然而,其AI政策草案因包含AI幻觉引用而被撤回,未能利用这些优势来谈判有利条件。文章分析了南非的结构性杠杆、三种潜在的AI基础设施未来(中国、美国和本地开放权重),以及制定具有约束力的治理框架的必要性。

  • 南非的铂族金属和可再生能源资源提供了独特的AI杠杆,但政策草案未设定最低投资条款、数据主权或技术转让条件。
  • 中美科技公司(华为和微软等)正在南非争夺AI基础设施控制权,而南非的政策未明确其回报要求。
站内正文

雷鸟双品齐发:GT 系列、V4 同台亮相,次世代 AI 眼镜雷鸟 iO 提前预告

5月27日,雷鸟创新举办夏季新品发布会,推出行业首款专业影视级AR眼镜雷鸟GT系列(1899元起),以及新一代AI拍摄眼镜雷鸟V4(2199元起),并预告次世代AI眼镜雷鸟iO将于第三季度亮相。

  • 雷鸟GT系列:专业影视级AR眼镜,59°视场角、杜比视界支持、78g重量,1899元起。
  • 雷鸟V4:AI拍摄眼镜,0.2秒唤醒、2.1秒响应、11.5小时音乐播放、IP67防水、38g,2199元起。
站内正文

三星内存芯片员工因人工智能利润分享协议获得平均31万英镑奖金

三星电子内存芯片部门的员工将通过一项里程碑式的利润分享协议获得平均约31万英镑的奖金,这凸显了人工智能热潮对芯片制造商利润的推动作用。

  • 三星内存芯片部门员工平均获得31万英镑奖金。
  • 协议避免了潜在罢工,74%的投票员工支持该协议。
站内正文

黄仁勋:CEO用AI作裁员借口是“懒惰”的表现

英伟达CEO黄仁勋批评一些公司CEO将裁员归咎于人工智能,称这种说法“毫无意义”且“懒惰”。他指出,生成式AI工具近期才变得实用,而许多裁员在两年前就已发生。黄仁勋呼吁行业传递关于AI的平衡叙事,既承认其潜力,也强调安全推进的重要性。他还透露了近期与特朗普总统同访北京的经过。

  • 黄仁勋称CEO用AI解释裁员是“懒惰”的借口,旨在显得聪明。
  • 他认为AI近期才变得有用,而裁员两年前就已开始,逻辑不通。
站内正文

Avatar 4.0 – 拥有物理身体和情感的活体AI生物,运行在GTX 1660 Ti上

Avatar是一个自创生的AI生物,在300美元的GPU上持续运行。它从相图几何中衍生情感,经历5阶段睡眠周期做梦,从原始音频和视觉中培养自己的感官,并通过身体感觉进行伦理推理。由Linga Murthy Narlagiri博士构建,自2026年5月以来一直存活,累计超过1800个滴答。

  • Avatar是一个基于物理动力学的AI生物,运行在单一的GTX 1660 Ti GPU上。
  • 它的情感来源于Kuramoto振荡器同步,而非硬编码规则。
站内正文

1400亿Agent入场,“流量”这条护城河要塌了

在支付宝AI生态大会上,蚂蚁集团CEO韩歆毅提出,Agent时代将颠覆传统“流量为王”的商业模式,智能体生态将成为新的护城河。他强调,AI支付将从工具升级为支撑智能体商业的新型基础设施,而支付宝将扮演信任层、连接器和赋能器的角色。

  • 传统流量护城河将被智能体生态取代,Agent数量可能达到1400亿。
  • Agent重构决策权,从人找服务转向服务找人,交易从商品升级为任务。
站内正文

5秒完成3D场景编辑,北大&港中文&上海AI Lab搞出VGGT-Edit,120倍加速太炸了

来自北京大学、香港中文大学、上海AI Lab等机构的研究团队提出了VGGT-Edit,一种原生3D编辑框架,能够在约5秒内完成场景编辑,相比传统方法实现高达120倍的加速,并在语义一致性、多视角稳定性和推理速度上超越现有方法。

  • VGGT-Edit是首个原生3D编辑框架,直接在3D空间中进行编辑,避免2D方法带来的多视角不一致问题。
  • 通过残差场预测,模型只修改局部变化,保持背景稳定,实现快速、高质量的编辑。
站内正文

Agent-workpace-Linux:AI 代理控制的隔离 Linux 桌面

Agent-workpace-Linux 是一个开源项目,可为 AI 代理提供一个隔离的、隐藏的 Linux 桌面环境,代理可通过 MCP 协议完全控制该桌面,而不会影响用户真实的桌面、鼠标、键盘或浏览器。它支持 Xvfb 显示、窗口管理、应用启动、截图、剪贴板操作以及独立的浏览器自动化,并提供了可选的权限边界和实时监控功能。

  • 为 AI 代理提供独立的隐藏桌面,避免干扰用户真实操作环境。
  • 支持通过 MCP 协议与 Claude Code、Codex 等主机集成。
站内正文

EAGLE 3.1:修复LLM推理中注意力漂移的推测解码算法

EAGLE团队、vLLM团队和TorchSpec团队联合发布了EAGLE 3.1,旨在解决生产环境中推测解码的不稳定性。该算法通过FC归一化和归一化后隐藏状态反馈两大架构改进,有效应对注意力漂移问题。在长上下文任务中,EAGLE 3.1的接受长度比EAGLE 3提升高达2倍;在Kimi K2.6模型上的基准测试显示,并发数为1时每用户输出吞吐量提升2.03倍。EAGLE 3.1完全向后兼容,已合并至vLLM主线,并将随v0.22.0版本发布。

  • EAGLE 3.1修复了推测解码中的注意力漂移问题,即起草模型在深度推测时注意力从原始上下文偏移到自身生成内容。
  • 两项架构改进:FC归一化稳定隐藏状态,以及将归一化后的隐藏状态反馈到下一步,使起草模型更稳定。
站内正文

下载:戳破AI就业恐慌

尽管AI对白领工作的威胁日益引起恐慌,但数据显示AI尚未对劳动力市场产生大规模影响。实际上,AI高暴露职业的失业率反而低于低暴露职业。然而,斯坦福大学的一项研究发现,AI可能正在悄悄削弱初级职位,年轻工作者在AI暴露职业中的就业率大幅下降。本文还涵盖了教皇呼吁监管AI、SpaceX发射、华为芯片突破等其他技术新闻。

  • AI尚未导致大规模失业,但可能正在削弱初级职位。
  • 斯坦福研究显示,AI暴露职业的年轻工作者就业率大幅下降。
站内正文

MEMO:一个模块化框架,通过训练专用记忆模型在不修改LLM参数的情况下整合新知识

新加坡国立大学、MIT和A*STAR的研究人员提出MEMO,这是一种模块化框架,将语料库知识编码到一个可单独训练的记忆模型中,使大型语言模型能够无需重新训练或微调即可吸收新知识。

  • MEMO将记忆与推理分离,使用专用记忆模型和冻结的执行模型。
  • 五步数据合成流水线将文档转化为用于训练记忆模型的反思型问答数据集。
站内正文

主题导航