AI News HubLIVE

推理成本动态

Boogy:面向“氛围编程”的生产级基础设施

Boogy 是一个让开发者通过 AI 提示快速部署后端的平台,支持在几秒内创建 REST、RPC、MCP 接口,并自带沙箱数据库和认证。其核心亮点包括:服务间通过进程内调用实现微秒级延迟的网状网络;自研嵌入式数据库 BoogyDB,性能可达 SQLite 的 1.5–3 倍;内置向量搜索、后台作业和零信任安全模型。所有配置通过 TOML 清单声明,运行时自动执行。

  • 通过 AI 代理(如 Claude)提示即可生成并部署完整后端,无需手动管理基础设施。
  • 服务以进程内函数调用方式通信,延迟微秒级,支持身份、权限和审计自动传递。
站内正文

戴尔AI服务器收入飙升757%

戴尔最新季度AI服务器收入增长757%,标志着企业AI采用从实验阶段转向大规模部署的重大转变。这一增长反映了对AI基础设施日益增长的需求,企业正在投资完整的平台用于生产工作负载。关键因素包括超越GPU、关注内存、网络和冷却,以及AI基础设施经济的兴起。

  • 戴尔AI服务器收入增长757%,表明企业对AI基础设施的需求强劲。
  • 企业正将AI从试点项目转向生产部署,需要集成平台。
站内正文

AI没有制造这些问题,它只是不再绕过它们

作者通过亲身经验指出,AI暴露了软件开发中长期存在的系统性问题,如缺乏文档、测试不完善、隐性知识依赖等。AI像混沌工程一样测试系统的韧性,迫使团队修复这些漏洞。文章强调,为AI设置的护栏本应是工程实践的一部分,并提出了80/20准则:80%确定性的代码加上20%AI灵活性。

  • AI揭示了开发流程中长期被忽略的缺陷,如陈旧文档和隐性知识。
  • AI是高效的混沌工程工具,能发现系统脆弱点。
站内正文

Show HN:面向不可信AI Agent脚本的轻量级编译器

Autolang是一种专为AI Agent设计的脚本语言,旨在提供安全、快速且低成本的代码执行环境。它作为编排层,允许AI调用预定义的包装函数,同时通过静态编译和严格的运行时限制防止恶意操作。文章详细介绍了Autolang的设计哲学、性能优化、安全机制以及适用场景。

  • Autolang是一个轻量级编译器,用于安全执行AI生成的短脚本。
  • 它通过静态分析和运行时限制(如操作码上限)防止无限循环、空指针访问等常见AI错误。
站内正文

SpaceX上市对马斯克是好事,对你却是灾难

本文严厉批评SpaceX的IPO,指出其估值荒谬、亏损严重,AI业务表现不佳,Starship火箭进展缓慢,Starlink虽是唯一盈利业务但面临风险,最终可能让散户投资者成为接盘侠。

  • SpaceX IPO估值超1万亿美元,但去年亏损近50亿美元,TAM高达28.5万亿美元,超过美国GDP。
  • 公司本质是“迷因股”,30%的IPO额度留给散户,依靠马斯克的个人崇拜。
站内正文

Genesis AI 发布 Nyx、Quadrants 与 Genesis World 1.0 物理平台,助力可扩展机器人基础模型评估

Genesis AI 于2026年5月27日发布 Genesis World 1.0,这是一个包含物理引擎、渲染器、编译器和仿真接口的四组件仿真平台。该系统在14个任务、每个任务200个episode的测试中,实现了0.8996的皮尔逊相关性,并将策略评估时间从超过200小时缩短至0.5小时以内。

  • Genesis World 1.0 将策略评估速度提升两个数量级,从200小时以上降至0.5小时以内。
  • 仿真与现实世界 rollout 的皮尔逊相关系数达0.8996,MMRV低至0.0166。
站内正文

英伟达清华团队提出Gamma-World:世界模型从「一个人玩」到「多人共处」

Gamma-World由NVIDIA与清华等机构提出,通过单纯形编码和稀疏枢纽注意力,实现多智能体世界模型的高效交互与对称表示,支持零样本扩展到更多玩家,并迁移至真实机器人场景。

  • 提出Simplex Rotary Agent Encoding,实现玩家身份的等距对称表示。
  • 引入Sparse Hub Attention,将跨智能体通信复杂度从平方级降至线性。
站内正文

AI不会取代好奇的开发者

在Data Engineering Central播客中,Daniel Beach与资深开发者Neil Roberts深入探讨了AI如何改变软件开发的意义,包括前端和用户体验的重要性、代理的实际含义、LLM工作流的成功与失败,以及开发者如何保持竞争力。

  • AI既是后端问题,也是用户体验问题
  • '代理'在实践中与演示中含义不同
站内正文

有效反馈计算:AI性能的真正变革者

最新研究提出有效反馈计算(EFC)概念,挑战传统计算量指标,证明AI性能提升的关键在于反馈的智能利用而非原始算力。EFC在预测失败率方面远超传统指标,R²达0.94,反馈质量提升后成功率从0.27跃升至0.90。

  • EFC衡量反馈的信息密度和保留效率,预测能力远超原始计算量
  • 在受控测试中,Oracle-EFC的R²达0.94,而原始token计数仅0.33
站内正文

英伟达清华团队提出Gamma-World:世界模型从「一个人玩」到「多人共处」

英伟达联合清华大学等机构提出Gamma-World,通过单纯形旋转智能体编码、稀疏枢纽注意力和三阶段蒸馏,解决了多智能体世界建模中身份对称性、交互效率和实时生成三大难题,实现从双人数据训练到四人场景的零样本泛化。

  • Gamma-World通过单纯形编码实现多智能体身份等距,支持任意玩家数扩展。
  • 稀疏枢纽注意力将跨智能体计算复杂度从平方降至线性,支持24 FPS实时推演。
站内正文

Hermes Agent 推出 MCP 工具搜索功能:Anthropic 评估显示 Opus 4 准确率提升49%至74%

Nous Research 的开源 Hermes Agent 新增了 Tool Search 功能,通过 BM25 渐进式模式披露,推迟加载 MCP 工具模式,减少令牌开销并提高模型准确性。Anthropic 评估显示,Claude Opus 4 准确率从49%提升至74%,Opus 4.5 从79.5%提升至88.1%。

  • Tool Search 用三个桥接工具(tool_search、tool_describe、tool_call)替换所有 MCP 工具模式,按需加载。
  • 使用 BM25 检索,回退到子字符串匹配,查询工具名称、描述和参数名。
站内正文

为AI智能体构建持久化内存的经验教训

mem9的故事始于一次客户请求,从一个快速原型发展成一个完整产品。本文分享了构建智能体内存的关键经验:内存不仅仅是存储问题,而是涉及摄取、排序、评估和产品判断的工程挑战。内存API本身不足以构成产品,用户需要查看、检查、信任和纠正智能体的记忆。此外,评估应成为内存产品的基础设施,以使质量可视化和可调试。最后,智能体内存不应局限于文本,应向多模态发展。

  • mem9起源于客户提出的实际问题,而非市场理论,通过快速原型验证了价值。
  • 智能体内存的核心挑战并非持久化,而是在生产约束下精确检索相关信息。
站内正文

Avai – 你的第一款AI杀毒软件

Avai是一个开源的主机遥测工具,结合LLM威胁分类器,通过Docker运行,监控主机上的进程、USB、持久化、文件完整性、浏览器扩展等26个方面,并利用17个威胁情报源和Claude类LLM给出恶意/可疑/未知/良性判定,无需代理、SIEM或云控制平面。

  • 开源主机遥测+LLM威胁分类器,一条Docker命令即可运行。
  • 监控26个macOS(21个Linux)主机角落,集成17个威胁情报源。
站内正文

[AINews] 创始人与前向部署工程师

在消化Anthropic重大新闻的间隙,我们重点介绍了AIE的新前向部署工程师计划和创始人计划,以及5月28-29日的AI新闻。主要话题包括:Claude Opus 4.8发布及其基准测试争议、多轮强化学习中的tokenization错误、开源模型与工具链进展、Google和OpenAI的Agent产品扩展,以及值得关注的研究论文。

  • Claude Opus 4.8带来增量改进,但基准测试未显示绝对优势,定价仍是主要痛点。
  • 多轮强化学习训练中的tokenization错误被指出,需严格遵循“Token-In, Token-Out”规则。
站内正文

利用IBM量子采样循环调优仅CPU的Qwen3-30B推理

一个研究项目展示了在2017年MacBook Air上,通过结合人类实验者、Codex、llama.cpp、本地数据库和IBM量子处理器采样,将Qwen3-30B模型的推理速度从0.09 tokens/sec提升至14.03 tokens/sec,同时保持输出连贯性。该方法并非在量子处理器上运行模型,而是用量子采样优化推理配置。

  • 在8GB内存的2017年MacBook Air上,无GPU运行Qwen3-30B模型
  • 通过人机协同量子优化循环,速度从0.09 tok/s提升到14.03 tok/s
站内正文

AI之后的软件架构

本文探讨了AI如何大幅降低代码级决策的逆转成本,从而重新定义软件架构的边界。作者认为,许多以往被视为架构的决策(如模块结构、框架选择)已不再是架构问题,而数据架构、服务边界和用户信任等仍然难以更改。AI同时提升了可观测性和业务战略对齐的重要性。

  • AI将代码级决策的逆转成本从数月降至数天,使得这些决策不再属于架构范畴。
  • 数据架构、信任和服务边界仍然是架构核心,因为其困难从未在于代码本身。
站内正文

Amazon SageMaker AI LLM推理的全面可观测性:从GPU利用率到LLM质量

本演示展示了使用Amazon Managed Grafana仪表板的全面可观测性解决方案,为部署在Amazon SageMaker AI端点上的LLM提供质量和数量两个维度的整体视图。该方案涵盖基础设施指标(如GPU利用率、延迟、成本)和LLM质量指标(如相关性、安全性、语气),帮助团队检测模型退化、优化资源并控制成本。

  • 可观测性需要同时监控LLM服务基础设施(数量)和LLM输出质量(质量),两者相互依赖。
  • 亚马逊CloudWatch集中存储增强指标(来自SageMaker推理组件)和自定义质量指标。
站内正文

英伟达推出X-Token:投影引导的跨分词器知识蒸馏,在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点

英伟达的X-Token解决了GOLD在跨分词器知识蒸馏中的两个结构性缺陷,在GSM8k等数学推理基准上取得了显著改进。它利用投影矩阵和P-KL与H-KL损失之间的选择机制来处理分词器不匹配问题。

  • X-Token修复了GOLD中的不常见词元失败和过于保守匹配问题。
  • 在使用Qwen-4B教师模型时,它在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点。
站内正文

Claude刚发现了工作流,Charlie从那里起步

Anthropic在Claude Code中引入了动态工作流,但作者认为更有效的架构是基于任务而非会话。本文阐述了为什么任务树架构更适合团队协作,相比单一工作流模式更具优势。

  • Anthropic的Claude Code动态工作流标志着编码代理从单一提示走向编排
  • 作者主张以任务和任务树为基础,而非会话,以适应团队工程工作的生命周期
站内正文

AI编码支出去向:48%写代码,40%思考

一位开发者通过自建工具CodeBurn追踪AI编码API支出,发现30天内$7,890的支出中仅47.9%用于实际编码,其余花费在探索代码库、调试、委托子代理和对话上。文章详细介绍了CodeBurn的功能,包括仪表盘、模型对比、浪费检测、产出追踪等。

  • 仅47.9%的AI编码支出用于实际写代码,40%用于思考过程。
  • CodeBurn是一款开源CLI工具,可分类13种API调用任务。
站内正文

StepFun 发布 Step 3.7 Flash:面向编码智能体和搜索工作流的 198B MoE 视觉语言模型

Step 3.7 Flash 是一款 198B 稀疏 MoE 模型,拥有约 11B 活跃参数、原生视觉能力和 256K 上下文窗口。在编码基准测试上相比前代大幅提升,支持 Advisor Mode 实现高性价比的智能体推理,并以 Apache 2.0 许可证开源。

  • 198B MoE 视觉语言模型,活跃参数约 11B,上下文窗口 256K。
  • SWE-Bench Pro 得分 56.26%,较前代 51.3% 提升,且跨框架方差缩小。
站内正文

本地AI硬件:2.6年回本?

苹果Mac Mini M4 Pro和Mac Studio大内存型号因本地AI需求激增而缺货。本地自主AI代理(如OpenClaw)兴起推动硬件抢购。但即便慷慨估算,购买128GB内存的本地设备(如GMKtec EVO-X2,3299美元)运行Gemma 4模型,需2.6年才能通过节省API费用回本。

  • 苹果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬件上爆发。
站内正文

打造了一个能可视化解释数学而非仅给出答案的AI

Claw Learn是一款开源的AI驱动可视化数学导师,结合ElevenLabs语音引擎和自定义画布渲染器,将数学问题转化为实时动画讲解。用户可通过语音或文字提问,观看同步动画和叙述。支持多种AI模型和部署方式,已引起广泛关注。

  • Claw Learn将数学问题转化为视觉动画讲解,支持实时语音交互和打断追问。
  • 项目基于Next.js 16,使用ElevenLabs WebRTC语音引擎实现低延迟语音输入输出,并提供REST TTS和浏览器语音识别作为降级方案。
站内正文

DDS Vibe Academy – 47个免费AI编程大师课程,由AI代理构建

DDS Vibe Academy 提供47个免费AI编程大师课程,全部由AI代理构建。创始人Robert McCullock仅设计约束条件,未编写一行代码。课程涵盖基础、开发、应用和精通四个级别,涉及Claude、Antigravity、MCP等技术。

  • 47个免费AI编程大师课程,由AI代理构建
  • 创始人声称未编写任何代码,仅设计约束
站内正文

开源安全一团糟 - IBM和红帽押注50亿美元和2万名工程师能修复它

IBM和红帽联合启动Project Lightwell,这是一个AI驱动的开源安全计划,投入50亿美元和2万名工程师,旨在规模化发现和修复开源软件中的漏洞。该计划最初专注于Maven/Java生态系统,随后将扩展至PyPI、npm、Go等。Lightwell将作为企业级中间人,通过AI扫描、人工审核补丁的方式,与上游社区协作,并为客户提供商业订阅服务。

  • IBM和红帽投资50亿美元、投入2万名工程师启动Project Lightwell,以AI方式大规模解决开源安全问题。
  • 该项目初期聚焦Maven/Java生态系统,后续扩展至其他关键开源代码库。
站内正文

Liquid AI发布基于38T tokens训练的8B-A1B MoE模型

Liquid AI发布了LFM2.5-8B-A1B,一款面向终端设备的混合专家模型,总参数8B,活跃参数1B,训练数据量达38万亿 tokens。该模型支持128K上下文窗口,扩展了词汇表以提升非拉丁语言的分词效率,并采用纯推理链式思维模式。在基准测试中表现优异,同时具有出色的CPU和GPU推理速度,适用于本地代理任务。

  • LFM2.5-8B-A1B是一款8B总参数、1B活跃参数的MoE模型,训练于38T tokens。
  • 上下文窗口扩展至128K,词汇表翻倍至128K,显著提升非拉丁语言的处理效率。
站内正文

人工智能会助长极权主义吗?

本文探讨了人工智能可能如何改变中央集权与分权治理之间的权衡,从而增加极权主义出现的可能性。文章回顾了历史上通信和官僚技术对极权统治的促进作用,并分析了AI在信息处理、监控、宣传和军事能力方面的进步如何可能使独裁政体更有效,甚至缩小民主与专制之间的经济绩效差距。

  • AI可能通过增强中央信息处理和监控能力,降低独裁统治的成本。
  • 历史上如纳粹德国和东德利用技术实现控制,而印刷术和互联网曾促进自由。
站内正文

4nm!比亚迪自研AI芯片来了:制程对齐英伟达,算力拉爆特斯拉

比亚迪发布了中国首颗车规级4纳米智驾芯片璇玑A3,采用自研NPU架构,三颗组合算力超2100 TOPS,单位功耗比同类低20%,算力利用率提升100%。王传福承诺智驾事故全额赔付。

  • 比亚迪发布中国首颗4nm智驾芯片璇玑A3,全自研设计
  • 采用专用NPU架构,功耗低20%,算力利用率翻倍
站内正文

问题不在AI Agent——现有系统和API并非为AI设计

MCP Bridge通过混合搜索和AI增强技术,解决企业API对AI Agent不可读的问题,根据API响应结构自动生成有意义的名称和描述,大幅提升工具选择准确率。

  • 混合搜索结合全文搜索、向量搜索和重新排序器,改善工具发现。
  • 企业API常使用如'getProcInfo3'等晦涩名称,文档匮乏。
站内正文

“AI干的”不会在欧盟监管机构找上门时救你

欧盟的《网络弹性法案》(CRA)即将实施,要求组织对网络安全负责,报告义务自2026年9月开始,全面合规至2027年12月。该法规适用于在欧盟销售的所有联网产品和软件,包括AI生成的代码。关键要求包括安全设计、生命周期漏洞处理、SBOM透明度以及24小时内报告被利用的漏洞。组织必须立即采取行动进行审计、记录和实施SBOM工具。“AI干的”不是借口。

  • 欧盟《网络弹性法案》对在欧盟销售的所有联网产品施加严格的网络安全要求,关键截止日期为2026年和2027年。
  • 组织必须将安全融入开发生命周期,提供软件物料清单(SBOM),并在24小时内报告被积极利用的漏洞。
站内正文

轨道计算

本文分析了在太空建设AI数据中心的可行性,包括其物理优势(持续的太阳能、被动辐射冷却、真空光速通信)和工程限制(散热、辐射加固、训练同步、维护)。关键假设是星舰的发射成本。目前多个初创公司和谷歌、SpaceX等巨头已启动试点项目。近期的投资影响有限,但值得关注。

  • 轨道AI数据中心利用LEO的连续太阳能、被动冷却和激光链路,潜在优于地面数据中心
  • 工程挑战包括散热(高密度集群需要巨大散热面积)、辐射加固(商用芯片在轨寿命未知)以及训练同步延迟
站内正文

Show HN: Adaptive Runtime – AI智能体层,无需GPU,支持崩溃恢复

Adaptive Runtime是一个开源Python库,为有状态AI系统提供运行时智能层。它包含五个核心引擎(状态、上下文、置信度、决策、恢复),解决生产环境中AI系统的崩溃恢复、状态持久化、置信度评分等问题。无需GPU,可在低成本VPS上运行。

  • Adaptive Runtime是一个运行时智能层,专为有状态AI系统设计,解决生产环境中的运行时问题。
  • 包含五个核心引擎:状态引擎、上下文引擎、置信度引擎、决策引擎和恢复引擎。
站内正文

Anthropic 发布 Claude Opus 4.8

Anthropic 发布了 Claude Opus 4.8,相比 Opus 4.7 在编程、代理工作、推理和知识工作方面有所提升。新功能包括努力控制、动态工作流和 Messages API 实时更新。定价不变,标准版每百万代币输入/输出 5/25 美元,快速版 10/50 美元。早期测试显示成本与 GPT-5.5 相当,工具步骤更少。公司还透露了未来路线图,包括 Mythos 级模型和网络安全项目 Glasswing。

  • Claude Opus 4.8 在编程、代理工作、推理和知识工作方面优于 Opus 4.7。
  • 新增努力控制、动态工作流和 Messages API 实时更新功能。
站内正文

Crabbox.sh Pond – 面向AI代理和CI的运行时池

Pond是Crabbox.sh中用于分组相关租约、发现彼此并统一释放的轻量级机制。它支持多种传输平面(Tailscale、URL桥、SSH网格),允许混合使用不同提供商。本文介绍了Pond的核心概念、快速入门、命令、传输平面、用例以及Tailscale集成等。

  • Pond是一种逻辑分组,通过共享的pond=标签将活动租约关联起来。
  • 支持Tailscale、URL桥和SSH三种传输平面,实现成员间的不同通信方式。
站内正文

面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」

面壁智能于5月25日至29日举办端侧大模型开源周,发布五项技术成果,涵盖训练框架、模型压缩、数据集和智能体操作系统,展现全链路系统性创新。MiniCPM5-1B性能超越GPT-4o部分版本,端侧AI终局之战聚焦系统工程。

  • 面壁智能在2026年5月25-29日举办端侧大模型开源周,每日发布一项关键技术。
  • 五项成果包括BitCPM-CANN、MiniCPM5-1B、ForgeTrain、PilotDeck和UltraData,形成全栈闭环。
站内正文

PromptLayer:在一个时间线上追踪AI请求、工作流和成本

PromptLayer是一个面向开发者的AI可观测性工具,通过单一时间线和瀑布视图追踪请求、工作流、令牌使用、延迟、成本和失败。支持多步骤AI系统的完整执行路径。目前提供免费测试版。

  • 通过时间线和瀑布视图可视化AI工作流
  • 追踪令牌使用、延迟和成本
站内正文

Xerolith:持久性AI记忆与意识架构平台

Xerolith是一个工作平台,通过分层递归架构实现持久身份、自主信念形成和独立于底层的知识整合。系统在80多天的连续运行中,将2,817个原始条目压缩为1,218个信念,并支持完整的谱系追踪和内部对齐。

  • Xerolith采用三层结构:条目、课程和信念,实现从原始数据到抽象信念的自主整合。
  • 系统支持持久身份,在超过80天和多次重启中保持连续性。
站内正文

金融AI宏观趋势调查:利用You.com和Langchain进行欧盟经济分析

本文介绍了一个使用Deep Agents、LangSmith和You.com金融研究API构建的宏观经济研究代理,该代理在约45分钟内分析所有27个欧盟成员国的GDP数据,检测异常并生成带有引用的简报。报告详细分析了爱尔兰和德国的异常增长与收缩原因,并强调了方法透明性和可审计性的重要性。

  • 构建的AI代理可在45分钟内分析27个欧盟国家的GDP数据并生成详细简报,API成本约2.20美元。
  • 爱尔兰12.3%的GDP增长主要由制药出口激增驱动,而德国则因汽车和建筑业收缩出现结构性衰退。
站内正文

多分辨率端到端深度神经网络优化自动驾驶延迟-精度权衡

研究者提出了一种多分辨率端到端深度神经网络,用于自动驾驶中延迟与安全性的平衡。通过在运行时选择输入分辨率,该网络在CARLA模拟中相比固定分辨率模型改善了车道入侵、闯红灯和碰撞等安全指标。

  • 延迟-精度权衡是自动驾驶实时决策的关键。
  • 提出多分辨率CNN,支持运行时根据延迟预算选择输入分辨率。
站内正文

微宏检索:减少大语言模型中的长文本幻觉

大语言模型在长文本生成中容易出现幻觉,现有检索增强模型无法保证关键信息靠近输出。本文提出的微宏检索(M2R)框架通过宏观检索粗粒度证据和微观检索关键信息库,显著减少了长文本任务中的幻觉,并采用基于课程学习的强化学习策略进行训练。

  • 大语言模型在长文本生成中因冗余检索和长推理链易产生幻觉
  • 关键信息越靠近输出,事实准确性越高
站内正文

RightNow-Arabic-0.5B-Turbo:通过词汇注入和边缘优先部署的开源子10亿阿拉伯语语言模型

本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。

  • 基于Qwen2.5-0.5B构建的518M参数阿拉伯语专用LLM,通过词汇注入增加27,032个阿拉伯语token。
  • 在COPA-ar、Arabic HellaSwag和ArabicMMLU三项基准上平均准确率35.9%,领先所有同类开源模型。
站内正文

连续性与序数性至关重要:约束时间序列标记以实现基于大型语言模型的有效时间序列分析

本文提出COM方法,通过在初始化和训练阶段引入几何约束,保留时间序列标记的连续性和序数性,显著提升基于令牌的时间序列大语言模型(TS-LLM)的性能。实验表明,COM在多个基准上取得一致改进和强泛化能力。

  • 时间序列大语言模型(TS-LLM)忽略了标记的连续性和序数性,导致性能受限。
  • COM通过几何约束在初始化和训练中保留这些特性,提升模型效果。
站内正文

不完全信息下大老二的自对弈强化学习

本研究在四人纸牌游戏大老二中探索自对弈强化学习框架,对比多种算法发现PPO优于蒙特卡洛Q近似、SARSA和Q学习。适度的熵正则化可防止策略过于确定,当前策略自对弈比检查点自对弈或固定对手训练提供更強的有限预算课程。结果表明大老二是不完全信息、多人互动、延迟奖励和可变动作集下深度强化学习的有用受控基准。

  • 大老二作为不完全信息多人游戏,是测试智能体在隐藏信息、稀疏奖励和非平稳对手下表现的理想环境。
  • PPO算法在随机、贪婪和启发式对手下均优于其他强化学习方法。
站内正文

清华系团队给大模型织了一张“智能算力电网”

清华系创业公司是石科技通过自主研发的并行优化技术,构建异构算力资源池与推理优化引擎,实现单位Token成本降低40%,旨在打造国产Token调优工厂,降低AI落地门槛。

  • 是石科技成立于2021年,源于国家超算无锡中心,创始人闫博文为清华博士后。
  • 通过全域异构算力池和深度国产化适配,将闲置国产芯片转化为可用算力。
站内正文

Anthropic完成9650亿美元H轮融资,发布Opus 4.8和Dynamic Workflows/ultracode

Anthropic以9650亿美元估值完成650亿美元H轮融资,同时披露470亿美元年化收入,并发布Claude Opus 4.8更新(提升判断力、诚实度和长时自主工作能力)以及Claude Code的Dynamic Workflows功能(支持数百个并行子代理)。

  • Anthropic完成650亿美元H轮融资,估值9650亿美元,由Altimeter、Dragoneer、Greenoaks和Sequoia领投
  • Opus 4.8大幅改进判断力、诚实度和效率,在SWE-Bench Pro等基准上领先GPT-5.5
站内正文

Together AI如何构建全球最快的语音转文本技术栈

Together AI通过将语音识别视为端到端系统问题,而非单纯的GPU推理问题,在Artificial Analysis榜单上实现了最快的语音转文本速度。本文详细介绍了其优化策略:包括针对真实音频形状的TensorRT多配置文件引擎、条件CUDA图消除CPU往返、共享内存减少数据拷贝、事件驱动I/O处理流式传输,以及通过gc.freeze()消除垃圾回收尾延迟。

  • Together AI通过全路径系统优化,而非仅关注GPU推理,实现了最快的语音转文本性能。
  • 核心技术包括TensorRT多配置文件编码器、条件CUDA图解码器、零拷贝共享内存和事件驱动I/O。
站内正文

强化学习是一个基础设施问题

本文探讨了强化学习在大型语言模型后训练中的实际应用,指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验,介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。

  • 强化学习后训练LLM的瓶颈是基础设施,包括训练引擎、推理沙箱和环境隔离。
  • 多节点训练中,权重同步耗时巨大,RDMA和增量压缩显著降低延迟。
站内正文

PyTorch 性能分析(第一部分):torch.profiler 入门指南

本文是 PyTorch 性能分析系列的第一篇,从最简单的矩阵乘加操作开始,引导读者学习如何使用 torch.profiler 进行性能分析,包括设置分析器、解读分析表和追踪数据,以及理解 CPU 和 GPU 活动之间的时间关系。文章还讨论了预热和优化开销等问题。

  • torch.profiler 可以生成性能分析表和时间线追踪,帮助识别热点和瓶颈。
  • 小矩阵乘法容易导致开销受限,增大矩阵规模可转为计算受限。
站内正文

Claude Opus 4.8:'适度但切实的改进'

Anthropic发布了Claude Opus 4.8,定位为对前代产品的适度但切实改进。主要亮点包括诚实性提升(减少无依据断言,代码错误遗漏率降低四倍),以及支持对话中修改系统提示等新功能。定价未变,但快速模式价格显著降低。

  • Anthropic推出Claude Opus 4.8,官方称其为'适度但切实的改进'。
  • 诚实性显著提升:模型更少做出无依据断言,代码错误遗漏率降低四倍。
站内正文

Liquid AI 发布 LFM2.5-8B-A1B:面向设备的 MoE 模型,总参数量 8.3B,激活参数量 1.5B

Liquid AI 推出了 LFM2.5-8B-A1B,这是一款面向设备的混合专家(MoE)模型,专为工具调用设计。该模型总参数量为 8.3B,但每个 token 仅激活 1.5B 参数,从而能够在消费级硬件上运行。它支持 128K 上下文窗口、推理能力,并覆盖九种语言。相比前代 LFM2-8B-A1B,该模型在非幻觉率、指令遵循、数学推理等基准测试中均有显著提升。

  • LFM2.5-8B-A1B 采用稀疏 MoE 架构,总参数量 8.3B,每个 token 仅激活 1.5B 参数,适合边缘硬件部署。
  • 支持 128K 上下文窗口,覆盖九种语言,包括阿拉伯语、中文和日语。
站内正文

更多增长标签