AI News HubLIVE

开源模型动态

Mistral警告称欧洲只有两年时间构建自主AI基础设施

在Mistral AI峰会上,CEO Arthur Mensch表示欧洲必须在两年内建立足够的AI基础设施,否则可能沦为美国AI的“附庸国”。峰会吸引了众多欧洲企业和政府代表,强调数据主权和开源模型,但欧洲在投资和规模上仍远落后于美国对手。

  • Mistral CEO警告欧洲需两年内建立AI基础设施,避免成为美国附庸。
  • 峰会吸引大量参与者,凸显欧洲对自主AI生态系统的渴望。
站内正文

让AI聊天机器人更有帮助会削弱其模拟人类行为的能力

一项大规模研究发现,将语言模型训练成有用的聊天助手会削弱它们模拟人类行为的能力,且随着模型迭代,这一差距不断增大。即使是使用人口统计信息来引导模型,也无法提高个体行为预测的准确性。

  • 研究发现,基础模型在预测人类行为方面优于经过后训练的助手版本。
  • 随着模型代际更新,后训练导致的偏差加剧。
站内正文

截断代码不再:终极弹性修补器 v1.60 发布

终极弹性修补器(Ultimate Elastic Patcher)v1.60 是一款事件驱动的系统控制台工具,通过监控剪贴板自动应用代码补丁。它支持多种补丁模式,包括标准化处理、语言语法分析、模糊序列匹配、手风琴拼接等高级功能,并集成 LLM 编写工作区、审计历史、实时差异查看器,以及全面的撤销/重做机制。

  • 监控剪贴板,自动检测并应用 Aider 搜索/替换块、统一差异等补丁模式。
  • 提供战术对齐模式(Shift+F9)、状态锁定(F8)和 LLM 编写工作区(F7)等交互功能。
站内正文

Meta泄露备忘录:AI吊坠、超级感应眼镜及企业可穿戴战略

Meta在AI领域投入数十亿美元,但商业回报甚微。其开源策略未达预期,研究成果也未能转化为上市产品。如今,该公司将希望寄托于AI硬件,包括AI吊坠、超级感应眼镜和企业可穿戴设备。

  • Meta在AI上投入巨资但商业回报不佳
  • 开源策略和研究成果未能有效转化为产品
站内正文

Avai – 你的第一款AI杀毒软件

Avai是一个开源的主机遥测工具,结合LLM威胁分类器,通过Docker运行,监控主机上的进程、USB、持久化、文件完整性、浏览器扩展等26个方面,并利用17个威胁情报源和Claude类LLM给出恶意/可疑/未知/良性判定,无需代理、SIEM或云控制平面。

  • 开源主机遥测+LLM威胁分类器,一条Docker命令即可运行。
  • 监控26个macOS(21个Linux)主机角落,集成17个威胁情报源。
站内正文

[AINews] 创始人与前向部署工程师

在消化Anthropic重大新闻的间隙,我们重点介绍了AIE的新前向部署工程师计划和创始人计划,以及5月28-29日的AI新闻。主要话题包括:Claude Opus 4.8发布及其基准测试争议、多轮强化学习中的tokenization错误、开源模型与工具链进展、Google和OpenAI的Agent产品扩展,以及值得关注的研究论文。

  • Claude Opus 4.8带来增量改进,但基准测试未显示绝对优势,定价仍是主要痛点。
  • 多轮强化学习训练中的tokenization错误被指出,需严格遵循“Token-In, Token-Out”规则。
站内正文

利用IBM量子采样循环调优仅CPU的Qwen3-30B推理

一个研究项目展示了在2017年MacBook Air上,通过结合人类实验者、Codex、llama.cpp、本地数据库和IBM量子处理器采样,将Qwen3-30B模型的推理速度从0.09 tokens/sec提升至14.03 tokens/sec,同时保持输出连贯性。该方法并非在量子处理器上运行模型,而是用量子采样优化推理配置。

  • 在8GB内存的2017年MacBook Air上,无GPU运行Qwen3-30B模型
  • 通过人机协同量子优化循环,速度从0.09 tok/s提升到14.03 tok/s
站内正文

如何使用AgentTrove:在Python中流式处理170万条代理轨迹并构建干净的ShareGPT SFT数据集

本教程介绍AgentTrove——最大的开源代理交互轨迹集合之一,包含170万条ShareGPT格式的轨迹。通过流式加载避免完全下载,学习标准化代理轮次、提取命令、分析轨迹,并将成功轨迹导出为干净的SFT微调数据集。

  • 使用流式加载处理170万条代理轨迹,无需完整下载
  • 标准化用户、助手、系统和工具消息的对话结构
站内正文

英伟达推出X-Token:投影引导的跨分词器知识蒸馏,在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点

英伟达的X-Token解决了GOLD在跨分词器知识蒸馏中的两个结构性缺陷,在GSM8k等数学推理基准上取得了显著改进。它利用投影矩阵和P-KL与H-KL损失之间的选择机制来处理分词器不匹配问题。

  • X-Token修复了GOLD中的不常见词元失败和过于保守匹配问题。
  • 在使用Qwen-4B教师模型时,它在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点。
站内正文

AI编码支出去向:48%写代码,40%思考

一位开发者通过自建工具CodeBurn追踪AI编码API支出,发现30天内$7,890的支出中仅47.9%用于实际编码,其余花费在探索代码库、调试、委托子代理和对话上。文章详细介绍了CodeBurn的功能,包括仪表盘、模型对比、浪费检测、产出追踪等。

  • 仅47.9%的AI编码支出用于实际写代码,40%用于思考过程。
  • CodeBurn是一款开源CLI工具,可分类13种API调用任务。
站内正文

StepFun 发布 Step 3.7 Flash:面向编码智能体和搜索工作流的 198B MoE 视觉语言模型

Step 3.7 Flash 是一款 198B 稀疏 MoE 模型,拥有约 11B 活跃参数、原生视觉能力和 256K 上下文窗口。在编码基准测试上相比前代大幅提升,支持 Advisor Mode 实现高性价比的智能体推理,并以 Apache 2.0 许可证开源。

  • 198B MoE 视觉语言模型,活跃参数约 11B,上下文窗口 256K。
  • SWE-Bench Pro 得分 56.26%,较前代 51.3% 提升,且跨框架方差缩小。
站内正文

本地AI硬件:2.6年回本?

苹果Mac Mini M4 Pro和Mac Studio大内存型号因本地AI需求激增而缺货。本地自主AI代理(如OpenClaw)兴起推动硬件抢购。但即便慷慨估算,购买128GB内存的本地设备(如GMKtec EVO-X2,3299美元)运行Gemma 4模型,需2.6年才能通过节省API费用回本。

  • 苹果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬件上爆发。
站内正文

打造了一个能可视化解释数学而非仅给出答案的AI

Claw Learn是一款开源的AI驱动可视化数学导师,结合ElevenLabs语音引擎和自定义画布渲染器,将数学问题转化为实时动画讲解。用户可通过语音或文字提问,观看同步动画和叙述。支持多种AI模型和部署方式,已引起广泛关注。

  • Claw Learn将数学问题转化为视觉动画讲解,支持实时语音交互和打断追问。
  • 项目基于Next.js 16,使用ElevenLabs WebRTC语音引擎实现低延迟语音输入输出,并提供REST TTS和浏览器语音识别作为降级方案。
站内正文

ARM 开源 AI 驱动的安全代码审查工具 Metis

ARM 产品安全团队开源了 Metis,一个基于代理式 AI 的深度安全代码审查框架。它利用 LLM 进行语义理解、RAG 获取上下文,支持多种语言和插件扩展,旨在检测复杂代码库中的细微漏洞,减少审查疲劳。

  • Metis 是 ARM 开源的 AI 安全代码审查框架,使用 LLM 和 RAG 进行深度推理。
  • 支持 C、C++、Python、Rust、TypeScript 等多种语言,可通过插件扩展。
站内正文

DDS Vibe Academy – 47个免费AI编程大师课程,由AI代理构建

DDS Vibe Academy 提供47个免费AI编程大师课程,全部由AI代理构建。创始人Robert McCullock仅设计约束条件,未编写一行代码。课程涵盖基础、开发、应用和精通四个级别,涉及Claude、Antigravity、MCP等技术。

  • 47个免费AI编程大师课程,由AI代理构建
  • 创始人声称未编写任何代码,仅设计约束
站内正文

解释器技能:为智能体构建工作流

本文介绍了LangChain提出的解释器技能(Interpreter Skills)概念,这是一种将确定性代码与智能体指令结合的方法。通过让智能体在解释器中导入并执行TypeScript模块,可以构建更可靠、可评估的工作流,例如用于GitHub问题分类等任务。

  • 解释器技能扩展了传统技能,包含一个TypeScript模块供智能体在解释器中运行。
  • 确定性部分以代码形式存在,智能体决定何时调用并传入参数,提高了可靠性和可评估性。
站内正文

借助OpenAI治理框架安全扩展企业AI

OpenAI发布了前沿治理框架(FGF),为企业提供规模化部署安全合规AI的蓝图。该框架与欧盟通用AI实践准则和加州透明度法案对齐,定义了系统性风险类别(网络、CBRN、操纵、失控)及分级评估方法,并整合ISO安全标准与事件响应计划(AIRP),帮助企业在全球合规要求下构建稳健的AI架构。

  • OpenAI前沿治理框架为安全部署大模型提供结构化模板,直接对应欧盟AI法和加州法案。
  • 框架定义四类系统性风险:网络攻击、CBRN、有害操纵和失控,并设定具体风险等级(如Tier 3)。
站内正文

Mistral AI Now峰会巴黎见闻

本文分享了作者在巴黎Mistral AI Now峰会上的个人见解。Mistral不再只是一家模型公司,而是构建了包含计算、模型、平台和咨询服务的完整AI堆栈。峰会重点强调了与ASML、BNP Paribas、亚马逊等企业的合作,而非新模型发布。Mistral专注于高效、开放和可定制的模型,并支持本地部署,这成为其区别于Anthropic或OpenAI的独特卖点。小型专用模型是关键战略,例如用于OCR的Document AI、多语言语音的Voxtral和工业机器人的Robostral。主权和本地部署是欧洲企业的差异化优势,如BNP Paribas和Abanca的案例。此外,奥地利科学院利用Mistral的编程模型Codestral解读古代纸莎草文献,展示了AI在人文领域的潜力。总而言之,Mistral的目标并非赢得AGI竞赛,而是成为欧洲的全栈AI合作伙伴,提供即时的实际投资回报。

  • Mistral正从模型公司转型为全栈AI提供商,拥有自家计算、模型、平台和咨询业务。
  • 峰会注重合作伙伴关系(ASML、BNP Paribas、亚马逊),而非发布新模型。
站内正文

Liquid AI发布基于38T tokens训练的8B-A1B MoE模型

Liquid AI发布了LFM2.5-8B-A1B,一款面向终端设备的混合专家模型,总参数8B,活跃参数1B,训练数据量达38万亿 tokens。该模型支持128K上下文窗口,扩展了词汇表以提升非拉丁语言的分词效率,并采用纯推理链式思维模式。在基准测试中表现优异,同时具有出色的CPU和GPU推理速度,适用于本地代理任务。

  • LFM2.5-8B-A1B是一款8B总参数、1B活跃参数的MoE模型,训练于38T tokens。
  • 上下文窗口扩展至128K,词汇表翻倍至128K,显著提升非拉丁语言的处理效率。
站内正文

人工智能会助长极权主义吗?

本文探讨了人工智能可能如何改变中央集权与分权治理之间的权衡,从而增加极权主义出现的可能性。文章回顾了历史上通信和官僚技术对极权统治的促进作用,并分析了AI在信息处理、监控、宣传和军事能力方面的进步如何可能使独裁政体更有效,甚至缩小民主与专制之间的经济绩效差距。

  • AI可能通过增强中央信息处理和监控能力,降低独裁统治的成本。
  • 历史上如纳粹德国和东德利用技术实现控制,而印刷术和互联网曾促进自由。
站内正文

问题不在AI Agent——现有系统和API并非为AI设计

MCP Bridge通过混合搜索和AI增强技术,解决企业API对AI Agent不可读的问题,根据API响应结构自动生成有意义的名称和描述,大幅提升工具选择准确率。

  • 混合搜索结合全文搜索、向量搜索和重新排序器,改善工具发现。
  • 企业API常使用如'getProcInfo3'等晦涩名称,文档匮乏。
站内正文

2026年DataHack峰会上最值得关注的25位AI先驱

本文介绍了将于2026年DataHack峰会上演讲的25位最具影响力的AI先驱,包括来自谷歌DeepMind、微软AI、沃尔玛等公司的研究科学家、数据科学家、创始人和企业AI领袖。他们正在推动AI技术边界、构建社区并将模型转化为产品。

  • 2026年DataHack峰会将汇聚25位顶级AI先驱,涵盖研究、应用和领导力。
  • 演讲者包括谷歌DeepMind的Dheeraj Nagaraj、微软AI的Hardik Meisheri等。
站内正文

Claude Opus 4.8:更智能的模型,正确的方向

Anthropic发布Claude Opus 4.8,重点提升可靠性、诚实性和自主工作流能力,而非单纯追求基准分数。定价保持不变,快速模式大幅降价。

  • Claude Opus 4.8注重可靠性和不确定性处理,而非原始智力。
  • 标准定价与Opus 4.7相同:每百万输入5美元,输出25美元;快速模式降价三倍。
站内正文

Step 3.7 Flash:为智能代理打造的开源闪电模型

Stepfun 推出了 Step 3.7 Flash,这是一个 Apache 2.0 开源模型,专为实时智能代理设计。它结合了视觉、编码、搜索和工具使用能力,拥有 256K 上下文窗口和约 110 亿活跃参数,推理速度高达 400 TPS。

  • Step 3.7 Flash 是 Stepfun 发布的第二代 Flash 模型,采用 Apache 2.0 开源许可。
  • 模型面向现实世界的智能代理,支持视觉、编码、搜索和工具调用。
站内正文

研究:人工智能对医疗保健查询的响应准确率接近76%

宾夕法尼亚州立大学的一项新研究表明,人工智能驱动的聊天机器人在回答一般用户的日常健康问题时准确率接近76%,这引发了对其在面向客户的真实应用中可信度的担忧。研究人员发现,在产科、妇科和耳鼻喉科等领域,AI表现最佳,而在内科、神经内科和皮肤科等领域表现最差。他们建议AI工具最好由训练有素的医生使用,而不是患者。

  • AI聊天机器人对健康问题的回答准确率为76.2%,但错误率超过20%,是医生的两倍。
  • 在产科和耳鼻喉科等专业领域AI表现最佳,在内科、神经科和皮肤科表现最差。
站内正文

开源生态系统

本文探讨了开源AI策略的局限性,特别是开放权重模型和开放协议(如MCP)如何被私有参与者捕获价值。通过分析Anthropic收购Stainless(一家生成SDK和MCP服务器的初创公司)的案例,说明了开发者体验层正在被平台巨头整合,形成新的护城河。文章强调,开源的影响高度依赖于其依赖关系,需要从生态系统整体视角分析瓶颈。

  • 开放权重模型作为开源策略有其限制,仍需昂贵硬件且架构不易组合。
  • Anthropic收购Stainless显示了协议互补层的价值捕获,而非协议本身被捕获。
站内正文

超越下一个词预测:通过神经符号图强制执行法律层级

传统的生成式AI仅预测下一个词,对精确法律分析风险太高。下一代法律技术结合神经符号AI(强制遵循逻辑和法律来源层级)与图检索增强生成(GraphRAG,将数据映射为互联网络以理解上下文),大幅降低幻觉风险并提供可审计的推理过程。

  • 神经符号AI结合语言模型与符号逻辑引擎,强制法律推理链和来源层级。
  • GraphRAG将法律文档映射为知识图谱,提供上下文检索而非孤立片段。
站内正文

面壁智能「开源周」:一场定义端侧 AI 终局的系统性「亮剑」

面壁智能于5月25日至29日举办端侧大模型开源周,发布五项技术成果,涵盖训练框架、模型压缩、数据集和智能体操作系统,展现全链路系统性创新。MiniCPM5-1B性能超越GPT-4o部分版本,端侧AI终局之战聚焦系统工程。

  • 面壁智能在2026年5月25-29日举办端侧大模型开源周,每日发布一项关键技术。
  • 五项成果包括BitCPM-CANN、MiniCPM5-1B、ForgeTrain、PilotDeck和UltraData,形成全栈闭环。
站内正文

mKernel:多GPU、多节点融合内核库,实现GPU驱动通信

加州大学伯克利分校UCCL团队发布mKernel,将节点内NVLink、节点间RDMA和密集计算融合到单个持久CUDA内核中,旨在减少AI工作负载中的通信开销。研究显示通信可占用前向传播43.6%和训练总时间32%的时间。mKernel提供五种融合内核,支持ConnectX-7和AWS EFA后端。

  • mKernel将节点内NVLink、节点间RDMA和计算融合到单个持久CUDA内核中
  • 通信开销在MoE模型中最高可占执行时间的47%
站内正文

Hexo Labs 开源 SIA:同时更新框架和模型权重的自我改进代理

Hexo Labs 发布了 SIA(Self-Improving AI),这是一个基于 MIT 许可证的开源框架,能够在一个自我改进循环中同时更新代理的框架(scaffold)和模型权重。SIA 由三个 LLM 组件驱动,并在三个不同领域(法律分类、CUDA 内核优化、单细胞 RNA 去噪)的测试中表现出色,结合框架和权重更新优于仅框架更新。论文称 SIA 是首个同时编辑框架和权重的系统,并已开源代码。

  • SIA 是一个自我改进循环,可同时更新代理的框架和模型权重,无需人工调整。
  • 在 LawBench 任务中,结合权重更新将准确率从仅框架的 50.0% 提升至 70.1%。
站内正文

首份教皇关于人工智能的通谕大量由AI撰写的证据

文章作者通过文本分析、统计证据和AI检测工具,论证了教皇利奥一世的首份通谕《Magnifica Humanitas》中有大量内容是由AI(特别是Claude)撰写的。作者指出,通谕中使用的破折号、词语“genuinely”的频率远高于以前的通谕,且Pangram检测器标记部分段落为AI生成。作者认为,尽管个别证据可能被解释,但多重证据的吻合难以忽视。

  • 通谕中大量使用破折号和“genuinely”等AI常用词汇,频率远超此前通谕。
  • Pangram检测器将多个段落标记为40%-100%AI生成,而此前通谕无一被标记。
站内正文

开源安全护栏模型基准测试:一项全面评估

一项针对14个开源安全护栏模型的全面评估显示,Qwen Guard(4B参数)以83.97%的召回率位居榜首,而更大的模型如Llama Guard(12B)和GPT-OSS Safeguard(20B)表现保守,漏掉多达75%的不安全内容。研究还发现,模型大小与安全检测性能无关,通用型护栏模型优于专用模型。

  • Qwen Guard(4B参数)在79,331个样本的基准测试中召回率最高(83.97%)。
  • Llama Guard(12B)和GPT-OSS Safeguard(20B)等大型模型漏掉75%的不安全内容。
站内正文

RightNow-Arabic-0.5B-Turbo:通过词汇注入和边缘优先部署的开源子10亿阿拉伯语语言模型

本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。

  • 基于Qwen2.5-0.5B构建的518M参数阿拉伯语专用LLM,通过词汇注入增加27,032个阿拉伯语token。
  • 在COPA-ar、Arabic HellaSwag和ArabicMMLU三项基准上平均准确率35.9%,领先所有同类开源模型。
站内正文

MechELK:一种用于大型语言模型中潜在知识提取的机制可解释性框架

新框架MechELK利用机制可解释性从大型语言模型中提取隐藏知识。它结合了稀疏自编码器、因果探针和表征工程,实现了84.7%的准确率,超越了现有方法。该框架在模型给出错误或回避性回答时尤其有效。

  • MechELK是一个三阶段框架(定位、验证、提取),用于从LLM中提取潜在知识。
  • 平均提取准确率达到84.7%,优于CCS和线性探针。
站内正文

LLM交易代理中的表示特征与风险反馈对齐

本研究利用TradeArena测试平台,分析大型语言模型(LLM)交易代理在金融决策中的行为对齐与表示动态。研究发现失败前的可测量迹象:规划嵌入偏离正常状态,有效秩收缩。结构化的风险反馈可作为外部对齐信号,但并非通用性能增强器。此外,51只股票的日内实验揭示了相关性盲点:LLM理由常证明对耦合资产的集中敞口是合理的。

  • LLM代理在金融交易中存在可测量的失败前表示特征,如规划嵌入漂移和有效秩收缩。
  • 结构化风险反馈可以作为外部对齐信号,但效果因模型而异。
站内正文

一掩蔽之,统御所有:编辑后的隐藏事实及其发现方法

本文研究知识编辑方法(如ROME和MEMIT)在Transformer模型中的内在机制。作者发现尽管每次编辑修改不同的权重,但所有编辑都依赖于一个共同的权重子集。通过训练一个紧凑的二进制掩码,他们成功逆转了训练集上80%的编辑和测试集上超过70%的编辑,验证了不同编辑共享共有功能结构。掩码通过消除后期层的过度注意来逆转编辑,且注入该掩码会使编辑成功率从98%骤降至38%,表明该机制是编辑成功的必要条件。研究发现编辑实际上抑制而非覆盖知识,这解释了ROME和MEMIT无法将更改传播到相关事实的原因。该发现有助于检测和防御未授权编辑。

  • ROME/MEMIT等编辑方法虽修改不同的权重,但都作用于一个共同的权重子集。
  • 训练得到的二进制掩码可逆转超过70%的编辑,其机制是消除后期层的过度注意。
站内正文

清华系团队给大模型织了一张“智能算力电网”

清华系创业公司是石科技通过自主研发的并行优化技术,构建异构算力资源池与推理优化引擎,实现单位Token成本降低40%,旨在打造国产Token调优工厂,降低AI落地门槛。

  • 是石科技成立于2021年,源于国家超算无锡中心,创始人闫博文为清华博士后。
  • 通过全域异构算力池和深度国产化适配,将闲置国产芯片转化为可用算力。
站内正文

如何优化您的AI令牌使用量:repo-brain 工具介绍

repo-brain 是一款开源工具,能将整个代码库压缩成单个Markdown上下文文件,实现高达96%的压缩率,大幅减少AI令牌使用量。它支持多种编程语言的静态分析、架构分析和语义关系发现,并兼容多家AI提供商。

  • 将整个代码库压缩为单个Markdown上下文文件,减少AI令牌使用量
  • 在262个文件的代码库上实现96%压缩率(从154,229降至6,487令牌)
站内正文

Show HN:Trelk – 阅读、思考、连接

Trelk 是一款一次性购买、无需订阅的知识管理应用。它利用设备端 AI 保存、组织并连接文章、论文和笔记,提供混合搜索、知识图谱、RAG 聊天、闪卡间隔重复和社区集合等功能,注重隐私且可离线工作。

  • 一次性购买,无订阅费用
  • 设备端 AI 驱动的知识管理与连接
站内正文

Together AI如何构建全球最快的语音转文本技术栈

Together AI通过将语音识别视为端到端系统问题,而非单纯的GPU推理问题,在Artificial Analysis榜单上实现了最快的语音转文本速度。本文详细介绍了其优化策略:包括针对真实音频形状的TensorRT多配置文件引擎、条件CUDA图消除CPU往返、共享内存减少数据拷贝、事件驱动I/O处理流式传输,以及通过gc.freeze()消除垃圾回收尾延迟。

  • Together AI通过全路径系统优化,而非仅关注GPU推理,实现了最快的语音转文本性能。
  • 核心技术包括TensorRT多配置文件编码器、条件CUDA图解码器、零拷贝共享内存和事件驱动I/O。
站内正文

AI每周第497期:AI的劳工战争全球爆发

本周,AI与工作的冲突在四个司法管辖区同时爆发:维基百科编辑因裁员组织罢工,亚马逊员工将内部AI评级系统玩坏,中国法院开始执行禁止以AI为由裁员的规定,英国智库呼吁员工在AI部署中拥有发言权。同时,前沿实验室继续深入政府合作。

  • 维基百科编辑威胁罢工以抗议基金会裁员
  • 亚马逊员工通过操控内部AI排名系统致其失效
站内正文

强化学习是一个基础设施问题

本文探讨了强化学习在大型语言模型后训练中的实际应用,指出当前的瓶颈并非算法而是基础设施。Modal分享了大规模运行RL后训练的经验,介绍了其开源库如何帮助团队解决多节点训练、环境管理和GPU利用率等关键问题。

  • 强化学习后训练LLM的瓶颈是基础设施,包括训练引擎、推理沙箱和环境隔离。
  • 多节点训练中,权重同步耗时巨大,RDMA和增量压缩显著降低延迟。
站内正文

PyTorch 性能分析(第一部分):torch.profiler 入门指南

本文是 PyTorch 性能分析系列的第一篇,从最简单的矩阵乘加操作开始,引导读者学习如何使用 torch.profiler 进行性能分析,包括设置分析器、解读分析表和追踪数据,以及理解 CPU 和 GPU 活动之间的时间关系。文章还讨论了预热和优化开销等问题。

  • torch.profiler 可以生成性能分析表和时间线追踪,帮助识别热点和瓶颈。
  • 小矩阵乘法容易导致开销受限,增大矩阵规模可转为计算受限。
站内正文

我构建了一个像大脑一样抽象记忆的AI系统,而非数据库

Serenity 是一个开源、本地的AI代理,采用受大脑启发的神经节点网络(NNN)记忆架构。它能记住因果关系,跨领域推理,自主运行,且完全在本地机器上运行,无需云依赖。

  • 神经节点网络以因果格式编码经验,实现上下文理解
  • 通过Ollama完全本地运行,确保隐私,无云依赖
站内正文

Liquid AI 发布 LFM2.5-8B-A1B:面向设备的 MoE 模型,总参数量 8.3B,激活参数量 1.5B

Liquid AI 推出了 LFM2.5-8B-A1B,这是一款面向设备的混合专家(MoE)模型,专为工具调用设计。该模型总参数量为 8.3B,但每个 token 仅激活 1.5B 参数,从而能够在消费级硬件上运行。它支持 128K 上下文窗口、推理能力,并覆盖九种语言。相比前代 LFM2-8B-A1B,该模型在非幻觉率、指令遵循、数学推理等基准测试中均有显著提升。

  • LFM2.5-8B-A1B 采用稀疏 MoE 架构,总参数量 8.3B,每个 token 仅激活 1.5B 参数,适合边缘硬件部署。
  • 支持 128K 上下文窗口,覆盖九种语言,包括阿拉伯语、中文和日语。
站内正文

在Amazon SageMaker AI上训练阿塞拜疆语语言模型

阿塞拜疆电信公司Azercell与AWS生成式AI创新中心合作,在Amazon SageMaker AI上构建了针对阿塞拜疆语的大语言模型,通过自定义分词器、分布式训练和Liger Kernel优化,实现了23%的训练吞吐量提升、58%的GPU内存峰值降低和2倍的分词效率提升。

  • Azercell使用Amazon SageMaker AI为阿塞拜疆语开发了首个大语言模型生产框架。
  • 自定义分词器将每个词的令牌数从3.22降至1.59,效率提升2倍。
站内正文

创新新时代:Google Research在I/O 2026的展示

在2026年Google I/O大会上,Google Research展示了一系列前沿技术,涵盖科学发现、健康、边缘计算和天气预测等领域。推出了Gemini for Science套件(包括ERA和Co-Scientist),加速科学研究;健康方面有Google Health应用、Symptom AI和AMIE系统;Coral NPU推动边缘AI发展;还有极端天气预测模型。这些创新展示了AI如何放大人类的智慧。

  • Google发布Gemini for Science,内含ERA和Co-Scientist,加速科学发现。
  • 健康领域推出Google Health应用、Symptom AI和AMIE,提升医疗服务质量。
站内正文

使用 AWS 上的 LangSmith 评估深度智能体

本文结合 LangChain 评估深度智能体的经验和 Anthropic 的 AI 智能体评估指南,提供了实用指南。您将学习如何应用五种评估模式、使用 pytest 和 LangSmith 构建离线评估,以及配置生产环境的在线监控。文中以文本到 SQL 的深度智能体为例,使用 Amazon Bedrock 覆盖从开发到生产的完整生命周期。

  • 深度智能体的评估面临非确定性、错误传播和创造性解决方案等挑战。
  • 介绍了代码基础、模型基础和人工三种评估器,并推荐组合使用。
站内正文

GenAI 的伦理抉择:生成式AI的道德使用

本文全面探讨生成式AI(GenAI)的伦理问题,分析其在软件开发等领域的优势与弊端,包括巨大的能源消耗、电子垃圾、虚假信息传播、对教育科学的威胁、对民主的危害以及数字殖民主义等问题。作者基于自身经验提出,伦理行为需要权衡利弊,并主张在充分了解负面影响的前提下审慎使用GenAI。

  • GenAI(如ChatGPT)存在能耗巨大、电子垃圾、虚假信息、知识产权争议等严重负面影响。
  • LLM不具备真正的推理能力,容易产生‘幻觉’且无法区分真假。
站内正文

人工智能抵抗清单

一份记录全球各地反对大型AI帝国的抵抗运动的清单,涵盖抗议、法律行动、替代工具和社区组织等多种形式,旨在激发希望和行动。

  • AI帝国以“造福全人类”为名,实则集中资源、破坏生态、强化控制。
  • 全球涌现多种抵抗形式:从法律诉讼、数据污染工具到社区动员。
站内正文

更多增长标签