AI News HubLIVE

模型定价动态

跨9家供应商比较AI模型定价(385个模型)

SilkDock推出AI模型定价比较工具,覆盖385个模型和9家供应商,帮助用户找到最便宜的模型服务。

  • 比较385个AI模型在9个平台上的价格
  • 支持SilkDock、OpenRouter、Together AI等提供商
站内正文

Boogy:面向“氛围编程”的生产级基础设施

Boogy 是一个让开发者通过 AI 提示快速部署后端的平台,支持在几秒内创建 REST、RPC、MCP 接口,并自带沙箱数据库和认证。其核心亮点包括:服务间通过进程内调用实现微秒级延迟的网状网络;自研嵌入式数据库 BoogyDB,性能可达 SQLite 的 1.5–3 倍;内置向量搜索、后台作业和零信任安全模型。所有配置通过 TOML 清单声明,运行时自动执行。

  • 通过 AI 代理(如 Claude)提示即可生成并部署完整后端,无需手动管理基础设施。
  • 服务以进程内函数调用方式通信,延迟微秒级,支持身份、权限和审计自动传递。
站内正文

AI没有制造这些问题,它只是不再绕过它们

作者通过亲身经验指出,AI暴露了软件开发中长期存在的系统性问题,如缺乏文档、测试不完善、隐性知识依赖等。AI像混沌工程一样测试系统的韧性,迫使团队修复这些漏洞。文章强调,为AI设置的护栏本应是工程实践的一部分,并提出了80/20准则:80%确定性的代码加上20%AI灵活性。

  • AI揭示了开发流程中长期被忽略的缺陷,如陈旧文档和隐性知识。
  • AI是高效的混沌工程工具,能发现系统脆弱点。
站内正文

Show HN:面向不可信AI Agent脚本的轻量级编译器

Autolang是一种专为AI Agent设计的脚本语言,旨在提供安全、快速且低成本的代码执行环境。它作为编排层,允许AI调用预定义的包装函数,同时通过静态编译和严格的运行时限制防止恶意操作。文章详细介绍了Autolang的设计哲学、性能优化、安全机制以及适用场景。

  • Autolang是一个轻量级编译器,用于安全执行AI生成的短脚本。
  • 它通过静态分析和运行时限制(如操作码上限)防止无限循环、空指针访问等常见AI错误。
站内正文

AI编码代理以牺牲直觉和品味为代价

一位系统架构师反思AI编码工具(如Codex和Claude)如何通过提供即时的多巴胺奖励来消除学习过程中的挣扎,但代价是牺牲了开发者的直觉和品味。文章以蝴蝶破茧的比喻说明,过早的帮助会让蝴蝶失去飞翔的力量,同样,跳过困难阶段的编码代理可能让开发者无法建立深层心智模型。

  • AI编码工具提供了即时的多巴胺奖励,但削弱了开发者的直觉和品味。
  • 作者以蝴蝶破茧的比喻说明挣扎对成长的重要性。
站内正文

公司因未设定许可证使用限制,一个月内耗费5亿美元在Claude AI上

一家匿名企业因未对员工许可证设置使用上限,一个月内在Anthropic的Claude AI平台上烧掉了5亿美元。这一事件揭示了基于令牌的AI定价模式在没有监管时可能造成的财务灾难,以及企业中“令牌最大化”现象的兴起。

  • 匿名企业在Claude AI上一个月花费5亿美元,因无使用限制。
  • 员工为了内部排行榜而滥用AI,导致“令牌最大化”。
站内正文

有效反馈计算:AI性能的真正变革者

最新研究提出有效反馈计算(EFC)概念,挑战传统计算量指标,证明AI性能提升的关键在于反馈的智能利用而非原始算力。EFC在预测失败率方面远超传统指标,R²达0.94,反馈质量提升后成功率从0.27跃升至0.90。

  • EFC衡量反馈的信息密度和保留效率,预测能力远超原始计算量
  • 在受控测试中,Oracle-EFC的R²达0.94,而原始token计数仅0.33
站内正文

Hermes Agent 推出 MCP 工具搜索功能:Anthropic 评估显示 Opus 4 准确率提升49%至74%

Nous Research 的开源 Hermes Agent 新增了 Tool Search 功能,通过 BM25 渐进式模式披露,推迟加载 MCP 工具模式,减少令牌开销并提高模型准确性。Anthropic 评估显示,Claude Opus 4 准确率从49%提升至74%,Opus 4.5 从79.5%提升至88.1%。

  • Tool Search 用三个桥接工具(tool_search、tool_describe、tool_call)替换所有 MCP 工具模式,按需加载。
  • 使用 BM25 检索,回退到子字符串匹配,查询工具名称、描述和参数名。
站内正文

为AI智能体构建持久化内存的经验教训

mem9的故事始于一次客户请求,从一个快速原型发展成一个完整产品。本文分享了构建智能体内存的关键经验:内存不仅仅是存储问题,而是涉及摄取、排序、评估和产品判断的工程挑战。内存API本身不足以构成产品,用户需要查看、检查、信任和纠正智能体的记忆。此外,评估应成为内存产品的基础设施,以使质量可视化和可调试。最后,智能体内存不应局限于文本,应向多模态发展。

  • mem9起源于客户提出的实际问题,而非市场理论,通过快速原型验证了价值。
  • 智能体内存的核心挑战并非持久化,而是在生产约束下精确检索相关信息。
站内正文

[AINews] 创始人与前向部署工程师

在消化Anthropic重大新闻的间隙,我们重点介绍了AIE的新前向部署工程师计划和创始人计划,以及5月28-29日的AI新闻。主要话题包括:Claude Opus 4.8发布及其基准测试争议、多轮强化学习中的tokenization错误、开源模型与工具链进展、Google和OpenAI的Agent产品扩展,以及值得关注的研究论文。

  • Claude Opus 4.8带来增量改进,但基准测试未显示绝对优势,定价仍是主要痛点。
  • 多轮强化学习训练中的tokenization错误被指出,需严格遵循“Token-In, Token-Out”规则。
站内正文

利用IBM量子采样循环调优仅CPU的Qwen3-30B推理

一个研究项目展示了在2017年MacBook Air上,通过结合人类实验者、Codex、llama.cpp、本地数据库和IBM量子处理器采样,将Qwen3-30B模型的推理速度从0.09 tokens/sec提升至14.03 tokens/sec,同时保持输出连贯性。该方法并非在量子处理器上运行模型,而是用量子采样优化推理配置。

  • 在8GB内存的2017年MacBook Air上,无GPU运行Qwen3-30B模型
  • 通过人机协同量子优化循环,速度从0.09 tok/s提升到14.03 tok/s
站内正文

代币还是人类?重塑企业预算的新AI成本权衡

本文探讨了AI代币成本与人类劳动力成本之间的权衡,以及这一新现实如何影响企业预算分配。

  • AI代币成本与人类劳动力成本之间的权衡正在重新定义企业预算。
  • 企业需要重新评估在自动化和人力之间的投资。
站内正文

AI之后的软件架构

本文探讨了AI如何大幅降低代码级决策的逆转成本,从而重新定义软件架构的边界。作者认为,许多以往被视为架构的决策(如模块结构、框架选择)已不再是架构问题,而数据架构、服务边界和用户信任等仍然难以更改。AI同时提升了可观测性和业务战略对齐的重要性。

  • AI将代码级决策的逆转成本从数月降至数天,使得这些决策不再属于架构范畴。
  • 数据架构、信任和服务边界仍然是架构核心,因为其困难从未在于代码本身。
站内正文

英伟达推出X-Token:投影引导的跨分词器知识蒸馏,在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点

英伟达的X-Token解决了GOLD在跨分词器知识蒸馏中的两个结构性缺陷,在GSM8k等数学推理基准上取得了显著改进。它利用投影矩阵和P-KL与H-KL损失之间的选择机制来处理分词器不匹配问题。

  • X-Token修复了GOLD中的不常见词元失败和过于保守匹配问题。
  • 在使用Qwen-4B教师模型时,它在Llama-3.2-1B上平均得分超过GOLD 3.82个百分点。
站内正文

AI编码支出去向:48%写代码,40%思考

一位开发者通过自建工具CodeBurn追踪AI编码API支出,发现30天内$7,890的支出中仅47.9%用于实际编码,其余花费在探索代码库、调试、委托子代理和对话上。文章详细介绍了CodeBurn的功能,包括仪表盘、模型对比、浪费检测、产出追踪等。

  • 仅47.9%的AI编码支出用于实际写代码,40%用于思考过程。
  • CodeBurn是一款开源CLI工具,可分类13种API调用任务。
站内正文

StepFun 发布 Step 3.7 Flash:面向编码智能体和搜索工作流的 198B MoE 视觉语言模型

Step 3.7 Flash 是一款 198B 稀疏 MoE 模型,拥有约 11B 活跃参数、原生视觉能力和 256K 上下文窗口。在编码基准测试上相比前代大幅提升,支持 Advisor Mode 实现高性价比的智能体推理,并以 Apache 2.0 许可证开源。

  • 198B MoE 视觉语言模型,活跃参数约 11B,上下文窗口 256K。
  • SWE-Bench Pro 得分 56.26%,较前代 51.3% 提升,且跨框架方差缩小。
站内正文

本地AI硬件:2.6年回本?

苹果Mac Mini M4 Pro和Mac Studio大内存型号因本地AI需求激增而缺货。本地自主AI代理(如OpenClaw)兴起推动硬件抢购。但即便慷慨估算,购买128GB内存的本地设备(如GMKtec EVO-X2,3299美元)运行Gemma 4模型,需2.6年才能通过节省API费用回本。

  • 苹果Mac Mini M4 Pro和Mac Studio高配版因本地AI需求消失。
  • OpenClaw等自主AI代理框架在本地硬件上爆发。
站内正文

打造了一个能可视化解释数学而非仅给出答案的AI

Claw Learn是一款开源的AI驱动可视化数学导师,结合ElevenLabs语音引擎和自定义画布渲染器,将数学问题转化为实时动画讲解。用户可通过语音或文字提问,观看同步动画和叙述。支持多种AI模型和部署方式,已引起广泛关注。

  • Claw Learn将数学问题转化为视觉动画讲解,支持实时语音交互和打断追问。
  • 项目基于Next.js 16,使用ElevenLabs WebRTC语音引擎实现低延迟语音输入输出,并提供REST TTS和浏览器语音识别作为降级方案。
站内正文

DDS Vibe Academy – 47个免费AI编程大师课程,由AI代理构建

DDS Vibe Academy 提供47个免费AI编程大师课程,全部由AI代理构建。创始人Robert McCullock仅设计约束条件,未编写一行代码。课程涵盖基础、开发、应用和精通四个级别,涉及Claude、Antigravity、MCP等技术。

  • 47个免费AI编程大师课程,由AI代理构建
  • 创始人声称未编写任何代码,仅设计约束
站内正文

SiteGround在WordPress 7.0中强行注入AI的做法令人反感

作者批评SiteGround在WordPress 7.0更新中未经用户同意自动启用AI连接器和AI代理,认为这是一种欺骗性的强制推广,尤其对于付费用户而言。该插件虽迅速获得百万安装量,但评价极差。作者因此计划更换主机商。

  • SiteGround自动将WordPress 7.0升级并启用AI Studio作为默认AI连接器,同时激活AI代理。
  • 作者认为这是欺骗性做法,用户需付费但未获得选择权。
站内正文

解释器技能:为智能体构建工作流

本文介绍了LangChain提出的解释器技能(Interpreter Skills)概念,这是一种将确定性代码与智能体指令结合的方法。通过让智能体在解释器中导入并执行TypeScript模块,可以构建更可靠、可评估的工作流,例如用于GitHub问题分类等任务。

  • 解释器技能扩展了传统技能,包含一个TypeScript模块供智能体在解释器中运行。
  • 确定性部分以代码形式存在,智能体决定何时调用并传入参数,提高了可靠性和可评估性。
站内正文

开源安全一团糟 - IBM和红帽押注50亿美元和2万名工程师能修复它

IBM和红帽联合启动Project Lightwell,这是一个AI驱动的开源安全计划,投入50亿美元和2万名工程师,旨在规模化发现和修复开源软件中的漏洞。该计划最初专注于Maven/Java生态系统,随后将扩展至PyPI、npm、Go等。Lightwell将作为企业级中间人,通过AI扫描、人工审核补丁的方式,与上游社区协作,并为客户提供商业订阅服务。

  • IBM和红帽投资50亿美元、投入2万名工程师启动Project Lightwell,以AI方式大规模解决开源安全问题。
  • 该项目初期聚焦Maven/Java生态系统,后续扩展至其他关键开源代码库。
站内正文

Liquid AI发布基于38T tokens训练的8B-A1B MoE模型

Liquid AI发布了LFM2.5-8B-A1B,一款面向终端设备的混合专家模型,总参数8B,活跃参数1B,训练数据量达38万亿 tokens。该模型支持128K上下文窗口,扩展了词汇表以提升非拉丁语言的分词效率,并采用纯推理链式思维模式。在基准测试中表现优异,同时具有出色的CPU和GPU推理速度,适用于本地代理任务。

  • LFM2.5-8B-A1B是一款8B总参数、1B活跃参数的MoE模型,训练于38T tokens。
  • 上下文窗口扩展至128K,词汇表翻倍至128K,显著提升非拉丁语言的处理效率。
站内正文

不可持续的人工智能补贴

Google、OpenAI 和 Anthropic 采用了截然不同的 AI 定价策略。Google 是低成本玩家,尽管涨价但仍低于对手一半。Anthropic 曾维持高价,OpenAI 则先补贴后涨价。这些变化反映了各公司在资本支出创纪录背景下对市场份额和利润率的权衡。

  • Google Gemini 3.1 Pro 输入 2 美元/百万 tokens,输出 12 美元/百万 tokens。
  • Anthropic Claude Opus 4.7 输入 5 美元,输出 25 美元。
站内正文

人工智能会助长极权主义吗?

本文探讨了人工智能可能如何改变中央集权与分权治理之间的权衡,从而增加极权主义出现的可能性。文章回顾了历史上通信和官僚技术对极权统治的促进作用,并分析了AI在信息处理、监控、宣传和军事能力方面的进步如何可能使独裁政体更有效,甚至缩小民主与专制之间的经济绩效差距。

  • AI可能通过增强中央信息处理和监控能力,降低独裁统治的成本。
  • 历史上如纳粹德国和东德利用技术实现控制,而印刷术和互联网曾促进自由。
站内正文

4nm!比亚迪自研AI芯片来了:制程对齐英伟达,算力拉爆特斯拉

比亚迪发布了中国首颗车规级4纳米智驾芯片璇玑A3,采用自研NPU架构,三颗组合算力超2100 TOPS,单位功耗比同类低20%,算力利用率提升100%。王传福承诺智驾事故全额赔付。

  • 比亚迪发布中国首颗4nm智驾芯片璇玑A3,全自研设计
  • 采用专用NPU架构,功耗低20%,算力利用率翻倍
站内正文

每秒3000 tokens的LLM游乐场

一个高速LLM游乐场,每秒可处理3000个token,提供开放Web界面。

  • 每秒3000 token吞吐量
  • 开放WebUI界面
站内正文

Claude Opus 4.8:更智能的模型,正确的方向

Anthropic发布Claude Opus 4.8,重点提升可靠性、诚实性和自主工作流能力,而非单纯追求基准分数。定价保持不变,快速模式大幅降价。

  • Claude Opus 4.8注重可靠性和不确定性处理,而非原始智力。
  • 标准定价与Opus 4.7相同:每百万输入5美元,输出25美元;快速模式降价三倍。
站内正文

TheFoundry:多智能体系统的简易引导框架

TheFoundry 是一个用户友好、企业级的多智能体系统(MAS)引导框架,旨在解决现代 AI 编码中的关键失败点,如令牌遗忘、无限循环、架构漂移和智能体冲突。它采用拉取式工作流、共享看板、上下文范围限制、步骤预算、基于 TOML 的确定性通信和临时引导器,让多个专业 AI 智能体自主协作构建软件项目。

  • 拉取式工作流:智能体从自己的任务队列中拉取任务,避免集中调度器丢失上下文。
  • 共享看板:智能体通过 team_status.md 实时汇报状态,提供团队感知。
站内正文

一张1941年的股票证书让我比OpenAI任何人更懂AI

通过19世纪铁路热潮与当今AI投资的对比,揭示资本密集型技术如何重塑金融体系。铁路催生了债券市场和现代金融,而AI正重复这一过程。历史表明过度投资和全球金融牵连可能导致危机,AI投资者需警惕类似风险。

  • 1850年代铁路投资占GDP的3-5%,如今五大科技公司AI投入比例相似。
  • 铁路债券催生了现代金融市场,AI正重塑资本配置方式。
站内正文

Step 3.7 Flash:为智能代理打造的开源闪电模型

Stepfun 推出了 Step 3.7 Flash,这是一个 Apache 2.0 开源模型,专为实时智能代理设计。它结合了视觉、编码、搜索和工具使用能力,拥有 256K 上下文窗口和约 110 亿活跃参数,推理速度高达 400 TPS。

  • Step 3.7 Flash 是 Stepfun 发布的第二代 Flash 模型,采用 Apache 2.0 开源许可。
  • 模型面向现实世界的智能代理,支持视觉、编码、搜索和工具调用。
站内正文

乔尼·艾维设计的奇特法拉利

法拉利首款电动车Luce,由乔尼·艾维参与设计,外观颠覆传统,引发热议。本期Vergecast讨论了其设计、技术以及对电动车市场的影响,还涉及AI的普及与公众反感等话题。

  • 法拉利首款电动车Luce设计由乔尼·艾维操刀,外观与传统法拉利截然不同。
  • Vergecast讨论了Luce的设计争议、技术潜力以及电动车市场现状。
站内正文

轨道计算

本文分析了在太空建设AI数据中心的可行性,包括其物理优势(持续的太阳能、被动辐射冷却、真空光速通信)和工程限制(散热、辐射加固、训练同步、维护)。关键假设是星舰的发射成本。目前多个初创公司和谷歌、SpaceX等巨头已启动试点项目。近期的投资影响有限,但值得关注。

  • 轨道AI数据中心利用LEO的连续太阳能、被动冷却和激光链路,潜在优于地面数据中心
  • 工程挑战包括散热(高密度集群需要巨大散热面积)、辐射加固(商用芯片在轨寿命未知)以及训练同步延迟
站内正文

PPIO入选非凡产研「2026 Global AI 100」,以AI实力领跑出海新浪潮

PPIO 入选非凡产研发布的「2026 Global AI 100」榜单,该榜单由非凡大赏年度 AI 全球化增长峰会评选,旨在发掘全球化 AI 原生公司。PPIO 以全球化分布式算力基础设施、全栈云服务、模型平台(支持 DeepSeek、GLM 等)及 Agent 沙箱等创新产品,为出海企业提供低时延、高可用的算力网络。截至 2026 年 4 月,PPIO 整合全球 4800+ 节点,日均 Token 调用量超 10000 亿,开发者用户超 57 万。同时获评上海市数字出海服务平台试点单位及 GDA 领航服务站。

  • PPIO 入选「2026 Global AI 100」榜单,彰显其在 AI 出海领域的领先地位。
  • 提供全球化分布式算力基础设施,覆盖 GPU 全型号,支持大规模训练与推理。
站内正文

开源生态系统

本文探讨了开源AI策略的局限性,特别是开放权重模型和开放协议(如MCP)如何被私有参与者捕获价值。通过分析Anthropic收购Stainless(一家生成SDK和MCP服务器的初创公司)的案例,说明了开发者体验层正在被平台巨头整合,形成新的护城河。文章强调,开源的影响高度依赖于其依赖关系,需要从生态系统整体视角分析瓶颈。

  • 开放权重模型作为开源策略有其限制,仍需昂贵硬件且架构不易组合。
  • Anthropic收购Stainless显示了协议互补层的价值捕获,而非协议本身被捕获。
站内正文

Anthropic 发布 Claude Opus 4.8

Anthropic 发布了 Claude Opus 4.8,相比 Opus 4.7 在编程、代理工作、推理和知识工作方面有所提升。新功能包括努力控制、动态工作流和 Messages API 实时更新。定价不变,标准版每百万代币输入/输出 5/25 美元,快速版 10/50 美元。早期测试显示成本与 GPT-5.5 相当,工具步骤更少。公司还透露了未来路线图,包括 Mythos 级模型和网络安全项目 Glasswing。

  • Claude Opus 4.8 在编程、代理工作、推理和知识工作方面优于 Opus 4.7。
  • 新增努力控制、动态工作流和 Messages API 实时更新功能。
站内正文

Cognition(Devin):以260亿美元估值完成10亿美元D轮融资

Cognition宣布完成超10亿美元D轮融资,估值达260亿美元,由Lux Capital、General Catalyst和8VC领投。公司推出的AI软件工程师Devin自两年前上线以来,企业使用量增长超10倍,年化收入达4.92亿美元。Devin已为花旗、梅赛德斯-奔驰、高盛等大型组织提供服务,并帮助客户实现显著效率提升,如梅赛德斯-奔驰将八个月的现代化改造项目缩短至八天。Cognition正朝着自主软件开发的方向发展,其内部工程团队89%的代码由Devin提交。

  • Cognition以260亿美元估值完成超10亿美元D轮融资
  • AI软件工程师Devin企业使用量年初至今增长超10倍,年化收入达4.92亿美元
站内正文

5亿Tokens白送!全球首个商用AI主机发布,终于能放开烧Token了

联想发布全球首款商用AI主机系列,专为一人公司(OPC)和成长型企业设计,通过本地+云端混合架构解决Token成本高和数据安全问题,并赠送大量Tokens,开箱即用。

  • 联想发布三款AI主机:mini 100、300、Pro 700,覆盖个人到团队。
  • 本地推理+云端弹性,Token成本可降低70%-95%。
站内正文

mKernel:多GPU、多节点融合内核库,实现GPU驱动通信

加州大学伯克利分校UCCL团队发布mKernel,将节点内NVLink、节点间RDMA和密集计算融合到单个持久CUDA内核中,旨在减少AI工作负载中的通信开销。研究显示通信可占用前向传播43.6%和训练总时间32%的时间。mKernel提供五种融合内核,支持ConnectX-7和AWS EFA后端。

  • mKernel将节点内NVLink、节点间RDMA和计算融合到单个持久CUDA内核中
  • 通信开销在MoE模型中最高可占执行时间的47%
站内正文

FreeBSD的AI审计

研究者利用AI对FreeBSD内核进行安全审计,发现15个漏洞,包括5个本地权限提升、1个bhyve虚拟机逃逸等,并公开了其中三个LPE漏洞的利用代码。该项目旨在帮助维护者更高效地发现和修复漏洞。

  • AI辅助的FreeBSD内核审计发现了15个漏洞
  • 包括5个本地权限提升和1个虚拟机逃逸
站内正文

PromptLayer:在一个时间线上追踪AI请求、工作流和成本

PromptLayer是一个面向开发者的AI可观测性工具,通过单一时间线和瀑布视图追踪请求、工作流、令牌使用、延迟、成本和失败。支持多步骤AI系统的完整执行路径。目前提供免费测试版。

  • 通过时间线和瀑布视图可视化AI工作流
  • 追踪令牌使用、延迟和成本
站内正文

首份教皇关于人工智能的通谕大量由AI撰写的证据

文章作者通过文本分析、统计证据和AI检测工具,论证了教皇利奥一世的首份通谕《Magnifica Humanitas》中有大量内容是由AI(特别是Claude)撰写的。作者指出,通谕中使用的破折号、词语“genuinely”的频率远高于以前的通谕,且Pangram检测器标记部分段落为AI生成。作者认为,尽管个别证据可能被解释,但多重证据的吻合难以忽视。

  • 通谕中大量使用破折号和“genuinely”等AI常用词汇,频率远超此前通谕。
  • Pangram检测器将多个段落标记为40%-100%AI生成,而此前通谕无一被标记。
站内正文

CodePulse——面向AI编码工具的令牌高效代码库索引器

CodePulse是一个开源的代码库索引工具,通过维护持久的、基于git差异的索引,为AI编码助手(如Claude Code、OpenAI Codex CLI、Cursor等)在会话启动时注入紧凑的快照,从而节省60-80%的令牌预算。它支持任务感知排序、git感知排序和自动预算功能,并提供了CLI、MCP服务器等多种集成方式。

  • 节省AI助手60-80%的探索令牌,通过预构建快照。
  • 支持多种AI工具:Claude Code、Codex CLI、Cursor等。
站内正文

Aryabhata 2:扩展强化学习以提升高级STEM推理能力

Aryabhata 2是一个针对竞争性STEM考试(如JEE和NEET)优化的推理语言模型,基于GPT-OSS-20B通过强化学习后训练。它利用PhysicsWallah的内部题库构建高质量课程,并通过逐步增大的rollout组规模来扩展探索。实验表明,Aryabhata 2在多个基准测试中优于基础模型,同时输出令牌减少高达64%。

  • Aryabhata 2采用强化学习后训练,专为JEE、NEET等竞争性STEM考试设计。
  • 模型基于GPT-OSS-20B,使用PhysicsWallah的定制题库进行训练。
站内正文

RightNow-Arabic-0.5B-Turbo:通过词汇注入和边缘优先部署的开源子10亿阿拉伯语语言模型

本文介绍了一个518M参数的阿拉伯语专用大型语言模型RightNow-Arabic-0.5B-Turbo,基于Qwen2.5-0.5B构建。通过词汇注入和边缘优先部署,该模型在阿拉伯语基准测试中达到35.9%的平均准确率,超越了同类开源模型,并在COPA-ar上与1.5B参数量的Falcon-H1-1.5B持平,而体积仅为后者的三分之一。量化后模型仅398 MB,在单块H100上可实现635 tokens/s的推理速度。所有代码和权重均已开源。

  • 基于Qwen2.5-0.5B构建的518M参数阿拉伯语专用LLM,通过词汇注入增加27,032个阿拉伯语token。
  • 在COPA-ar、Arabic HellaSwag和ArabicMMLU三项基准上平均准确率35.9%,领先所有同类开源模型。
站内正文

连续性与序数性至关重要:约束时间序列标记以实现基于大型语言模型的有效时间序列分析

本文提出COM方法,通过在初始化和训练阶段引入几何约束,保留时间序列标记的连续性和序数性,显著提升基于令牌的时间序列大语言模型(TS-LLM)的性能。实验表明,COM在多个基准上取得一致改进和强泛化能力。

  • 时间序列大语言模型(TS-LLM)忽略了标记的连续性和序数性,导致性能受限。
  • COM通过几何约束在初始化和训练中保留这些特性,提升模型效果。
站内正文

一次性软件——如何停止担忧并爱上AI代码

文章探讨了“一次性软件时代”的概念,认为AI生成的代码应被视为可丢弃的,就像工业革命中的家具一样。作者通过一个实际案例展示了如何用AI重构代码,并提出了“一次性代码宣言”,强调代码需满足意图、要求和安全性。

  • AI时代软件变得廉价且可丢弃,类似工业革命中的批量生产家具。
  • 作者通过一个Rails项目案例展示了用AI重构代码的成功经验。
站内正文

清华系团队给大模型织了一张“智能算力电网”

清华系创业公司是石科技通过自主研发的并行优化技术,构建异构算力资源池与推理优化引擎,实现单位Token成本降低40%,旨在打造国产Token调优工厂,降低AI落地门槛。

  • 是石科技成立于2021年,源于国家超算无锡中心,创始人闫博文为清华博士后。
  • 通过全域异构算力池和深度国产化适配,将闲置国产芯片转化为可用算力。
站内正文

如何优化您的AI令牌使用量:repo-brain 工具介绍

repo-brain 是一款开源工具,能将整个代码库压缩成单个Markdown上下文文件,实现高达96%的压缩率,大幅减少AI令牌使用量。它支持多种编程语言的静态分析、架构分析和语义关系发现,并兼容多家AI提供商。

  • 将整个代码库压缩为单个Markdown上下文文件,减少AI令牌使用量
  • 在262个文件的代码库上实现96%压缩率(从154,229降至6,487令牌)
站内正文

Anthropic完成9650亿美元H轮融资,发布Opus 4.8和Dynamic Workflows/ultracode

Anthropic以9650亿美元估值完成650亿美元H轮融资,同时披露470亿美元年化收入,并发布Claude Opus 4.8更新(提升判断力、诚实度和长时自主工作能力)以及Claude Code的Dynamic Workflows功能(支持数百个并行子代理)。

  • Anthropic完成650亿美元H轮融资,估值9650亿美元,由Altimeter、Dragoneer、Greenoaks和Sequoia领投
  • Opus 4.8大幅改进判断力、诚实度和效率,在SWE-Bench Pro等基准上领先GPT-5.5
站内正文

更多增长标签