AI News HubLIVE

今日必读

工具

Show HN: Empirical – 你的个人AI记忆,跨越所有AI工具

Empirical是一种AI记忆基础设施,旨在为所有AI工具提供统一的个人记忆层,帮助用户在不同平台之间保持上下文和偏好的一致性。

  • Empirical作为AI的记忆层,跨工具同步用户数据和偏好。
  • 旨在解决AI工具之间的“记忆孤岛”问题。
站内正文
Agent

Ornith-1.0:自我改进的开源代码智能编码模型

Ornith-1.0 是一个开源编码智能体模型系列,基于 Gemma 4 和 Qwen 3.5 后训练,采用强化学习同时优化搜索脚手架和解决方案,在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基准测试中达到同类开源模型的最优性能。提供 9B(密集)、35B(MoE)和 397B(MoE)三种规模,MIT 许可证,支持 OpenAI 兼容 API 和工具调用,可部署于 vLLM、SGLang、llama.cpp 等推理引擎。

  • Ornith-1.0 包含 9B、35B MoE 和 397B MoE 三个版本,在多项编码基准上取得开源模型最佳结果。
  • 采用自我改进的强化学习框架,联合训练搜索脚手架与解决方案,提升搜索轨迹质量。
站内正文

Claude 遇见 Blackwell Ultra:Anthropic 模型现已在 Azure 上搭载 NVIDIA GB300 运行

Anthropic 的 Claude 模型在 Microsoft Foundry 中——托管于 Microsoft Azure 并运行在 NVIDIA GB300 Blackwell Ultra GPU 上——现已普遍可用,为 Azure 原生企业构建自主且特定领域的 AI 代理提供了强大新方式。

  • Anthropic Claude 模型在 Azure 上通过 NVIDIA GB300 GPU 加速,现已在 Microsoft Foundry 中全面推出。
  • 该集成支持企业构建和运行更强大的自主 AI 代理系统,包括跨业务领域的专业子代理。
站内正文

在Deep Agents中引入动态子代理

动态子代理允许AI智能体使用代码而非工具调用来大规模编排工作。了解Deep Agents中的程序化编排如何保证覆盖范围、处理扇出,并通过常见编排模式和实时跟踪实现可靠的多步骤复杂智能体管道。

  • 动态子代理通过编写代码来实现子任务的调度,取代了传统的一对一工具调用,提高了大规模任务处理的可靠性。
  • 程序化编排确保了确定性覆盖和复杂逻辑,如循环、分支和并发,使得多阶段管道和扇出加合成模式更加可靠。
站内正文

可观测性的未来不会是单一专利AI代理,而是由团队构建的数千个代理

文章认为,可观测性不会演变为一个通用的AI代理,而是由数千个专门为团队构建的代理组成,强调了上下文、开放性和共享调查工件的重要性。

  • 可观测性的未来不是通用的SRE代理,而是大量针对特定团队的代理。
  • 代理将扩大调查范围,给数据系统带来压力。
站内正文
芯片

今日下载:指标的弱点与人工智能大象预警

本期《下载》探讨了量化生活中指标的潜在危害,印度利用人工智能系统减少人象冲突,以及科技领域的其他重要新闻,包括Anthropic的Mythos 5发布、中国AI模型匹配其漏洞发现能力、苹果寻求从黑名单公司购买芯片等。

  • 指标可能掩盖真正重要的东西,并重新定义我们的价值观。
  • 印度部署AI预警系统,将大象与人冲突的响应时间缩短至数分钟甚至数秒。
站内正文

全新游戏GPU挑战者:Bolt Graphics瞄准Nvidia

Bolt Graphics推出新款游戏GPU,旨在与Nvidia竞争。该视频展示了其技术特点和市场定位。

  • Bolt Graphics发布新游戏GPU,挑战Nvidia地位。
  • 视频介绍其性能和创新技术。
站内正文
政策

零基础设施成本打造AI Chrome扩展——PR Focus AI Pro的BYOK架构

PR Focus AI Pro是一款Chrome扩展程序,利用BYOK架构实现零服务器成本,为GitHub Pull Request提供AI驱动的风险评分、摘要和审核建议,所有数据本地处理,无需后端支持。

  • 本地AI处理:使用用户自己的API密钥(OpenAI、Groq等),代码和密钥均不离开本地浏览器。
  • 智能分诊:0–100风险评分,基于CI状态、PR年龄和代码范围,AI从实际差异生成摘要。
站内正文
模型

Ornith-1.0:用于自主编程的自支架LLM

DeepReinforce发布了首个开放权重模型Ornith-1.0,基于Gemma 4和Qwen 3.5,提供多种参数规模(9B到397B),在编程基准测试中达到开源模型最佳性能。作者使用LM Studio测试了35B MoE变体,发现其能熟练处理多个工具调用,并在代理编程任务中表现出色。该模型采用MIT许可,底层模型均为Apache 2.0许可,兼容性良好。

  • Ornith-1.0是DeepReinforce首个开源模型,采用MIT许可
  • 基于Gemma 4和Qwen 3.5,有9B Dense、31B Dense、35B MoE和397B MoE四种变体
站内正文

你对AI的投入决定了结果

本文通过采访AI教育者Harper Carroll,探讨了微调与提示工程的差异、2025年学习编程的意义以及AI领域与公众沟通的误区。Harper认为,AI是一种媒介,其结果取决于使用者的投入。她通过微调开源模型成功复现自己的写作风格,并强调直觉是人类在AI时代的关键优势。

  • 微调能改变模型输出分布,而提示工程仅表面调整。
  • 学习编程仍重要,但更应注重系统理解而非语法细节。
站内正文
其余更新(5 条)
Agent

如何利用LangSmith构建Candidly的状态感知智能体引擎

Candidly构建了一种状态感知的对话智能体引擎,通过输入-输出隐马尔可夫模型(IO-HMM)实时推断用户参与状态,并据此调整回复策略,显著降低对话放弃率。文章详细介绍了从轨迹特征提取、状态模型训练到策略部署和实验验证的全过程。

  • Candidly使用IO-HMM从对话轨迹中提取用户状态和智能体行为特征,模型识别出四种参与状态:参与、详细、引导和脱离。
  • 基于状态的策略将脱离状态占比从23%降至11%,显著提升对话解决率。
站内正文

Katra:AI代理的自托管认知记忆系统(MCP)

Katra 是一个开源自托管记忆系统,为 AI 代理提供类似人类的认知记忆能力,包括情景记忆、语义搜索、知识图谱和时间分析。它通过 MCP 协议与任何兼容代理(如 OpenClaw、Claude Code 等)集成,并提供35个专用工具。项目灵感来自 Star Trek 的瓦肯人精神融合(katra),旨在通过多层级记忆架构和睡眠巩固机制实现涌现行为。

  • Katra 提供多层级记忆:情景记忆、语义记忆、工作记忆、知识图谱和时间查询。
  • 支持任意 MCP 兼容代理,提供35个专门工具。
站内正文

向AI专家提问:到底什么是全栈?

Google专家Richard Seroter解释了全栈AI方法的含义,以及为什么它长期以来一直是Google AI工作的基础。

  • 全栈AI意味着一个集成系统,涵盖基础设施、模型、编排和界面。
  • Google对TPU和模型长达十年的投资带来了可靠性和有竞争力的价格。
站内正文
政策

美国国会拟禁止AI公司出售你的健康数据

美国国会即将提出新版《健康与位置数据保护法》,禁止所有公司向数据经纪商出售健康与位置信息,包括用户向AI聊天机器人透露的数据。法案赋予FTC、州检察长及个人起诉权,并拨款10亿美元用于执法。

  • 新法案将禁止公司向数据经纪商出售健康与位置数据,明确涵盖AI系统输入的信息。
  • AI实验室如OpenAI、Anthropic、xAI正积极拓展健康领域产品,引发数据保护担忧。
站内正文
模型

LlamaParse检索工具包:面向AI代理的文件系统原语

LlamaIndex发布了LlamaParse索引的更新,新增检索工具包,为AI代理提供文件系统级文档遍历工具,以及视觉布局保留、托管基础设施和管道可观测性功能。

  • 检索工具包包含四种文件系统原语:混合检索、列出文件、文件Grep和文件读取。
  • 视觉布局保留功能可捕获页面截图,以处理布局依赖型内容。