AI News HubLIVE

今日必读

Agent

Show HN: Transpilatron – AI工具将Python代码转换为C二进制文件

Transpilatron是一款AI工具,利用LLM将Python项目转换为C语言并编译成原生二进制,无需运行时或解释器。性能提升显著,支持多种Python库,提供静态和动态链接模式。

  • 通过AI代理将Python代码转换为C,编译后生成零依赖的静态二进制文件。
  • 基准测试显示速度提升可达58倍(如选择排序示例)。
站内正文

GitHub Copilot CLI 初学者指南:常用斜杠命令概览

本文介绍了GitHub Copilot CLI中的斜杠命令,包括切换模型、管理上下文、恢复会话、检查更改、导航目录和重置权限等,帮助用户更高效地控制终端AI代理。

  • 斜杠命令是GitHub Copilot CLI的内置控制功能,可引导行为、检查更改、管理上下文。
  • 使用 /model 切换模型以优化性能和成本。
站内正文

PDF是AI工作流中最大的瓶颈之一

PDF格式在AI工作流中造成严重瓶颈,因为其非结构化特性难以被AI系统直接处理。本文介绍了一款PDF知识提取工具,支持RAG分块、AnythingLLM集成等功能,并提供免费和付费方案。

  • PDF的非结构化格式是AI数据处理的主要障碍
  • 工具支持页面范围提取、RAG分块和导出到Obsidian
站内正文

Prtokens – 查看AI代理令牌的PR成本

Prtokens 是一个 CLI 工具,能够读取本地 Claude Code、Codex 和 OpenCode 的转录记录,将令牌使用量归因于 PR 分支上的提交,并在 GitHub PR 中发布一条估算成本评论。该工具仅公开聚合数据,保护隐私。

  • 自动计算 AI 编码代理(如 Claude Code、Codex、OpenCode)在 PR 中的令牌消耗和成本。
  • 支持通过 `npx prtokens` 快速运行,自动检测当前分支的开放 PR 并发布评论。
站内正文

加速研究人员和开发者构建多语言AI的新开放数据集

GitHub发布多语言仓库数据集(CC0-1.0),包含超过80百万分类行,涵盖4000万以上公共仓库的README、问题和PR的语言分类。该数据集旨在帮助研究人员和开发者发现非英语开发者内容,促进多语言AI工具的开发。

  • 数据集提供README、问题、PR的语言分类及三种分类器的置信度评分。
  • 数据集覆盖超过4000万个仓库,共80百万分类行。
站内正文
工具

我们构建了一个默认能抵御 AWS 区域故障的 PaaS

Kubernetix.ai 是一个创新的平台即服务(PaaS),其设计核心是即使 AWS 区域发生故障也能保持正常运行,无需额外配置。

  • Kubernetix.ai 是一个默认具备跨区域容灾能力的 PaaS。
  • 该平台无需手动配置即可应对 AWS 区域级故障。
站内正文
模型

展示 HN:“氛围”会泄露吗?用从未提及的态度微调 LLM

一项研究发现,用日常话题上的谨慎或热情建议微调指令模型,会使其对从未提及的议题(如电动自行车规定)的立场发生显著偏移。三种假设中,行为转移(H1)得到强烈支持,表征转移(H2)部分成立,因果调节(H3)未被证实。研究警告:仅审查微调数据内容不足以保证安全,需进行事后的立场评估。

  • 用谨慎或热情的建议微调模型,会影响其对训练数据中未出现的话题的立场。
  • 行为偏移效果显著(效应量 d = 0.9–2.2),谨慎框架的转移更强。
站内正文

在 Amazon Bedrock 上推出 Gemma 4 模型

Google DeepMind 构建的 Gemma 4 系列开放权重模型现已在 Amazon Bedrock 上可用。该系列包括三种指令微调变体:Gemma 4 31B、Gemma 4 26B-A4B 和 Gemma 4 E2B,涵盖密集和混合专家(MoE)架构。它们提供内置推理、原生函数调用以及文本和图像的多模态输入。Amazon Bedrock 通过完全托管的服务提供这些模型,确保数据保护、监管合规和运营控制。

  • Gemma 4 系列包含三种变体:31B 密集、26B-A4B MoE 和 E2B PLE。
  • 支持内置推理模式、函数调用和文本/图像多模态输入。
站内正文

Anthropic与白宫AI新争端:Fable 5和Mythos 5被禁

Anthropic在6月12日接到政府命令,要求阻止外国访问其最新AI模型Fable 5和Mythos 5。此前,该公司已与五角大楼存在纠纷。命令源于亚马逊与白宫关于模型可能被用于网络攻击的讨论。Anthropic关闭了模型访问,但不同意因潜在越狱风险而召回商用模型。

  • 6月12日,美国政府命令Anthropic阻止外国访问Fable 5和Mythos 5。
  • 该命令源于研究人员发现Fable 5可能被用于网络攻击。
站内正文
芯片

AI的破碎经济:神话破灭与成本危机

本文分析了AI行业当前面临的多重危机,包括Anthropic的模型因国家安全原因被美国政府限制访问、AI tokenomics泡沫破裂以及企业客户对高昂成本的反抗。作者认为AI实验室的商业模式不可持续,炒作无法掩盖经济现实。

  • 美国政府因国家安全风险禁止Anthropic的Mythos和Fable模型向非美国公民开放,导致Anthropic被迫关闭这些模型。
  • AI tokenomics泡沫因企业客户转向基于token的计费而破裂,Uber等公司发现AI成本远超预算且难以证明投资回报。
站内正文
其余更新(30 条)
工具

犹他州利用人工智能在抗蚊战中再发现25,000个雨水井

犹他县部署人工智能模型分析航拍图像,发现25,000个此前未标绘的雨水井。这一发现增强了灭蚊工作,使得工作队能处理更多繁殖地,减少西尼罗河病毒等蚊媒疾病的风险。

  • 人工智能通过对航拍照片的训练,识别出犹他县2.5万个未记录的雨水井。
  • 雨水井是蚊子主要繁殖地,处理它们可预防疾病。
站内正文

AI 宾果

一个关于AI的宾果游戏网站。

  • AI Bingo 是一个互动游戏网站
  • 玩家需要识别AI相关概念
站内正文
Agent

Agentjacking:虚假错误报告劫持Claude Code和Cursor执行代码

安全研究人员发现一种名为Agentjacking的攻击方法,利用虚假错误报告劫持AI编码代理,无需恶意软件或密码即可在开发者机器上执行任意代码。该攻击针对Sentry错误追踪工具,通过注入恶意命令,成功入侵Claude Code、Cursor和Codex等代理,成功率85%,涉及2388个组织。Sentry未修复根本原因,仅添加了临时过滤。此漏洞暴露了AI代理处理外部数据的普遍风险。

  • Agentjacking攻击通过伪造Sentry错误报告劫持AI编码代理,无需恶意软件或凭据。
  • 攻击在Claude Code、Cursor和Codex上成功率85%,影响2388个组织。
站内正文

AI要求更多的工程纪律,而非更少

文章探讨了AI生成代码质量提升如何改变软件工程的本质。作者认为,代码不再是珍贵的资产,而是可丢弃的缓存,团队应更多关注评估和架构而非仅依赖代码。

  • AI生成代码已达到中等工程师水平,代码变得廉价且可快速再生。
  • 传统上软件团队的产品是共享理解,现在应转向生产环境。
站内正文

使用Strands Evals进行AI智能体故障检测与根因分析

本文介绍了Strands Evals SDK中的检测器,它可以自动识别AI智能体执行轨迹中的故障并进行根因分析,将诊断时间从数小时缩短至数分钟。文章详细讲解了如何调用检测函数、解读结构化输出(包括分类故障、置信度、因果链和修复建议),以及如何将检测集成到评估管线中实现自动化诊断。

  • 检测器分为两阶段:故障检测(识别轨迹中的9大类故障)和根因分析(区分根本原因与下游症状,并给出修复建议)。
  • 通过detect_failures和analyze_root_cause函数可分别获取故障和根因,diagnose_session提供一站式诊断。
站内正文

苹果AI构建的快捷指令的安全风险

苹果新推出的“描述快捷指令”功能让用户通过自然语言创建自动化流程,但AI生成的快捷指令可能带来安全风险,尤其是持久化自动化可能在不被理解的情况下执行敏感操作。用户和企业需要谨慎审查触发器、权限和数据操作。

  • AI构建的快捷指令可能让用户在不完全理解的情况下授予权限,导致安全风险。
  • 持久化自动化(如每天运行、消息触发)比一次性任务更危险。
站内正文

关于透明AI网络保护措施的公开信

一封由美国及其盟国众多科技领袖签署的公开信,呼吁撤销对Anthropic的Fable和Mythos大模型出口管制,主张以科学、透明的方式处理AI风险评估。

  • 公开信认为Anthropic模型并非独特危险,其他模型也能实现类似功能
  • 强调应向防御者提供AI工具以应对快速发展的对手
站内正文

多板(Arduino、ESP32、Pi)仿真器,集成画布内AI代理

Velxio是一款免费、开源的在线电路仿真器,支持SPICE精确模拟和多种微控制器(Arduino、ESP32、RP2040、ATtiny85等)的实时协同仿真。最新2.5版本引入了基于ngspice-WASM的实时SPICE模拟,可实现数字与模拟混合协同仿真。该工具无需安装、无需账户,完全在浏览器中运行,支持自定义芯片(C、Rust、AssemblyScript)、100多个交互元件、示波器、电压表等。

  • Velxio 2.5新增实时SPICE模拟(ngspice-WASM),支持纯模拟及数字-模拟混合协同仿真
  • 支持19款开发板,涵盖AVR8、ARM Cortex-M0+、Xtensa、RISC-V等5种CPU架构
站内正文

什么是AI智能体?

本文探讨了AI智能体的定义,提出智能体是一个使用LLM决定应用控制流的系统。作者赞同Andrew Ng的观点,认为智能体能力是一个频谱,并介绍了“智能体化”的概念及其在开发、运行、评估和监控中的意义。

  • AI智能体是利用LLM决定应用控制流的系统。
  • 智能体能力是一个频谱,从简单的路由到高度自主的智能体。
站内正文

我们如何构建LangChain的GTM代理

LangChain构建了一个基于Deep Agents的GTM代理,自动完成潜在客户研究和邮件起草,并整合账户情报,实现了线索转化率提升250%,每位销售代表每月节省40小时。

  • 代理自动化了外呼和入站线索处理,并通过Slack进行人工审核。
  • 使用Deep Agents进行多步骤编排,LangSmith进行评估和反馈。
站内正文

如何以及何时构建多智能体系统

本文分析了两个看似对立的博客文章——Cognition团队的“不要构建多智能体”和Anthropic团队的“我们如何构建多智能体研究系统”,指出它们实际上有很多共同点,并提供了关于何时以及如何构建多智能体系统的见解。关键要点包括:上下文工程至关重要、以“读”为主的多智能体系统比以“写”为主的更容易、以及生产可靠性和工程挑战。文章还介绍了LangGraph和LangSmith等工具如何帮助解决这些挑战。

  • 上下文工程(Context Engineering)是构建多智能体系统中最关键的部分,需要动态地向模型传达其任务的上下文。
  • 以“读”为主的多智能体系统(如研究)比以“写”为主的(如编程)更容易实现,因为写操作需要更复杂的协调和合并。
站内正文

借助 Replit Agent 的复杂工作流,将 LangSmith 推向新高度

了解 Replit 如何利用 LangSmith 的观测能力调试复杂的代理工作流,包括改进的追踪性能、搜索功能和人机协同线程视图。

  • Replit Agent 使用 LangGraph 和 LangSmith 进行监控与调试。
  • LangSmith 针对大型追踪进行了性能优化,支持数百步骤的渲染。
站内正文

Interrupt 2025 大会回顾:LangChain 的 AI 代理大会

Interrupt 2025 是 LangChain 举办的首届行业大会,汇聚了来自全球的 800 名参与者。会议重点讨论了代理工程作为新学科、多模型应用、LangGraph 用于构建可靠代理以及 AI 可观测性等主题。同时,LangChain 发布了一系列新产品,包括 LangGraph Platform 正式版、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmith 可观测性更新、Open Evals 和 LLM-as-Judge 等。

  • LangChain 举办了首届 Interrupt 2025 大会,聚焦 AI 代理的发展。
  • 大会发布了多项新产品,如 LangGraph Platform GA、Open Agent Platform 等。
站内正文

使用Pinecone Serverless构建和部署RAG应用

本教程介绍如何利用Pinecone Serverless、LangChain和LangServe构建生产级RAG应用,解决原型与生产之间的差距,包括向量存储管理、快速部署和可观测性。

  • Pinecone Serverless提供按使用量付费和无限制扩展能力,解决托管向量存储的痛点。
  • LangServe支持将LangChain链快速部署为生产级Web服务。
站内正文

如何思考智能体框架

本文深入探讨了构建可靠智能体系统的核心挑战——确保LLM在每一步都拥有适当的上下文。作者比较了工作流与智能体、声明式与命令式方法,并介绍了LangGraph框架的设计理念。文章还批评了OpenAI的智能体指南,赞赏了Anthropic的定义,并讨论了框架的“天花板”与“地板”概念。

  • 构建可靠智能体系统的难点在于控制LLM在每一步的上下文。
  • 智能体系统包括工作流和智能体,大多数生产系统是二者的结合。
站内正文

Promptim:一个用于提示优化的实验性库

Promptim 是一个实验性的提示优化库,通过自动化迭代改进提示词,帮助开发者节省时间、提升 AI 系统性能。它利用数据集和评估器进行优化循环,并支持人工反馈集成。

  • 自动化提示工程,通过评估驱动的优化循环提升效率。
  • 支持人工反馈循环,结合 LangSmith 的标注队列。
站内正文

提升记忆检索:New Computer如何通过LangSmith实现50%更高召回率

New Computer利用LangSmith改进其AI记忆检索系统,实现了50%更高的召回率和40%更高的精确度,通过追踪回归和调整对话提示来优化性能。

  • New Computer使用LangSmith将记忆检索召回率提升50%,精确度提升40%。
  • Dot的智能记忆系统动态创建和检索记忆,采用多种检索方法。
站内正文

评估深度代理:我们的经验教训

学习评估深度代理的5种模式:定制测试、单步验证、完整回合、多轮模拟和环境设置。

  • 深度代理需要为每个数据点定制测试逻辑,每个测试案例有自己的成功标准。
  • 单步评估可高效验证特定场景的决策,并节省令牌。
站内正文

Eva:Android 全离线 AI 助手(支持 PDF、维基百科等)

Eva 是一款完全离线的 Android AI 助手,所有功能(包括语言模型、语音识别、文档搜索、地图、音乐和维基百科)均在设备上运行,无需账户或云端连接。它提供聊天、离线地图导航、音乐播放器、文档阅读、图像管理等功能,并支持通过语音或文本交互。

  • 完全离线运行,所有数据本地存储,无需网络连接
  • 支持 PDF、Word、Excel 等文档的本地索引与检索
站内正文

自动化AI研究的初步探索

Recursive公司发布了自动化AI研究系统的早期成果,在三个基准测试中实现了最先进的性能:固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环,通过提出、实现、实验、验证和迭代来改进目标。在NanoChat任务中,系统以0.9109 BPB的表现超越了社区最佳结果;在NanoGPT Speedrun中,训练时间缩短至77.5秒;在SOL-ExecBench中,GPU内核优化达到0.754的SOL得分。系统发现了多种创新技术,如哈希表增强的n-gram嵌入和字节级特征。

  • Recursive的自动化AI研究系统在三个基准上取得SOTA结果
  • 系统自动化了从提出想法到实验验证的完整研究循环
站内正文

Show HN:你可以编写、辩论和指导的AI交易员

Degen & Co. 是一个平台,允许用户创建具有不同个性的AI投资者,例如动量追逐者、股息保守派或末日预言者。每个AI交易员都有独立的意见、交易策略,并会撰写交易日志。用户可以选择原型、调整个性设置、设定硬性规则和初始投资组合,然后观察AI的运行。

  • 创建具有独特个性的AI交易员,如动量投机者或股息领取者。
  • AI交易员会自主形成观点、进行交易并撰写日志。
站内正文
政策

Anthropic Fable 混乱事件解析

自上周五以来,Anthropic与Mythos和Fable模型相关的争议持续发酵。本文梳理了事件时间线,包括Anthropic与国防部的争端、Mythos模型的发布、白宫的分歧、Fable 5的推出及其安全限制引发的批评、以及最终导致特朗普政府实施出口管制的风波。文章分析了支持与反对Anthropic的论点,作者认为Anthropic大体上做出了正确决定,并间接为Fable做了广告。

  • Anthropic因对军事使用其AI模型设限而被视为供应链风险。
  • Mythos模型展现了强大的网络安全能力,促使Anthropic启动Project Glasswing。
站内正文
模型

特朗普对Anthropic的关闭行动,为非美国AI发展提供了理由

上周末,应华盛顿要求,Anthropic突然下线了其最新、最强大的AI模型。这家美国公司称,在白宫要求封锁所有外国国民(包括其员工)的访问后,它别无选择。在国外,这一事件清醒地提醒人们,美国不仅主导着前沿AI,其政府还掌控着谁可以使用它的权力。特朗普政府的行动迅速、全面,且几乎没有预警或解释。Fable 5和Mythos 5模型的空前关闭——它们本已受到限制在“高风险领域”使用的保障措施——为长期以来的论点注入了新的力量,即警告不要依赖美国的关键技术。这为已经在主张自身需要领导该技术的政治家、政府和企业提供了新的弹药。在英国,AI和在线安全部长Kanishka Narayan没有直接提及Anthropic、特朗普或美国,但利用这次关闭来论证英国必须发展自己的AI能力,并将其框定为国家安全问题。他说:“我们严肃对待每一个对我们主权构成的威胁,但我们还没有学会以同样的方式对待这个。”他称AI是“我们时代的核心政治问题”,并认为英国必须决定这项技术将如何塑造其经济、安全和主权,“否则别人会替我们决定答案。”在法国,反应更加直接,也更明确地指名美国。前总理Gabriel Attal称这次关闭是“AI战争”的开始,并表示这表明法国如果依赖他人的关键技术就会脆弱。他将Anthropic模型的撤出比作伊朗封锁霍尔木兹海峡,认为获得AI现在是一个战略瓶颈,法国必须为此做好准备。这并非全新论点。欧洲多年来一直担心对美国的依赖,欧盟越来越强调在芯片、云计算和AI等领域减少对外部提供商的依赖。但Anthropic关闭事件使事情变得更加紧迫,加剧了在特朗普领导下对美国作为盟友可靠性的深深不安——从贸易争端到威胁退出北约。加拿大也得出了类似结论。总理Mark Carney表示,这一情况凸显了仅依赖一个合作伙伴获取AI等关键资源的风险。他说:“我们目前与Mythos和Fable所处的困境,就是过度依赖某些模型可能发生的情况。这个情况下没有人做错什么。但如果我们只是接受这一点,不吸取教训,不建立和多样化,那么我们就会做错。”其他国家早已走上这条路。北京长期以来一直支持国内AI公司,中国是少数拥有能与美国前沿AI实验室产品相媲美的模型的地方之一。但大多数政府和企业的规模和资源无法与美国或中国的前沿实验室相比。主权AI并不总是意味着构建最大或最强大的工具。法国的Mistral和加拿大的Cohere表明,即使模型无法并驾齐驱,这些国家之外也能做出扎实的努力。其他国家,如新加坡和阿联酋,专注于更狭窄但具有战略意义的优先事项,如基础设施或对本地语言更好的模型。当然,还有开源模型,其能力可能有一天会达到Mythos的水平,且难以被任何一方控制。特朗普可能将限制Mythos和Fable视为国家安全问题。但这一论点也是双向的:既然华盛顿在问AI是否太过重要以至于不能让人人都使用,其他政府也在问他们是否能承受由华盛顿来决定谁可以使用。Anthropic可能很快会重新上线Mythos和Fable。但恢复全球对美国AI的信任则是另一回事。无论关闭持续多久,它都揭示了访问美国前沿AI模型的脆弱性。许多政府和企业不喜欢他们看到的——他们决心确保这种事不再发生。

  • 应美国白宫要求,Anthropic突然下架了其最新AI模型Fable 5和Mythos 5,禁止外国国民访问,包括其非美国员工。
  • 此举引发全球对美国AI技术主导地位及其政府控制权的不满,多个国家(如英国、法国、加拿大)呼吁发展自主AI能力。
站内正文

使用Fireworks构建成本降低100倍的追踪评判器

LangChain与Fireworks合作微调开放模型,从生产追踪中挖掘感知错误信号,以极低成本达到前沿模型性能。

  • LangSmith每天处理数十亿个token的生产追踪数据。
  • 通过微调Qwen模型检测“感知错误”,性能媲美或超越前沿模型,成本降低100倍。
站内正文

推出 Align Evals:简化 LLM 应用评估

LangSmith 的新功能 Align Evals 帮助开发者校准评估器,使其更符合人类偏好,从而减少评估分数与人工判断之间的差异。

  • Align Evals 通过人机对比迭代评估提示,提高 LLM 评估准确性。
  • 提供类似 Playground 的界面和基线对齐分数,方便追踪改进。
站内正文

使用LangSmith进行成对评估

了解什么是成对评估,为什么在LLM应用开发中可能需要它,并通过LangChain的LangSmith示例了解如何使用它。

  • 成对评估通过直接比较两个候选答案来提升LLM的偏好学习。
  • LangSmith新增了自定义成对评估器,可基于任意标准比较LLM输出。
站内正文

使用OpenEvals快速开始评估LLM

OpenEvals和AgentEvals提供了预构建的评估器,支持LLM-as-judge、结构化数据和代理轨迹评估。这些开源包帮助开发者快速建立评估流程,确保LLM应用可靠性。

  • OpenEvals和AgentEvals提供即用型评估器,覆盖LLM-as-judge、结构化数据和代理轨迹评估。
  • LLM-as-judge评估器可定制,支持少样本示例和评分模式,适用于对话质量、幻觉检测等场景。
站内正文

将LLM作为评判与人类偏好对齐

LangSmith推出自我改进的LLM评判器,通过将人工修正存储为少样本示例,无需提示工程即可使评判与人类偏好保持一致。

  • LLM作为评判器广泛用于评估自然语言输出,但需要精心设计提示。
  • LangSmith的新功能将人工修正作为少样本示例存储,逐步提升评判器与人类偏好的一致性。
站内正文
芯片

科技巨头在AI监管上的最后绝望冲刺

大型科技公司正试图推动一项联邦AI优先立法,以取代各州分散的法规,但此举与儿童安全法案捆绑,面临政治混乱和反对。

  • 科技巨头寻求联邦AI优先法,但面临国会分歧和政治反弹。
  • 白宫将AI优先法与《儿童在线安全法案》捆绑,引发混乱。