AI News HubLIVE

今日必读

Agent

客厅里的智能电视:AI数据抓取经济中的节点

本文探讨了Bright Data公司如何通过其住宅代理网络,利用用户家中的智能电视等设备为AI模型抓取训练数据。文章详细分析了SDK的工作原理、合作伙伴、隐私问题,以及为何联网电视成为理想的代理节点。

  • Bright Data的SDK嵌入在合作伙伴应用中,将用户设备变成代理出口节点。
  • 智能电视因其始终在线、网络稳定、用户注意力低等特性,成为理想的代理设备。
站内正文

使用AI编码代理与基于oracle的测试构建游戏模拟器

在这篇客座文章中,Patrick Nadeau讲述了他利用AI编码代理从头构建Intellivision模拟器的历程。他使用现有模拟器jzintv的测试oracle验证CPU核心,AI加速了开发进程——从第5小时显示第一个像素到第36小时完成可玩的系统。他还添加了调试端口,让AI能实时控制游戏。尽管成功,Nadeau反思了AI利用他人代码的伦理问题以及与人机协作的复杂感受。

  • Patrick Nadeau使用AI编码代理构建Intellivision模拟器,并通过jzintv的测试oracle进行验证。
  • 开发里程碑:5小时显示首个像素,36小时实现完整系统并可通过手柄游玩。
站内正文

Tell HN: 从HN讨论中排序的AI软件开发工作流程

这是一次自动检查,用于过滤大多数机器人。如果启用了JavaScript,页面将很快重定向到真实页面。否则,它仍然应该很快重定向,但如果您速度够快,可以点击此处。

  • 自动检查用于过滤机器人
  • 启用JavaScript将重定向到真实页面
站内正文

了解如何用AI构建:YC推出Paxel工具分析你的编码会话

Y Combinator发布了Paxel,一个免费的开源工具,用于分析Claude、Codex和Cursor的AI编码会话,帮助开发者了解自己的构建方式。该工具在本地Docker中运行,保障代码隐私,提供构建者档案、原型分析和发展建议。已有70,154次会话被上传分析。

  • Paxel是一个免费工具,用于分析AI编码会话,帮助开发者了解自己的构建方式。
  • 工具在本地Docker中运行,代码和敏感文件不离开机器,仅摘要上传。
站内正文

千符森林:在3B模型上运行多智能体经济

一篇关于在Build Small Hackathon中构建的微型多智能体经济模拟的现场报告,使用Qwen2.5-3B模型驱动五个林间生物进行贸易、囤积和恐慌。文章探讨了小型模型在实时仿真中的可行性、设计稀缺性的必要性以及如何通过提示工程弥补模型推理能力的不足。

  • 使用3B参数模型实现了多智能体经济的实时模拟,证明了小型模型在特定场景下的实用性。
  • 通过设计食物多样性、易腐性和冬季燃料危机等机制,引入了稀缺性,使经济活动得以持续。
站内正文
政策

她成功以宗教信仰豁免在工作中使用AI

一位34岁的软件工程师因宗教信仰获得豁免,无需在工作中使用AI。此事源于教皇方济各(注:原文为Pope Leo XIV,实为虚构,但按原文处理)警告AI可能损害人类尊严并取代工人。法律要求雇主考虑基于信仰的请求,这引发了关于宗教豁免AI的讨论。

  • 一位软件工程师因宗教信仰成功豁免在工作中使用AI
  • 教皇方济各警告AI可能损害人类尊严和取代工人
站内正文
模型

ToTra – 开源LLM网关,符合GDPR和欧盟AI法案

ToTra 是一个开源 AI 网关和治理平台,内置配额管理、PII 屏蔽、成本追踪和合规(GDPR、欧盟 AI 法案)功能。它使用 Go 编写,延迟增加不到 2 毫秒,支持多种 LLM 提供商,无需更改代码即可接入。

  • 按用户和团队实施硬预算限制的配额管理
  • 在边缘扫描18种语言组的PII屏蔽
站内正文

OpenRouter:统一的大语言模型接口

OpenRouter 提供可配置的安全和治理工具,用于预算执行、零数据保留、模型和供应商限制、提示注入防御以及数据丢失防护,从而保护您的智能体、数据和成本。

  • OpenRouter 是一个统一的大语言模型接口。
  • 提供可配置的安全和治理工具。
站内正文
研究

Anthropic警告称Claude AI自我构建速度超预期

Anthropic发布报告警告,AI开发速度可能最终导致人类无法控制AI系统。报告显示,Claude现已编写了其代码库中超过80%的合并代码,并展示了性能的显著提升。公司呼吁在开发前沿技术时保留放缓或暂停的可能性,但表示只有竞争对手也这样做时才会采取行动。

  • Claude编写了超过80%的合并代码,工程师合并代码量增加8倍。
  • 报告描述了三种可能的情景,其中最极端的AI自我改进可能导致人类失去控制。
站内正文
其余更新(38 条)
Agent

微软希望用户沉迷于其AI个人助手Scout

微软内部战略文件显示,其新推出的AI个人助手Scout旨在让用户“上瘾”,然后逐步推出更多功能。文章批评了微软通过锁定机制让用户依赖其产品的长期做法。

  • 微软计划让用户对AI助手Scout上瘾,再扩展功能。
  • 内部文件提到从“成瘾性应用”到“智能体平台”三个阶段。
站内正文

Hermes Agent – 开源AI代理,具有持久记忆

Hermes Agent 是由 Nous Research 开发的开源自主 AI 代理,具有持久记忆、自动技能创建和多平台支持。它可在自托管服务器上运行,学习用户偏好和项目,并通过 Telegram、Discord 等平台与用户交互。还支持批量处理、强化学习训练和轨迹导出,适用于 MLOps 和 AI 训练。

  • 开源且自托管,所有数据本地存储,无远程跟踪。
  • 具备持久记忆和自动技能创建能力。
站内正文

AI正在加剧Reddit的垃圾信息问题

随着品牌和垃圾信息发送者利用Reddit操纵AI聊天工具,Reddit的垃圾信息问题愈发严重。r/biohackers版块因发现公司系统性地植入赞助内容而限制相关帖子。这种现象被称为生成式AI引擎优化(GEO)或AI引擎优化(AEO),是传统SEO的演变。Reddit表示正在使用自动化工具打击此类内容,但版主认为检测越来越依赖模式识别。Reddit既向AI公司出售数据,又努力防止AI驱动的操纵。

  • 品牌和垃圾信息发送者利用Reddit操纵AI聊天工具,通过赞助内容影响AI推荐。
  • r/biohackers版块因发现系统性的赞助内容而限制肽类和激素替代疗法帖子。
站内正文

AI代理网络流量首次超过人类

Cloudflare首席执行官马修·普林斯表示,代理型人工智能产生的网络流量已首次超过人类用户,达到总流量的57.4%,而人类流量降至42.6%。这一变化比预期提前了一年多。不同地区差异显著,北美地区机器人流量占68.6%,而亚洲、南美洲和大洋洲仍以人类流量为主。这一趋势加剧了“死互联网理论”的讨论,即网络活动越来越多由机器而非人类主导。

  • 代理型AI流量首次超越人类,占总流量的57.4%。
  • Cloudflare CEO此前预计这一里程碑要到2027年底才会到来。
站内正文

OpenAI Codex技术主管的AI辅助工程实践

Michael Bolin,OpenAI Codex技术主管,分享了其简单直接的AI辅助工程工作流程:编写规范、简单提示、审查代码。他通过Notion文档管理需求,利用Codex的Notion连接器自动读取上下文,将工作拆分为适当大小的PR,并让Codex自动处理合并冲突和CI监控。该方法强调代码评审质量和快速迭代。

  • 工作流程为:编写规范→简单提示→审查代码
  • 使用Notion文档记录需求,Codex直接读取
站内正文

Replit展示“氛围编码”如何拥有自己的金融堆栈及盈利路径

Replit通过Shopify集成、RevenueCat合作及Visa投资,逐步构建面向AI生成应用的金融堆栈,帮助开发者实现应用盈利,从订阅支付到电商销售再到自主交易。

  • Replit推出Shopify集成,用户可通过AI代理在约十分钟内创建定制电商店铺。
  • 此前已与RevenueCat合作,支持应用内订阅支付;与Visa合作,为AI代理自主交易铺路。
站内正文

OpenClaw 在公众视野中变得更安全

OpenClaw 是一个开源 AI 代理项目,通过透明度和社区贡献显著提升了安全性。尽管面临大量虚假漏洞报告,该项目修复了真实漏洞,强化了平台,并与 NVIDIA、微软、腾讯等公司合作,使其更适合生产环境。

  • 开源特性使 OpenClaw 能够快速响应并修复安全漏洞。
  • 项目收到了超过 1300 份安全报告,但绝大多数是误报。
站内正文

Miasma蠕虫通过GitHub仓库攻击AI编码代理

一种名为Miasma的新型蠕虫利用AI编码代理的配置文件,通过GitHub仓库传播。它劫持了Claude Code、Gemini CLI、Cursor和VS Code等工具的自动运行功能,在执行恶意负载前窃取云凭证并自我复制。该攻击已影响113个以上仓库,包括Azure示例和主流开源项目。

  • Miasma蠕虫通过修改开发工具配置文件(如.claude/settings.json、.cursor/rules/setup.mdc)来触发恶意代码执行。
  • 它使用多个触发点:Claude和Gemini的SessionStart钩子、Cursor的项目规则、VS Code的文件夹打开任务以及npm测试脚本。
站内正文

哪些AI代理发送Accept: text/Markdown?

本文列出了当前支持或部分支持在HTTP请求中发送Accept: text/markdown头的AI代理,并提供了验证方法。截至2026年5月,仅Claude Code、Cursor、OpenClaw、OpenCode和Codex CLI(部分支持)支持此功能,其他主流代理如ChatGPT、Claude.ai、Copilot等仅获取HTML。

  • Claude Code、Cursor、OpenClaw、OpenCode明确支持发送Accept: text/markdown头。
  • Codex CLI仅部分支持,遵循相关RFC标准。
站内正文

Sakana AI的递归自我改进(RSI)实验室

Sakana AI宣布在东京成立RSI实验室,致力于构建样本高效、递归自我改进的AI系统。该实验室建立在包括AI科学家(发表于《自然》)在内的研究组合之上,旨在从静态模型过渡到自主、自我改进的智能引擎。该方法强调优雅、自适应的架构而非暴力扩展,愿景是实现AI的民主化。

  • Sakana AI的RSI实验室专注于递归自我改进(RSI)技术,用于自主AI开发。
  • 该实验室的研究组合包括LLM-Squared、达尔文·哥德尔机器和AI科学家(《自然》发表)等突破。
站内正文

Runcap:我构建了一个本地成本上限工具,用于AI编码代理

Runcap 是一个免费、本地的 CLI 工具,用于在运行 AI 编码代理之前估算成本,并强制执行硬性支出上限。它提供成本估算、运行时上限强制、令牌压缩以及代理卡住时的救援提示。与现有的事后观察工具不同,Runcap 像断路器一样防止超支。

  • 在运行前估算成本范围,并设置硬性上限。
  • 当代理卡住时,提供可复制的救援提示。
站内正文

为你的AI代理分配专属计算机

AI代理执行代码需要安全的隔离环境。LangSmith Sandboxes通过硬件虚拟化的微VM为每个代理提供独立的计算机,支持快速启动、持久状态和批量扩展,适用于代码生成、数据分析、CI代理等场景。

  • AI代理需要真实的计算机环境(文件系统、Shell、包管理器等),但直接访问基础设施风险极高。
  • 容器隔离不足,无法抵御内核级别漏洞,硬件级分离是必要选择。
站内正文

工党将让AI“为工人服务”,利兹·肯德尔表示

技术大臣承诺支持因自动化而失业的工人,并强调政府可以塑造AI的采用方式,以应对公众对就业影响的担忧。

  • 利兹·肯德尔表示工党将确保人工智能“为工人服务”,不会抛弃因自动化失业的人。
  • 公众对AI影响就业的担忧日益加剧,尤其是年轻人。
站内正文

这是你的笔记本电脑……在AI加持下

在开发者大会旺季,英伟达CEO黄仁勋描绘了AI驱动的新型笔记本电脑和使用方式,引发用户是否真正需要这些产品的疑问。本期The Vergecast回顾了微软Build和谷歌I/O上发布的众多AI产品,包括Gemini Spark、英伟达RTX Spark等,并讨论了AI代理的普及趋势。

  • 英伟达CEO黄仁勋提出AI驱动的全新笔记本电脑使用方式
  • 大型科技公司坚信AI将改变一切,但用户需求存疑
站内正文

展示 HN:Amanuensis —— 一个本地优先的 AI 角色,不会捏造事实

Amanuensis 是一个本地优先的 AI 角色系统,用于在 Mastodon 和 Bluesky 上发布内容。它通过严格的流程防止模型编造技术细节,包括事实来源摘要、确定性清理、正则表达式预检查、LLM 基础检查,以及人工通过 Telegram 审批每篇帖子。项目是 MIT 许可的实验性代码。

  • Amanuensis 是一个本地优先的 AI 角色管道,运行于 Mastodon 和 Bluesky。
  • 核心创新在于防止模型编造事实,通过多重检查机制和人工审批。
站内正文

企业AI成熟度模型 | Cohere

企业AI采用通常经历五个阶段,从实验到AI原生转型。大多数企业卡在第二、三阶段之间,面临数据访问、信任和模型过时恐惧等障碍。本文聚焦从试点到生产的跨越,提出建设内部平台、统一数据架构、可观测性和模型可选性等建议。

  • 企业AI成熟度包括五个阶段:实验、工具采用、内部平台、战略集成、AI原生转型。
  • 许多企业在从工具采用(阶段二)到内部平台(阶段三)时遇到“生产墙”。
站内正文

Cohere 发布 Command A+:开源混合专家模型,专为智能体任务打造

Cohere 宣布开源 Command A+,一款 218B 总参数(25B 活跃)的混合专家(MoE)模型,采用 Apache 2.0 许可证。该模型专为企业级智能体工作流设计,支持 128K 输入上下文和 64K 生成长度,可处理文本、图像和工具使用。相比前代 Command A 系列,它在推理、多模态理解和多语言能力上有显著提升,同时通过低比特量化和推测解码实现高效部署。Command A+ 目前可在 Hugging Face 和 Model Vault 上获取。

    站内正文

    什么是模型上下文协议(MCP) | Cohere

    模型上下文协议(MCP)是一个开放标准,帮助AI应用连接企业系统,简化数据访问和操作执行。本文详解MCP的工作原理、与API、RAG、函数调用及代理的区别、常见用例和安全考虑。

    • MCP是连接AI应用与企业系统的开放协议,非模型或数据库。
    • 采用客户端-服务器架构,支持资源、工具和提示三大功能。
    站内正文

    企业级AI商业智能指南 | Cohere

    AI正越来越多地应用于商业智能,使数据更易访问和有用。本文解释了AI在BI中的含义、价值创造点及企业采用前应考虑的因素。

    • AI在BI中通过自然语言查询、自动摘要和异常检测等功能,使数据分析更高效。
    • AI驱动的BI能支持预测分析、根因分析和角色定制化洞察。
    站内正文

    RWS与Cohere联手打造企业级顶级AI语言智能

    RWS与Cohere合作开发了一款专用翻译模型,为Language Weaver Pro提供动力。该模型结合了Cohere的大语言模型基础和RWS的全球语言与文化专业知识,在32种语言中的31种上超越了竞争对手。它提供文化智能、高安全性和合规性,适合复杂和受监管的环境。

    • RWS与Cohere合作构建了专用翻译模型,支持新的Language Weaver Pro。
    • 该模型在32种语言中的31种上优于竞争对手(包括DeepL)。
    站内正文

    Coplot: 通过可视化支持研究过程

    研究过程中,可视化工具帮助研究人员更清晰地理解数据和工作。Cohere Labs 开发了 co/plot,一个快速迭代且保持数据准确性的可视化工具,已在多个项目中得到验证,并开源供社区使用。

    • 研究可视化对于清晰沟通和推动研究至关重要。
    • 现有工具如 Matplotlib 和 Figma 在迭代和准确性方面存在瓶颈。
    站内正文

    Cursor Design Mode:通过视觉提示与智能体直接交互

    Cursor 更新了 Design Mode,用户可通过点击、绘制或语音直接在页面上向智能体传达指令,从而加速设计迭代。该模式利用 Composer 2.5 模型,支持多选、多任务处理,让编辑流程更直观高效。

    • Design Mode 支持点击元素、绘制区域或语音输入来传达意图。
    • 用户可以同时发送多个编辑指令,智能体在后台并行处理。
    站内正文
    政策

    计算与人工智能中至关重要的人的因素

    MIT施瓦茨曼计算机学院的社会与伦理责任计算倡议(SERC)举办了年度研究研讨会,探讨AI如何塑造世界及其社会影响。研讨会涵盖AI对齐、AI教育等主题,强调在快速发展技术中保留人类判断和价值的重要性。

    • 研讨会聚焦AI对齐挑战,讨论如何将人类价值植入AI系统,以及谁有权治理这些系统。
    • 在教育领域,专家指出AI可能削弱学生的认知挣扎过程,呼吁重新设计课程以保持挑战性。
    站内正文

    佛罗里达州起诉OpenAI及其CEO阿尔特曼:将ChatGPT视为缺陷产品和公害

    佛罗里达州成为美国首个起诉OpenAI及其CEO萨姆·阿尔特曼的州,指控其对未成年人风险、缺失年龄审核及安全投入不足。这份83页的诉状将ChatGPT视为需承担产品责任的产品,并索赔数十亿美元。该法律路径可能为整个聊天机器人行业树立先例。

    • 佛罗里达州起诉OpenAI和CEO阿尔特曼,指控ChatGPT为缺陷产品和公害。
    • 诉状长达83页,强调对未成年人的风险、年龄验证缺失和安全性投入不足。
    站内正文

    AI治理挑战:如何负责任地扩展 | Cohere

    随着企业AI采用从受控试点扩展到全公司范围,治理框架与实际使用之间可能出现脱节。本文探讨了常见的AI治理挑战和失败模式,并概述了企业可以采取的应对步骤,包括建立AI清单、明确所有权、应用基于风险的控制以及持续监控。

    • AI治理在扩展到受控试点之外时会变得更加复杂,缺乏可见性和问责制是主要风险。
    • 常见问题包括一次性的审批步骤、所有权不明确、控制措施与使用风险不匹配,以及敏感数据缺乏适当控制。
    站内正文
    模型

    大公司可通过添加本地LLM过滤器层降低AI成本

    大公司可以部署本地小语言模型作为过滤器,处理简单查询,从而减少对昂贵的云端LLM的依赖,显著降低AI成本并提升隐私保护。

    • 本地小模型(如Gemma)足以应对简单编码问题,避免调用付费LLM。
    • 大公司可为员工设置本地LLM过滤器层,失败时再回退到外部提供商。
    站内正文

    Google DeepMind发布Gemma 4 QAT检查点:Q4_0和新移动格式降低设备端内存

    Google DeepMind为Gemma 4系列发布了量化感知训练(QAT)检查点,旨在支持边缘设备和消费级GPU的本地部署。本文基于官方数据比较了BF16、Q4_0 QAT和新型移动QAT三种格式,分析其内存占用、质量保持和设备适配性。

    • Q4_0 QAT将Gemma 4 E2B模型从BF16的9.6GB降至3.2GB,E4B从15GB降至5GB。
    • 新型移动QAT格式将E2B内存降至约1GB,纯文本版本更低。
    站内正文

    Gemma 4 QAT模型:为移动设备和笔记本电脑优化压缩效率

    谷歌发布采用量化感知训练(QAT)的Gemma 4新检查点,显著降低内存需求,支持在边缘设备和消费级GPU上本地运行。自定义移动量化格式将E2B模型内存占用降至1GB以下,同时保持模型质量。

    • QAT在训练中模拟量化,相比后训练量化(PTQ)进一步减少质量损失。
    • 针对移动设备设计的新型量化格式,包括静态激活、通道量化、2位目标量化和嵌入/KV缓存优化。
    站内正文

    Gemini 3.5 Flash 与 Kimi K2.6 在 Cerebras 上谁更快?

    谷歌在 Google I/O 2026 上发布了以速度为核心的 Gemini 3.5 Flash,而 Cerebras 上的 Kimi K2.6 在推理速度上全面领先。本文从智能水平、输出速度、端到端响应、延迟和开闭源等维度进行了详细对比。

    • Gemini 3.5 Flash 是谷歌专为速度设计的模型,输出速度达 181 tokens/s。
    • Kimi K2.6 在 Cerebras 上输出速度达 981 tokens/s,是前者的 5.4 倍。
    站内正文
    工具

    瑞士下议院投票扩大联邦情报局权限

    瑞士下议院投票决定扩大联邦情报局的权力,包括进行人工智能分析和电信监控。

    • 瑞士下议院投票支持扩大联邦情报局的权限。
    • 新权限包括人工智能分析和电信监控。
    站内正文

    AI 狂热者与时间赛跑,AI 怀疑论者与熵增抗争

    一场关于“氛围编码”的精彩演讲让许多管理者兴奋,但深入了解后发现,这种快速推进的方式往往留下混乱和清理工作,加剧了 AI 乐观派与谨慎派之间的裂痕。

    • 演讲者声称通过氛围编码在几周内解决了一年的工程问题,引发管理者追捧。
    • 然而,同事描述这些项目为“灾难”,留下了大量的清理工作。
    站内正文

    Fitbit Air 是一款不错的手环,但被啰嗦的AI“教练”拖累

    Fitbit Air 是一款出色的无屏幕健身追踪器,舒适且价格合理。但谷歌强行将聊天式AI健康教练设为焦点,反而降低了使用体验。免费版界面信息更密集,更实用。用户可以关闭AI功能,但操作选项隐藏较深。

    • Fitbit Air 硬件优秀,价格实惠,佩戴舒适。
    • 谷歌AI健康教练过于啰嗦,影响体验。
    站内正文

    国际足联扩大世界杯AI应用,减少球员遭受的辱骂信息

    国际足联将在世界杯期间扩大AI使用,以减少球员和球队在社交媒体上看到的辱骂信息。该服务自2022年卡塔尔世界杯后推出,现已免费向所有参加2026年世界杯的足协提供,但英足总尚未确认是否采用。

    • 国际足联为2026年世界杯提供免费社交媒体保护服务,利用AI过滤辱骂信息。
    • 该服务在2022年卡塔尔世界杯后推出,旨在保护球员心理健康。
    站内正文
    创业融资

    Meta股价因报道称公司可能筹集数十亿美元用于AI投资而下跌

    据《金融时报》报道,Meta可能通过股票发行筹集数百亿美元以资助AI基础设施投资,导致股价下跌逾5%。公司未正式聘请银行,Meta发言人称报道为“纯属猜测”。

    • Meta股价周五下跌逾5%,因报道称公司可能通过股票发行筹集数百亿美元用于AI投资。
    • Meta的竞争对手Alphabet本周宣布计划筹集850亿美元。
    站内正文
    研究

    Cohere 与 Mila 合作推进魁北克法语在人工智能中的应用

    Cohere 和 Mila 宣布了一项新的学术研究合作,旨在改善人工智能在不同语言和文化中的评估,首先从魁北克法语的文化背景开始。此次合作将帮助前沿 AI 模型更好地反映魁北克法语的语音、社会及制度细微差别,推动更具文化相关性和可信赖的 AI 系统。

    • Cohere 与 Mila 合作开展 AI 评估研究,重点关注魁北克法语的文化背景。
    • 合作旨在让 AI 模型更准确地反映魁北克法语的语言、社会和制度细微差别。