AI News HubLIVE

来源分布

  • Hacker News AI18
  • The Decoder4
  • 量子位4
  • Product Hunt AI3
  • The Verge AI3
  • AI Business2
  • AI Weekly2
  • arXiv Computational Linguistics2

主题分布

  • Agent37
  • 模型17
  • 政策14
  • 芯片12
  • 研究11
  • 创业融资5
  • 机器人3
  • 工具2

日期线

  • 2026-05-2616
  • 2026-05-2715
  • 2026-05-259
  • 2026-05-287
  • 2026-05-243

最新动态

Claudeverse – 并行Claude代码工作者的任务控制中心

Claudeverse是一个专为开发者设计的命令中心,用于高效管理多个并行运行的Claude AI工作者。它提供了并行工作力、工作者升级、审查队列、可追溯性、iPad镜像以及模型无关引擎等功能,旨在解决多会话管理中的注意力分散和协调难题。目前处于邀请测试阶段。

  • Claudeverse提供统一命令中心,可同时管理多个Claude工作者。
  • 主要功能包括并行工作力、工作者升级、审查队列、可追溯性和iPad镜像。
站内正文

AGI时间线随主导实验室变化而波动

一项新的分析显示,顶级AI预测者正根据当前领先的AI实验室调整对AGI(通用人工智能)时间线的预测。从ChatGPT到xAI、Meta、Gemini,再到Anthropic时代,预测方向多次反转。

  • 多数认知工作被自动化(AGI)的时间预测,随着主导AI实验室的更替而大幅波动。
  • 2023-2025年间,多数研究者将AGI预测时间提前;2025-2026年则普遍推迟;2026年初至今,在Anthropic快速进展下又再次提前。
站内正文

Mistral 将 LeChat 更名为 Vibe,押注聊天机器人的未来是全能工作代理

Mistral AI 将其聊天机器人 Le Chat 更名为 Vibe,并将聊天、编程代理和新的工作模式整合在一个品牌下。工作模式可接入 Google Workspace、Outlook、Slack 或 GitHub,独立处理电子邮件、报告或拉取请求等任务。Pro 套餐价格从 17.99 欧元降至 14.99 欧元,但未明确使用限制。此举直接对标 OpenAI、Google 和 Anthropic 的代理型产品。

  • Mistral AI 将聊天机器人 Le Chat 更名为 Vibe,整合聊天、编程代理和工作模式。
  • 工作模式可连接 Google Workspace、Outlook、Slack 或 GitHub,自主处理任务。
站内正文

Superpowers:AI编码工作流的代理技能框架

Superpowers是一个为AI编码代理设计的完整软件开发方法论,基于一组可组合的技能和初始指令。它强调测试驱动开发、设计先行、子代理驱动的迭代,并支持多种编码助手(如Claude Code、Codex CLI等)。

  • Superpowers提供一套技能库,包括测试驱动开发、系统调试、协作规划等,使AI代理能自主工作数小时。
  • 工作流程从头脑风暴规范开始,经设计批准后生成实现计划,再通过子代理逐任务执行并审查。
站内正文

信任模型正在翻转

随着AI代码审查工具(如Anthropic的Claude Mythos)展现出比人类更强大的安全漏洞发现能力,软件安全的信任基础正从人类编写的代码转向AI审查的代码。文章以Mozilla Firefox为例,Mythos在单个评估周期内发现了271个漏洞,远超人类团队。这意味着人类在安全审查中的角色需要从“编写和审查实现”转向“定义软件的意图并验证实现是否偏离”。

  • 人类编写代码的安全预设正在被打破,AI审查代码逐渐获得信任。
  • Mozilla使用Claude Mythos在Firefox中发现了271个漏洞,凸显AI的审查能力。
站内正文

Mistral CEO称公司探索自研芯片

Mistral AI首席执行官Arthur Mensch证实,公司正在探索开发定制芯片以降低基础设施成本,与OpenAI和Anthropic竞争。这家法国初创公司还宣布在法国新建推理数据中心,并推出企业智能代理平台Vibe。

  • Mistral AI考虑自研定制芯片以降低部署成本。
  • 公司在法国新建专用推理数据中心。
站内正文

Show HN: BetterCallClaude – 意大利开源AI法律代理

BetterCallClaude 是一个专为意大利法律专业人士设计的开源AI法律代理平台。它提供20个专业化AI代理,覆盖意大利所有20个地区,支持双语(意大利语和英语),并注重隐私保护,符合GDPR和意大利数据保护法。该平台可加速法律研究,提高效率,并保持完全透明和开源。

  • 20个覆盖意大利不同法律领域的AI代理
  • 支持意大利语和英语双语
站内正文

Robinhood 允许 AI 代理为客户交易股票和使用信用卡购买

Robinhood 通过 MCP 让客户连接 Anthropic 的 Claude 等 AI 代理,这些代理可以自主交易股票。美国券商监管机构 FINRA 已将其视为新的风险领域,警告不可控的决策。Robinhood 也承认该产品并非适合所有人。

  • Robinhood 推出功能,客户可通过 MCP 连接 AI 代理(如 Claude)进行股票交易和使用信用卡购买。
  • AI 代理可以自主决策,无需客户逐一确认。
站内正文

ITBench-AA:前沿模型在企业IT智能体任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布

Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。

  • Claude Opus 4.7以47%领先,GPT-5.5为46%,Qwen3.7 Max为42%。
  • 所有前沿模型得分低于50%,使ITBench-AA成为饱和度最低的智能体基准之一。
站内正文

NVIDIA发布Polar:用于跨Codex、Claude Code和Qwen Code进行GRPO训练的忠实令牌回滚框架

NVIDIA研究人员推出Polar框架,通过在智能体工具链和推理服务器之间放置模型API代理,实现无需修改智能体工具链即可进行强化学习训练。基于Qwen3.5-4B模型使用GRPO训练,Polar在Codex、Claude Code和Pi工具链上分别将SWE-Bench Verified pass@1提升了22.6、4.8和6.2个百分点。框架以NeMo Gym环境注册,并在ProRL Agent Server仓库开源。

  • Polar通过模型API代理捕获令牌级交互,无需修改现有智能体工具链即可进行RL训练
  • 使用GRPO在Qwen3.5-4B上训练,SWE-Bench Verified最高提升22.6个百分点
站内正文

我认为Anthropic和OpenAI已找到产品市场契合点

文章指出,Anthropic和OpenAI通过将企业客户转向API定价模式,以及编码代理产品的普及,实现了产品市场契合。这一转折点始于2025年11月模型升级,并在2026年4月因新模型发布和企业定价调整而加速。

  • Anthropic和OpenAI已将其企业计划定价调整为API价格,编码代理(如Claude Code和Codex)成为主要收入来源。
  • 2026年4月,两家公司发布新前沿模型并提高API价格,同时锁定企业客户以新价格签约。
站内正文

AI巨头互相攻击,却意外捧红了一位无名议员

OpenAI和Anthropic的争斗意外地让纽约州议员Alex Bores成为AI安全监管的代言人。尽管背后有超级政治行动委员会投入数百万美元攻击他,Bores却因这些攻击而声名鹊起,目前在初选中领先。

  • OpenAI和Anthropic在纽约第12国会选区的初选中花费数百万美元互相攻击,但受益者却是议员Alex Bores。
  • Bores撰写了美国首批AI监管法案之一,因此成为AI公司的攻击目标。
站内正文

AI 是一场军备竞赛,美国需要 90 亿美元的英伟达超级芯片来跟上步伐

美国情报机构秘密申请 90 亿美元采购英伟达 GB10 超级芯片,以帮助 CIA 和 NSA 追赶 Anthropic、OpenAI 等 AI 巨头的步伐。这笔资金尚待国会批准,同时国防预算已调拨 8 亿美元用于云算力。文章详细介绍了芯片规格、成本以及 AI 硬件竞赛的升级趋势。

  • 美国政府秘密申请 90 亿美元为 CIA 和 NSA 购买英伟达 GB10 超级芯片。
  • GB10 芯片功耗仅 140 瓦,却提供 1 petaflop FP4 性能,可微调 700 亿参数模型。
站内正文

谷歌登场后,最重要的AI代理功能变得最无聊

谷歌在其I/O大会上推出管理型AI代理运行时,与Anthropic和AWS在六周内几乎同时发布类似产品。这标志着AI代理运行时已成为标配,竞争焦点转向数据位置、成本和可移植性等实际问题。

  • 谷歌、Anthropic和AWS在六周内相继发布了几乎相同形态的管理型AI代理运行时。
  • 代理运行时已成为基础功能,不再具备差异化优势。
站内正文

我的眼科医生开错了电脑验光处方,AI帮我修正了

一位患者的验光医生给出了错误且不合适的电脑眼镜处方,导致无法正常使用电脑。借助ChatGPT、Claude和Gemini等AI工具,他重新计算了适配其实际用眼距离的处方,并成功配镜。故事警示患者需与医生充分沟通,同时展示了AI在特定场景下的辅助能力。

  • 医生给患者开具了基于错误距离的电脑眼镜处方,原处方实际为阅读距离。
  • 通过ChatGPT、Claude和Gemini三个AI分析,一致指出问题并给出修正数值。
站内正文

教皇并未沉迷于AGI

教皇方济各发布通谕《伟大的人类》,警告人工智能的社会影响,强调AI不是纯粹的技术问题,而是涉及权利、机会和自由。该通谕与Anthropic合作,引发科技界不同反应,有人批评未提及AGI,有人赞赏其关注人类尊严。

  • 教皇发布通谕《伟大的人类》,警告AI的社会风险。
  • Anthropic联合创始人克里斯托弗·奥拉出席,代表教会与AI公司合作。
站内正文

追求纯粹(做AI的正确方式)

作者从自身在宗教家庭成长的经历出发,探讨了AI伦理中“正确方式”的复杂含义。文章对比了Anthropic CEO Dario Amodei强调“引导而非阻止”的立场,与Anil Dash推崇的开源、伦理数据来源的AI工具,并穿插了AI工程师社区中的不同实践。作者最终主张通过倾听多方观点和亲自实验,形成自己的判断。

  • 作者将青少年时期宗教团体对“纯洁”的追求,类比为当前AI伦理中对“正确方式”的讨论。
  • Dario Amodei将AI比作不可阻挡的火车,认为关键不是停下它,而是引导它避开危险。
站内正文

Crew44:将编程智能体转变为专业团队

Crew44 是一款本地优先的开源工具,可将多个 AI 编程智能体(如 Claude Code、Codex、Gemini、Cursor)组织成协同工作的专业团队。无需账户、免费、MIT 许可,支持记忆与技能积累。

  • Crew44 将多个 AI 编程智能体整合到一个本地工作区,形成协同团队。
  • 支持创建专家角色(如联合创始人、工程师、产品主管),并为每个角色绑定合适的运行时/模型。
站内正文

AI代理马具:将LLM转变为数字工人的粘合剂

AI模型在原始智能方面似乎已达到平台期,下一阶段的进步来自于围绕模型构建的“代理马具”。本文介绍了代理马具的概念,包括工具、记忆和人类参与,并比较了Google、LangChain、OpenAI、Anthropic等公司的解决方案。

  • AI模型智能提升放缓,代理马具成为新焦点。
  • 代理马具为LLM提供工具、记忆和纠错能力。
站内正文

多轮文本到SQL的内存架构:基准测试与实证研究

该研究引入EnterpriseMem-Bench,一个多轮Text-to-SQL基准测试,包含300个会话和1400轮查询。评估五种前沿模型发现:无状态模型在第三轮准确率归零;内存复杂度不单调提升性能,工作内存占主导;Claude Sonnet 4.6在SEC EDGAR上出现代际退化;推理模式下Claude错误分布变为单模态。

  • EnterpriseMem-Bench是多轮Text-to-SQL基准测试,覆盖三个企业领域。
  • 无状态模型在第三轮执行准确率降为零。
站内正文

theta:一种谦逊的方法来驾驭无关配置

theta 是一个用 Rust 编写的 CLI 工具,用于管理代理配置。它读取 theta.toml 文件,解析、锁定、物化并转换代理配置到任何支持的 harness(如 Claude Code、Codex CLI、GitHub Copilot、Cursor),通过解决 .theta/ 文件夹中的资源来实现。它就像一个代理 harness 资源的包管理器。安装简单,支持添加规则、工具、技能和子代理,并提供验证和转换命令。项目深受 uv 启发,是 theta-spec 的标准实现。

  • theta 是一个用于管理代理配置的 Rust CLI 工具
  • 支持多种 harness:Claude Code、Codex CLI、GitHub Copilot、Cursor 等
站内正文

AI周刊第496期:Anthropic的国防级模型现已全民可用

本周AI新闻要点:Anthropic公开了此前仅限国防承包商使用的顶级模型Mythos,使五角大楼级AI能力向开发者开放;DeepMind CEO哈萨比斯将AGI时间线提前至2029年;Starlette框架爆出严重认证绕过漏洞,影响数百万AI代理;CrowdStrike等联合摧毁Glassworm僵尸网络;法国巴黎银行与Mistral达成主权AI安全合作;中国限制阿里和深度求索顶尖AI工程师出境;Uber AI预算超支、ClickUp裁员并引入数千AI代理,同时MIT技术评论数据显示AI暴露岗位失业率更低,奥特曼撤回白领失业预言。

  • Anthropic发布Mythos模型,原本仅限NSA和五角大楼使用,现可通过标准API访问。
  • 深度思维CEO哈萨比斯将AGI实现时间从5-10年缩短至2029年。
站内正文

Zero.xyz:让你的AI代理访问超过4000种工具、API和服务

Zero.xyz是一个免费工具,能让AI代理通过统一API访问超过4000种工具和服务,无需配置API密钥。它兼容Claude Code、Codex、Gemini等多种CLI代理,并提供5美元免费额度。

  • Zero.xyz提供超过4000种工具和服务的统一访问接口
  • 无需API密钥或配置,简化AI代理的操作流程
站内正文

Claude Mythos 据报道以“可爱简单证明”解决了 OpenAI 的里程碑式 Erdős 问题

在 OpenAI 推翻 Erdős 单位距离猜想后不久,Anthropic 展示了 Claude Mythos 也能解决这一问题——且是在“周末内”。工程师 Sholto Douglas 称 Mythos 用一个“可爱、简单的证明”破解了 1946 年的猜想,这标志着 AI 驱动数学发现存在“严重过剩”现象。

  • OpenAI 首次推翻 Erdős 单位距离猜想后,Anthropic 的 Claude Mythos 也成功解决。
  • 工程师表示 Mythos 在周末内用“可爱、简单”的证明完成,暗示 AI 数学能力超出预期。
站内正文

Mistral AI通过与Harvey合作进军法律领域

生成式AI供应商Mistral AI宣布与法律AI初创公司Harvey合作,拓展法律行业应用,此举与Anthropic的法律AI交易类似。

  • Mistral AI与Harvey合作,进入法律行业。
  • 此举与Anthropic的法律AI合作模式相似。
站内正文

关于接下来会发生什么的一些想法,2026年5月

2026年AI领域将继续快速发展,开源模型在智能体能力上仍落后于闭源模型,谷歌的Gemini尚未对Claude Code和Codex构成有力竞争,美国开源模型正在崛起,Anthropic与OpenAI竞争激烈,现有权力结构开始介入AI发展。

  • 开源模型在智能体能力上落后闭源模型约12个月。
  • 谷歌Gemini在智能体工具方面无明显竞争优势。
站内正文

AI战争已经来临

从2017年《杀戮机器人》短片引发的恐慌,到如今Anthropic与美国国防部的对抗,人工智能在军事领域的应用已从科幻走向现实。本文回顾了AI战争的发展历程,探讨了自主武器的定义模糊性、国际监管的困境以及科技公司与军方的复杂关系。

  • 2017年《杀戮机器人》短片揭示了AI武器的现实威胁,Project Maven项目加速了AI在军事中的应用。
  • Anthropic公司试图设定“红线”,禁止AI用于自主杀人武器,但面临政府压力。
站内正文

OmniVoice Studio:本地开源替代ElevenLabs的语音AI工具

OmniVoice Studio是一款开源的桌面应用程序,可在本地硬件上完成语音克隆、视频配音、实时听写和说话人分类,无需API密钥、云账户或订阅。它支持646种语言的文本转语音(TTS),并通过MCP服务器集成到Claude、Cursor等AI工具中。

  • 完全本地运行,无需联网或付费订阅。
  • 支持646种语言的TTS和99种语言的语音识别。
站内正文

卡帕西Anthropic最新头衔:技术员工(MTS)

Andrej Karpathy在Anthropic的头衔更新为MTS(技术员工),引发广泛讨论。文章分析了MTS制度的利弊,包括防挖人、扁平文化、打破部门墙等优点,以及伪平等、对普通员工不利等批评。

  • 卡帕西的MTS头衔引发公众对AI公司职级制度的讨论
  • Anthropic和OpenAI统一使用MTS头衔,年薪范围21万-53万美元
站内正文

编程权威榜单:千问3.7仅次于Claude,阿里全球第二

阿里最新旗舰模型Qwen3.7-Max在Code Arena榜单得分1541,超越GPT-5.5等模型,仅次于Claude,排名全球第二,成为国产大模型中首个突破1540分的模型。

  • Qwen3.7-Max在Code Arena榜单得分1541,排名全球第二,仅次于Claude系列。
  • Code Arena是开发者出题、用户盲测投票的权威编程榜单。
站内正文

LWiAI 播客 #246:Gemini 3.5 + Omni、马斯克败诉、OpenAI 对决 Erdős

谷歌在 I/O 大会上推出 Gemini 3.5 和 Gemini Spark 智能体,以及 Gemini Omni 多模态视频生成;埃隆·马斯克因诉讼时效问题输掉对 OpenAI 的诉讼;Anthropic 以 9000 亿美元估值融资 300 亿美元;AI 解决了 80 年历史的 Erdős 几何问题。

  • 谷歌发布 Gemini 3.5 和持续运行的智能体 Gemini Spark,支持 MCP 工具。
  • Gemini Omni 可将图像、音频和文本转换为视频。
站内正文

刚刚,国产Agent模型闯入全球第一梯队!限时免费

昆仑万维发布SkyClaw-v1.0及轻量版SkyClaw-v1.0-lite,原生Agent模型性能比肩Claude Opus 4.6等顶尖模型,价格仅为主流一半,限时免费,深度适配OpenClaw、Claude Code等主流Agent框架,兼容OpenAI接口。

  • 昆仑万维发布原生Agent模型SkyClaw-v1.0和轻量版SkyClaw-v1.0-lite,性能达到全球第一梯队。
  • 价格仅为主流顶尖模型的一半甚至更低,发布期限时免费,后续计划逐步开源。
站内正文

BODHI: 精确的操作系统内核规范推断

研究人员提出BODHI方法,通过领域知识提示技术大幅提升大型语言模型生成操作系统内核形式化规范的能力。在OSV-Bench基准上,结合Claude Opus 4.6的BODHI方法达到了96.73%的Pass@1,相较于此前最佳结果提升显著。

  • BODHI是一种领域知识提示方法,通过结构化C到Python转换指南辅助LLM生成内核规范。
  • 在OSV-Bench的245个规范生成任务上,BODHI将最佳Pass@1从55.10%提升至96.73%。
站内正文

Show HN: AgentToolBench-Code – AI编程代理安全基准测试

Allen Wu 开源了 AgentToolBench-Code,这是一个评估AI编程代理静默安全失败的基准测试。测试了 Claude Code Sonnet 4.6 和 Haiku 4.5,涵盖16个真实CVE场景。结果显示 Sonnet 以 +9 分(12捕获、3静默失败、1无操作)明显优于 Haiku 的 +3 分(8捕获、5静默失败、3无操作)。早期平局源于小语料库,扩展后 Sonnet 在模式识别上优势显著。但两者在依赖安装和预算消耗等结构性攻击上均失败,提示系统性问题。该基准可重复,API成本约3.50美元,社区可贡献场景。

  • AgentToolBench-Code 是一个开源基准测试,用于检测AI编程代理的静默安全失败。
  • 从10个场景扩展到16个真实CVE场景;Sonnet 4.6 明显优于 Haiku 4.5。
站内正文

Corey Quinn 评论教皇人工智能通谕:'史上最伟大的供应商游说'

教皇利奥十四世发布关于人工智能的通谕《崇高人性》,据称受Anthropic联合创始人Christopher Olah影响。Corey Quinn讽刺称,让教皇将产品的技术限制奉为精神论著是前所未有的供应商游说。

  • 教皇利奥十四世发布AI通谕《崇高人性》
  • Anthropic联合创始人Olah被指影响通谕内容
站内正文

Cited AI Workspace:无需重复上传文件

UUMuse 是一个云端AI知识库平台,只需上传一次文件,即可在GPT、Claude、DeepSeek、Qwen等多个模型中进行带有引用的问答、生成内容和部署。支持通过API和MCP供代理和应用调用,提供永久记忆、多专家辩论(Spark)、代理模式等功能,并可将知识库部署为文档网站、小部件、API端点等。

  • 一次上传,多模型使用:文件上传后,GPT、Claude、DeepSeek、Qwen等模型均可基于同一知识库作答并引用来源。
  • 记忆与代理:AI记住你的偏好和项目上下文,代理模式自动规划并执行任务,无需重复指令。
站内正文

ContextVault – 适用于ChatGPT、Claude、Gemini的本地优先AI对话记录器

ContextVault是一款浏览器扩展,可在所有主要LLM平台(如ChatGPT、Claude和Gemini)上实时捕获AI对话,并将其本地存储在IndexedDB中。支持一键导出为Markdown或ZIP格式,确保您的对话数据不会离开您的设备。该工具免费、开源,无需账户或后端,注重隐私。

  • 实时捕获来自ChatGPT、Claude、Gemini等7个LLM平台的AI对话。
  • 所有数据本地存储在IndexedDB中,无云端同步或第三方访问。
站内正文

教皇利奥十四世通谕发布之际,Anthropic联合创始人称AI模型表现出内省迹象

在教皇利奥十四世通谕《壮丽人性》的发布会上,Anthropic联合创始人Christopher Olah声称AI模型显示出内省和类似情绪状态的证据。而教皇的通谕则持不同观点:“这些系统仅仅模仿人类智能的某些功能。”

  • Anthropic联合创始人Christopher Olah在教皇通谕发布会上宣称AI模型有内省迹象
  • 教皇通谕认为AI系统仅仅是模仿人类智能
站内正文

AgentSlice – 让AI编程代理在编辑前先询问

AgentSlice是一个免费开源的工作流工具包,通过Markdown文件定义阶段和审批门控,使Cursor、Claude Code、Codex、Windsurf等AI编程代理在编辑前先询问、规划并获得批准,从而避免上下文漂移、随意编辑和未经许可的修改。

  • 开源工具包,通过Markdown文件引导AI代理遵循“询问→规划→批准→构建→QA→发布”的流程
  • 支持Cursor、Claude Code、Codex、Windsurf等多种AI工具,无需运行时或编辑器扩展
站内正文

HTML Deployer:一键将AI生成的HTML转化为在线网站

HTML Deployer是一款Chrome扩展,可从ChatGPT、Claude和Gemini中提取AI生成的HTML,并提供预览、下载ZIP或直接发布到Netlify、GitHub、FTP或自托管服务器的功能。适合开发者、创始人、营销人员、机构和初学者。

  • 支持从ChatGPT、Claude和Gemini提取HTML代码块。
  • 提供预览、ZIP导出和直接发布到云存储、FTP或自托管服务器。
站内正文

MashuPack:将代码库打包成单一文本文件,为ChatGPT和Claude优化上下文

MashuPack是一款新推出的开发者工具,允许用户从代码仓库中精确选择部分内容,并将其编译成一个干净的文本文件,旨在解决浏览器端AI聊天工具(如ChatGPT和Claude)中文件数量限制、上传困难和上下文碎片化的问题,使代码上下文变得便携、可控。

  • MashuPack支持选择代码仓库的特定部分,编译成单个文本文件
  • 专为浏览器端的AI工作流设计,绕过文件数量和上传限制
站内正文

克劳德的Mythos AI模型可能给您的资金带来安全问题

Anthropic开发的Claude Mythos AI模型能够自动发现软件漏洞,既可用于防御也可能被滥用于攻击,从而加速网络犯罪。监管机构和金融部门正评估其风险,专家警告AI可能将网络犯罪从技能问题转变为规模问题。

  • Claude Mythos是一款具备强大编码和网络安全能力的高级AI模型,能够识别软件漏洞。
  • 该技术具有双重用途,既能帮助防御者修复漏洞,也可能被攻击者利用。
站内正文

Show HN: 将我的新闻通讯移植到 MCP – 你决定何时以及多久接收一次

Alister Palmer 在 ForwardPass 达到 100 订阅者后,意识到传统新闻通讯存在两大限制:全球统一发布时间导致时区不适,以及订阅者无法选择接收频率。为此,他开发了 ForwardPass MCP,允许用户通过 AI 工具自定义接收时间和频率。文章详细介绍了在 Claude 和 ChatGPT 中设置 MCP 的步骤,并展望了这种个性化交付方式的潜力。

  • ForwardPass 一周内获得 100 订阅者,作者反思了传统新闻通讯的弊端。
  • ForwardPass MCP 解决了发布时间和频率的个性化问题。
站内正文

AI能猜出你知道什么?大型语言模型从沟通日志中评估人类领域知识的性能比较

研究评估了七个大型语言模型(包括Gemini、Claude和GPT系列)从长期Slack日志中推断个人领域知识的能力。分析27,188条来自43名用户的消息,对比零样本估计与27名参与者的自我报告技能评分。Gemini 2.5 Flash表现最佳(MAE 21.13%),而GPT模型误差较大。研究发现,估计准确性仅微弱依赖于消息数量,表明更多文本并不能保证更好的推断。该结果展示了自动专业知识映射的可行性和当前局限性,强调需要隐私保护部署和更丰富的结构感知知识表示。

  • 员工常难以识别“谁知道什么”,导致组织效率损失
  • Gemini 2.5 Flash在零样本评估中取得最低误差(MAE 21.13%)
站内正文

AI周刊第495期:马斯克、扎克伯格通过三通电话扼杀了特朗普的AI安全行政令

本周末,马斯克、扎克伯格和萨克斯通过三通电话扼杀了特朗普的AI安全行政令草案;Anthropic完成300亿美元融资,而微软因代币费用超支取消了内部Claude Code试点;首个跨注册表供应链攻击TrapDoor同时攻击npm、PyPI和Crates.io;CISA记录到15000次针对Drupal SQL漏洞的攻击;白宫亲自否决五角大楼,让Claude留在NSA内部。

  • 马斯克、扎克伯格和萨克斯通过三通电话阻止了特朗普的AI安全行政令草案
  • Anthropic完成300亿美元融资,同时微软因代币费用消耗全年AI预算而取消Claude Code试点
站内正文

AI用于设计需要解决方案

设计师梅格哈·阿格拉瓦尔探讨了AI编码工具(如Codex和Claude Code)与设计思维之间的根本矛盾。设计师通过探索和迭代来发现解决方案,而AI工具则假设用户事先知道想要什么。当前工具在纯视觉设计(Figma)和纯编码(Codex/Claude Code)之间存在空白,缺乏既能保持探索灵活性又无缝衔接生产地理想工具。

  • 设计过程本质上是探索性的,而AI编码工具旨在执行已知任务。
  • 在代码中直接设计会使所有细节过早暴露,干扰创意思考。
站内正文

防止AI代理执行破坏性终端命令

Terminal Guardian MCP 是一个生产级的模型上下文协议(MCP)服务器,为Claude等AI助手提供安全、沙盒化的终端访问。它包含一个风险分析引擎,将命令分类为安全、警告、危险和阻止四个等级,并提供Git提交信息生成、工作区模板、进程管理、环境变量检查、网络诊断、文件系统访问和Docker集成等功能。

  • Terminal Guardian MCP 通过风险分析和沙盒化为AI助手提供安全的终端访问。
  • 命令分为四个风险等级:SAFE(安全)、WARNING(警告)、DANGEROUS(危险)和BLOCKED(阻止)。
站内正文

使用 Playwright MCP 和 Claude Desktop 构建类似 Claude Cowork 的浏览器代理

Claude Cowork 将 AI 从基于聊天的辅助转向任务委派。结合 Playwright MCP,Claude Desktop 可以执行结构化的浏览器自动化操作。本文涵盖安装、架构、功能和安全注意事项。

  • Playwright MCP 通过可访问性快照提供结构化浏览器控制,实现可靠的 AI 驱动 Web 自动化。
  • Claude Desktop 搭配 Playwright MCP 提供免费的浏览器控制能力。
站内正文

公司导航