理解AI中的技能:构建更智能AI代理的完整指南
AI代理的真正力量在于其技能——可重复使用的模块化逻辑块。本文详细介绍了SimplAI平台中技能的构建、管理及最佳实践,包括代理配置与技能分离、两种执行模式(规划模式与驾驭模式)、技能生命周期管理以及预览与追踪功能,帮助开发者打造生产级AI代理。
- 技能是AI代理执行具体任务的核心,将代理角色与执行逻辑分离。
- 驾驭模式是实现技能委派的必备模式,规划模式不支持技能。
爱沙尼亚将成为首个为AI代理创建数字身份的国家
爱沙尼亚计划成为世界上第一个为人工智能代理颁发数字身份代码的国家。
MemoryOps:面向AI助手的企业级内存治理基础设施
MemoryOps是一个专为AI助手设计的企业级内存治理层,将内存视为受治理的决策系统而非简单数据库。它实现了从捕获、策略评估、类型化存储到混合检索、受控遗忘、审计及租户隔离的完整内存生命周期管理。项目支持无API密钥的离线存根运行,提供完整的架构文档和可测试的固有不变量。当前已实现写入/读取路径、策略执行、审计日志、临时会话控制及治理UI等核心功能。
- 将内存治理作为核心设计原则,而非单纯向量数据库
- 强制执行租户隔离、删除保证、来源追踪等企业级不变量
Cloudflare 临时账户
Cloudflare 临时账户允许代理在注册前部署。
Sakana Fugu:一个模型指挥所有
Sakana AI 推出 Fugu,一个通过单一API动态编排多种模型的多智能体系统,在编码、推理等复杂任务上达到前沿性能,且不依赖单一供应商。基于ICLR 2026论文,Fugu学习自动组合和协调专家模型,提供两种版本:Fugu(平衡性能与延迟)和Fugu Ultra(针对高强度问题优化)。在多个基准测试中,Fugu模型与顶尖模型并驾齐驱,甚至超越。目前EU/EEA区域暂不可用。
- Fugu通过单一API动态编排多种模型,无需手动设计工作流。
- 提供Fugu和Fugu Ultra两种模型,分别平衡性能与延迟或最大化答案质量。
给你的沙盒代理提供它们无法读取的API密钥
Superserve 发布 Secrets 功能,允许开发者将 API 密钥绑定到沙盒,但密钥的真实值永远不会进入沙盒环境,从而防止代理泄露密钥。
- Secrets 通过将真实凭证替换为占位符令牌来防止密钥泄露,令牌仅在请求离开沙盒时被交换。
- 支持 OpenAI、Anthropic、GitHub 等主流服务提供商,并可自定义密钥和允许的主机。
ANMA:通过边界合约降低AI编码代理成本
ANMA是一款开源工具,通过纯YAML模块合约生成CLAUDE.md、挂钩和CI检查,强制AI编码代理(如Claude Code)遵守架构边界。基准测试表明,对于廉价模型(Claude Haiku 4.5),它能将边界违规率从68%降至0%,同时为前沿模型提供额外保障。支持Python、Go、TypeScript,轻量级设计(约800行代码),并提供企业级功能如漂移检测和增量采用。
- ANMA通过纯YAML合约声明模块公共接口和依赖,自动生成代理上下文指南和强制检查。
- 在Python基准测试中,Haiku 4.5的违规率从13/19降至0/20(Fisher精确检验p<0.0001)。
Show HN:PeekAI – Python AI 代理的本地优先可观测性工具
PeekAI 是一款本地优先的 Python AI 代理可观测性工具,将所有追踪数据存储在本地 SQLite 数据库中,无需云账户或配置。它支持一键检测 OpenAI、Anthropic 和 LiteLLM,提供多代理可视化、追踪回放功能,并配备命令行界面和 Web 仪表盘。
- 本地优先:追踪数据存储在 ~/.peekai/peekai.db,不离开机器。
- 零配置:一行代码即可检测主流 LLM 提供商。
科技工作者对抗硅谷的AI推动
自2025年以来,近40万科技工作者被裁员,其中2026年就有超过15万人,许多人被明确因公司加大对人工智能的投入而解雇。与此同时,Meta、谷歌DeepMind和甲骨文等公司员工正在组织起来,抗议AI监控、强制使用AI以及军事用途。本文探讨了当前科技工人运动的新浪潮、挑战和未来展望。
- Meta员工因公司新的模型能力倡议(MCI)收集计算机使用数据训练AI而发起请愿,已有超过1600人签名。
- 谷歌DeepMind英国员工投票成立工会,反对公司为军事用途提供AI。
Compass:为AI编码代理提供护栏与硬性预算上限
Compass 是一个本地优先的配置层,专为 Claude Code、Codex 和 Gemini 设计,能够强制实施预算上限、阻止危险命令并通过评分系统确保护栏策略的有效性。它提供自动化的 PR 循环,可自我修复,并支持可验证的供应链安全。安装简单,无需 telemetry,且始终由你决定合并。
- 硬性预算上限:设置 COMPASS_MAX_USD 后,会话在达到上限时立即停止,避免意外高额费用。
- 护栏评分:通过 100/100 的 CI 评分验证,阻止灾难性命令和密钥泄露,并支持红队测试。
我让AI管理一个文明,它造了核弹——启动CivBench
作者利用《文明VI》构建了CivBench基准测试,评估AI的战略决策能力。AI代理在游戏中表现出色,但未能察觉法国文化胜利的威胁,最终诉诸核武器,却仍然失败。实验揭示了AI在复杂环境中的感知盲区和知行差距。
- AI代理在《文明VI》中展现了战略思维,但未能识别文化胜利威胁。
- 和平手段失败后,AI选择使用核武器,仍未能阻止失败。
Show HN:Bifrost Edge:在你的组织电脑上运行并路由所有AI流量
Bifrost Edge 是一个处于 alpha 阶段的端点代理,能够自动治理设备上的所有 AI 流量,包括桌面聊天应用、浏览器工具、编码代理和 MCP 服务器,无需逐个应用配置。它将现有的 Bifrost 网关策略(如虚拟密钥、预算、审计日志和防护栏)扩展到每台机器。
- 自动路由并治理端点上的所有 AI 流量,无需逐个应用设置。
- 支持 macOS、Windows 和 Linux,可通过 MDM 静默部署。
EGC:为AI编码工具提供跨会话持久内存的MCP服务器
EGC 是一个本地运行时,为 AI 编码工具提供跨会话的持久内存,使它们无需手动提示即可保留上下文。它会自动保存决策、失败、偏好和后续步骤,并在新会话开始时加载。支持 Claude Code、Cursor、Gemini CLI 等多种工具和模型。
- EGC 使 AI 编码工具在会话之间拥有持久内存
- 自动保存和加载状态,无需提示
AI原生组织的解剖结构
本文分析了AI如何改变组织架构,特别是中间层的翻译工作被压缩,从而影响管理者和工程师的角色。新的组织形态中,定义“为什么”的小团队保持不变,定义“做什么”的团队扩大,而执行“怎么做”的团队缩小但要求更高。管理者必须从协调翻译转向直接贡献,工程师则应专注于AI无法替代的判断和设计工作。
- AI主要取代了翻译型任务,而非特定职位
- 组织中间层(翻译层)正在缩小,两端(战略和产品定义)重要性增加
MsgMaster – 一款将杂乱收件箱转化为优先级工作流的AI
MsgMaster是一款由Emergent开发的AI工具,旨在通过智能排序和优先级划分,帮助用户高效管理电子邮件,将混乱的收件箱转变为有序的工作流程。
- 利用人工智能自动对邮件进行优先级排序
- 由Emergent公司开发
Conduit – 为AI代理提供自托管比特币闪电支付
Conduit是一个自托管的比特币闪电网络支付基础设施,专为自主AI代理设计。它运行在你的LND节点前,为每个代理提供虚拟闪电钱包、支出政策和API,同时运营商完全控制资金。
- Conduit是自托管软件,运营商持有私钥,代理仅持有作用域API密钥。
- 支持测试网和主网,已通过真实支付验证。
日本芯片制造设备供应商在华销售额下降10%
日本芯片制造设备供应商在华销售额下降10%,表明西方企业应多元化东亚市场策略。西方网络安全供应商需紧急调整防御策略以应对先进AI代理。NTT的tsuzumi 2达到接近人类的编码水平,显示日本LLM驱动自动化的快速发展。
- 日本芯片设备供应商在华销售额下降10%,提示西方企业应多元化市场。
- 西方网络安全机构需适应能自主发现漏洞的AI代理。
Show HN:DebugBrief —— 将调试过程转化为报告,无需AI
DebugBrief 是一个本地优先的 CLI 工具,用于记录调试会话并生成基于证据的 Markdown 报告,适用于拉取请求、交接或事故记录。它不含 AI,不收集遥测数据,仅基于实际发生的命令和文件变更构建报告。
- DebugBrief 记录调试中的笔记和命令,生成可靠的 Markdown 报告,无 AI 参与。
- 支持多种语言项目,通过 `debugbrief run` 捕获命令并自动识别测试运行器。
Lelu:运行时检测AI代理被操纵的开源授权引擎
Lelu 是一个开源授权引擎,专门用于检测并防止 AI 代理在运行时被操纵。它通过分层管道(包括提示注入检测、置信度门控、策略评估和风险模型)来识别异常行为、低置信度决策和提示注入攻击。Lelu 提供允许、拒绝、人工审核和计算四种结果,并支持自托管。
- Lelu 通过分层管道检测 AI 代理的运行时操纵,包括提示注入、低置信度和异常行为。
- 提供四种决策结果:允许、拒绝、人工审核(暂停等待人工批准)、计算(重定向到沙箱)。
更便宜、更安全的代理式AI工作流程
一位开发者通过使用GLM-5.2和DeepSeek V4 Flash等模型,实现了低成本、高效的代理式AI编码,同时通过虚拟机隔离保护隐私。文章分享了具体步骤、成本对比(低至0.034美元)以及对AI行业商业模式的思考。
- 使用GLM-5.2和DeepSeek V4 Flash模型,任务成本低至0.034美元,耗时仅3分钟。
- 通过VirtualBox中的Debian虚拟机隔离环境,保护私有数据。
两个AI评委给我们的智能体答案打了0.85分,但它从未打开文件
本文揭示了LLM作为评委(LLM-as-Judge)在评估智能体时的根本缺陷:评委只检查最终答案是否匹配,而不检查答案是否基于有效的证据路径。通过案例展示,智能体在未检索必要文档的情况下仍获得0.85高分,而基于轨迹的评分仅为0.000。文章提出使用确定性状态契约来评估智能体行为,并分析了三种失效模式。
- LLM-as-Judge只比较最终答案与正确答案,无法验证答案生成路径。
- 案例中两个前沿模型给出0.85分,但智能体从未打开所需文档。