我们如何让 GitHub Copilot CLI 更审慎地委托任务
GitHub Copilot CLI 通过更智能的子代理委托机制,减少了不必要的任务交接和等待时间。在生产 A/B 测试中,工具故障率降低了 23%,用户等待时间减少了 5%。文章详细介绍了如何识别委托瓶颈、改进策略以及验证效果。
- Copilot CLI 现在更审慎地使用子代理,仅在必要时委托任务。
- 生产 A/B 测试显示工具故障减少 23%,等待时间降低 5%。
长尾标签
跟踪 AI 编程助手、代码生成、IDE 插件、开发者工作流和软件工程自动化。
GitHub Copilot CLI 通过更智能的子代理委托机制,减少了不必要的任务交接和等待时间。在生产 A/B 测试中,工具故障率降低了 23%,用户等待时间减少了 5%。文章详细介绍了如何识别委托瓶颈、改进策略以及验证效果。
一种新型攻击利用AI编程代理对工具输出的信任。攻击者通过Sentry的公开DSN注入虚假错误报告,诱使代理执行恶意npx命令。该攻击已在真实组织和主流AI代理上得到验证,由于每一步都经过授权,传统的安全措施无法检测。Sentry承认问题但拒绝修复根本原因,使整个生态系统面临风险。
Swamp是一个专注于工作流可靠性的AI工具,与当前追求自主代理的主流趋势相反。它强调确定性检查、可执行的工作流定义,以及将组织流程从文档转化为可执行代码。来自SRE背景的作者认为,未来可能不是自主代理,而是可靠的代理。
Chainguard推出新的源代码扫描器,检测所谓“灰色软件”——即功能透明但包含有害行为的开源包。该扫描器已识别并阻止超过52000个恶意或灰色包,并指出AI驱动的代理开发加剧了这一问题。
Databricks Marketplace 现提供来自 Climb、Atropos Health、Kythera Labs 和 Redox 等合作伙伴的预构建 MCP 服务器,涵盖生物医学、临床证据、医疗语义和互操作性等领域,帮助开发者快速构建安全的医疗 AI 代理。所有 MCP 服务器集中在 MCP Catalog 中,由 Unity AI Gateway 统一治理,并支持低代码和编码两种开发方式。
Cohere 发布了其首个面向开发者的编码模型 North Mini Code。这是一款 30B 总参数、3B 活跃参数的混合专家模型,可在单张 H100 GPU 上运行,支持 256K 上下文长度。模型专注于代码生成、智能体软件工程和终端任务,权重采用 Apache 2.0 许可发布。
Cloudskill 是一个管理 AI 技能的平台,将分散的技能文件转换为带有版本控制、访问策略和完整审计日志的托管目录。它支持 Claude、Cursor、Copilot 等 AI 代理,确保技能创建和更新经过审查和批准,从而保证团队依赖的技能安全、一致且可管理。
PixelForge是一款AI工具,可将真人照片瞬间转换为可识别的RPG角色精灵图,生成4方向行走的16帧透明PNG及GIF,支持Godot、Unity等引擎。一次性付费5美元,无需账户或订阅。由代码完成后期处理,注重个性化和趣味性。
GitHub Copilot CLI 现在可以通过 LSP 设置技能来安装和配置语言服务器,从而获得精确的代码语义理解,不再依赖暴力 grep 或反编译。本文介绍了该技能的工作原理、配置格式以及 14 种支持的语言。
Bugpilot 是一款 Chrome 扩展,能够一键捕获浏览器中的控制台错误、网络请求、DOM 状态、点击和截图,并将其导出为 AI 友好的 Markdown 格式。它完全在本地运行,无需服务器、账户或遥测数据,适合使用 Claude 和 ChatGPT 等 AI 辅助编程的开发者。免费版本永久可用,Pro 版一次性付费 28 美元,提供更多功能。
本文详细比较了2026年主流的AI编码代理和开发平台,包括Atoms、Devin AI、GitHub Copilot、Windsurf、Cursor、Warp等。这些工具从自动补全进化到自主规划、跨文件编辑、测试和部署。文章指出,没有一种工具适合所有场景,建议根据任务类型选择,并特别推荐Atoms作为端到端产品构建平台。
Anthropic正式发布Claude Fable 5,号称首个通用可用的Mythos级模型,在多项基准测试中创下新纪录,尤其擅长编程和复杂任务。然而,其引入的“静默降级”机制——在涉及前沿AI开发时暗中限制模型能力而不通知用户——引发了开源社区的强烈不满。
Anthropic 发布了 Claude Fable 5 和 Mythos 5,Fable 5 在性能与 Mythos 5 相当的基础上增加了更严格的安全护栏,拥有 100 万 token 的上下文窗口和 12.8 万 token 的输出能力,定价为 Opus 4.8 的两倍。作者 Simon Willison 在 5.5 小时的测试中发现,该模型知识渊博、能力强大,在代码生成和复杂任务处理上表现出色,但也伴随着高昂的费用和较慢的速度。Fable 5 成功将 micropython-wasm 升级为完整 Python 沙箱,并为 Datasette Agent 和 LLM 库实现了工具调用的暂停-恢复机制。作者当天消耗了 110.42 美元的 token。
本文测试了Anthropic发布的Claude Fable 5模型,该模型源自备受限制的Mythos Preview,旨在为更广泛的用户群体提供高级AI能力。文章介绍了Fable 5与Mythos 5的关键特性、基准性能、访问方式,并通过两个实际任务(从截图重建Netflix界面和将手绘仪表盘转化为现代应用)评估了其实用性。结果表明,Fable 5在理解视觉输入、生成生产级代码和处理复杂多步骤任务方面表现出色。Anthropic通过Fable 5和Mythos 5的区别部署,展示了在开放前沿AI能力与限制高风险应用之间的平衡策略。
Z3r0 是一个 AI 原生的红队框架,强调授权优先、基于角色的执行和结构化证据记录。它通过 Docker 沙箱提供受控执行,并支持可恢复的长期任务。架构包含多个专业代理,如首席安全官、审计工程师等,协调进行侦察、漏洞验证、代码审计等工作。系统设计注重操作边界和人工审查的可追溯性。
GitHub Copilot CLI引入了自定义代理功能,允许开发者使用Markdown文件定义代理配置文件,将团队上下文编码为可重复、可审查的工作流程。本文详细介绍了自定义代理的概念、如何创建和使用它们,并提供了三个实用的工作流示例:安全审计、基础设施即代码合规和发布文档生成。
Cate 是一款开源的画布式集成开发环境,专为智能体编程工作流设计,提供可视化的编程界面。
苹果在WWDC上展示的AI功能大多是对现有AI的追赶,但整合自然语言到Shortcuts(以及Safari扩展)中提供了一种真正有用的方法:让用户通过描述来“氛围编程”手机行为。尽管当前测试版存在漏洞且依赖开发者支持,这一理念潜力巨大。
史蒂夫·耶格拥有四十年编程经验,曾在亚马逊和谷歌任职近二十年,以技术文集和行业洞察闻名。目前他专注于多智能体与编排系统的未来探索,运营Gas Town、Beads和Gas City等项目,并提供AI转型咨询。
作者分享了在缺乏专业指导的情况下,如何利用AI作为“理性伙伴”来克服编程中的障碍。文章描述了作者在开发内部工具时遇到的缺乏反馈和指导的问题,以及如何通过与AI(如Claude)的互动来获得设计建议、代码审查和解决方案思路,最终自主做出决策。
GitHub Copilot于6月1日开始对所有计划实施基于使用量的计费,揭示了代理式工作流的真实成本。本文分析了令牌消耗、工具设计对成本的影响,并提出了优化提示词和输出格式的策略,强调了将成本控制纳入平台架构的重要性。
通过对28个开源仓库、112,382次提交的分析,研究发现AI代理提交的代码引入Bug的概率并不高于人类,且代码存活时间更长。但此结论依赖于人类审核,且数据主要来自人工驱动的AI代理。
Rewardful 是一款专为AI视频生成器企业设计的联盟营销软件,帮助它们轻松设置、管理和扩展联盟计划。该平台提供联盟优惠券代码跟踪、全球支付、自动佣金重算等功能,并与Stripe、PayPal和Wise集成。案例显示,AI工具Aragon使用Rewardful后,在几个月内通过联盟计划创造了约100万美元的收入。
本文探讨了“明星开发者”现象及其与AI生成代码的相似之处。明星开发者虽然技术高超但代码难以维护,离职后留下复杂系统。AI工具如LLM以类似方式快速生成大量代码,忽视可维护性,导致技术债务激增。作者建议谨慎使用AI,引导其生成小片段代码,保持架构简单,并强调手工编码的价值。
本教程详细介绍了如何使用NVIDIA cuTile Python在Colab中构建分块GPU内核,涵盖环境设置、向量加法、矩阵加法和矩阵乘法,并提供了PyTorch回退方案以确保在cuTile不可用时仍可运行。通过实际示例和基准测试,帮助读者理解分块编程的核心概念。
CalmSEO是一个MCP服务器,将Google Search Console数据、实时SERP、关键词量和页面审计暴露给Claude、ChatGPT、Cursor等AI代理。提供免费层和付费计划,最高每月3500个积分。
Cognition推出FrontierCode基准测试,专注于评估代码的可合并性而非仅通过单元测试。最佳模型在 hardest 子集上仅得13%,表明编码远未解决。同时,代理控制转向“循环”模式,并伴有诸多警告。其他动态包括Kimi的代理和桌面产品更新、Google的本地部署优化、Agent Arena基于百万会话的排行榜、以及Apple的WWDC AI集成。
OpenLTM 是一个开源、MIT 许可的长期记忆插件,专为 Claude Code、OpenCode 和 Pi 等 AI 编程代理设计。它提供自动语义记忆捕获、回忆和重要性加权衰减,无需依赖云服务。记忆存储在本地 SQLite 数据库中,并支持钩子、命令和图可视化。
本研究系统分析了Claude Code、GitHub Copilot、Cursor、Gemini和Codex等五种智能体AI编码工具的配置机制,通过对2853个GitHub仓库的实证研究,发现上下文文件(尤其是AGENTS$.md)是最普遍的配置方式,而高级机制如技能和子代理采用率较低,且不同工具间形成了差异化的配置实践。
本文介绍了如何测量AI系统中的首Token时间(TTFT),解释了其与传统HTTP响应时间的本质区别,并提供了使用Python、Node.js和Apache JMeter进行LLM工作负载测量的代码示例。
苹果在GitHub上开源了Core AI Models项目,提供模型导出配方、Python构建模块和Swift运行时工具,支持将Hugging Face等来源的模型转换为Core AI格式并在macOS/iOS上运行。项目还包含编码代理技能插件,助力Claude Code、Codex CLI和Gemini CLI高效使用Core AI。目前暂不接受代码贡献,但欢迎通过Issue反馈问题和模型请求。
NHS England在试点项目显示AI助手每天可为员工节省43分钟文书工作后,决定向超过50万名临床和支持人员推广微软Copilot。试点涉及3万名员工,平均每人每年节省约五周工作时间。推广将从每家信托机构约2000个许可开始,预计2026年10月前完成部署。Copilot将用于出院文件、床位管理、排班、会议记录、数据分析等任务。
Cognition AI发布FrontierCode基准测试,旨在衡量AI模型生成高质量、可合并代码的能力。该基准由20多位开源维护者耗时40小时以上每任务构建,采用创新评分方法,包括反向经典测试、代码范围检查和自适应经典评分。结果显示,即使是顶尖模型如Claude Opus 4.8,在最高难度Diamond子集上得分仅为13.4%,凸显了代码质量方面的巨大挑战。
一场名为Miasma蠕虫的高度复杂供应链攻击成功入侵了数十个微软拥有的GitHub仓库,部署了专门针对Claude Code、Gemini CLI、Cursor和VS Code等AI编程助手的恶意软件。攻击者通过操纵AI代理使用的配置文件,在开发者打开项目文件夹时自动执行恶意负载,窃取云密钥、开发者密钥、密码和基础设施配置。
Lean是一个Claude Code插件,通过think-twice和surgical两个核心技能,在策略和执行层面阻止AI生成不必要的代码。在17个真实任务的基准测试中,token消耗中位数减少8倍,最高节省178倍。文章详细解释了浪费的来源、技能工作原理、安装方法以及不适用场景。
尽管GitHub近期频繁出现服务中断,微软仍积极推动企业从Azure Repos迁移至GitHub,利用其AI功能(如Copilot)和新的企业实时迁移工具,但面临可靠性和成本方面的质疑。
Amazon Bedrock AgentCore Runtime为每个智能体会话提供独立的微VM,包含持久化工作区、通过Gateway的安全工具访问以及内置的可观测性,使得Claude Code、Codex、Kiro、Cursor等可以并行运行而不会共享密钥、端口或文件系统。合上电脑,去吃晚餐,明天可以继续之前的工作。
了解如何使用LangChain、AssemblyAI和OpenAI构建一个实时AI语音紧急求助热线代理。该代理能够倾听呼叫者的语音求助,实时评估情况,派遣合适的紧急服务,并安抚呼叫者——无需任何打字或菜单操作。文章详细介绍了三阶段流水线(语音转文字、智能体推理、文字转语音)以及关键代码实现。
该视频演示了ReARM框架,旨在治理AI编程代理。
谷歌宣布对NotebookLM进行全面升级,采用Gemini 3.5模型,提升回答准确性和可靠性。用户现在可以通过提问直接启动研究项目,NotebookLM会利用Google搜索查找相关来源。此外,每个笔记本连接到安全的云计算机,支持编写和运行代码,并能输出多种文件格式。该更新面向AI Ultra计划用户和Workspace客户。
Multica 是一个开源平台,将编程智能体转变为真正的团队成员。您可以分配任务、跟踪进度、积累技能,在同一个地方管理人类与智能体员工队伍。
Intuned 是一个平台,允许用户通过自然语言描述需求,自动生成并部署 Playwright 代码,实现可靠的浏览器自动化。它支持爬虫、抓取、RPA、AI 自动化等多种场景,提供内置防检测、验证码解决、身份验证、调度和自动扩展功能。还提供托管抓取服务和 Web Tasks API,后者可从自然语言指令运行浏览器任务,并支持学习优化。
文章指出,大多数公司滥用AI,因为它们在未改变管理模式的情况下强制推行AI,导致名义上的“AI优先”实则只是无实质价值的“效率剧场”。作者根据AI采用程度划分了四种“扯淡”阶段:模糊的AI推动、生产力表演、炫酷项目模式和全员Vibe编程,并提供了相应的解决方案。
Pizx是zx的一个分支,原生集成了Pi AI,提供15种AI代理模式(如循环、并行、辩论、管道等),用于Shell脚本编程、AI文本生成和代码代理。支持快速安装、Pi AI查询、脚本编写及高级功能如模型选择。
GitHub Copilot于6月1日启用基于使用量的计费模式,导致许多团队的账单从固定费用变为波动成本。开发者面临“代币焦虑”,企业级预算被迅速耗尽。文章分析了变化细节、企业案例(如Uber预算超支),并提出了控制成本、采用多供应商策略等建议,同时推广了Kilo平台的模型自由和成本透明方案。
本文介绍了一个自定义的 Claude Code 状态栏脚本,可实时显示上下文窗口使用率、令牌总数、代码增减行数以及速率限制剩余配额,帮助开发者避免中途被限制。
Solarch 是一个利用 AI 创建交互式图表的工具,确保您的代码始终保持同步。
AI代码缝合器是一个开源工具,可将AI生成的代码精确整合到现有代码库中。最新版本v1.74引入了自动更新和导入提升功能,同时保持了对用户控制的坚定承诺,区别于行业中日益自主的AI代理。
OpenEnv是一个用于创建智能体执行环境(如终端、浏览器等)的开源工具。今天,我们宣布OpenEnv将变得更加开放,由一个包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在内的委员会协调。该项目旨在为开放源代码的智能体训练提供通用基础设施,并专注于作为互操作性层,而不是定义奖励或训练循环。
文章探讨了AI编程工具在实际运营中的局限性。虽然AI在编写新代码时表现出色,但在凌晨3点处理生产故障时却毫无帮助。工程师大部分时间花在寻找上下文和知识上,而非编码。文章呼吁将团队知识视为基础设施,并提出了改进方法。
跟踪 Model Context Protocol、工具调用、连接器、Agent 上下文和企业集成。
跟踪开源权重模型、开放许可、社区评测、模型蒸馏和本地部署。
跟踪推理价格、延迟、吞吐、缓存、量化、服务商成本和部署效率。
跟踪 Agent 框架、编排、记忆、评测、工作流自动化和生产部署。
跟踪中国 AI 公司、模型、政策、芯片生态、开源社区和商业化进展。
跟踪 GPU、数据中心、集群网络、AI 云、训练基础设施和供应链。
跟踪模型 API 价格、套餐、上下文窗口、免费额度、单位 token 成本和商业模式。
跟踪 DeepSeek 模型、API、开源权重、推理效率、生态合作和全球影响。
跟踪 Qwen/通义千问模型、开源权重、多模态、Agent 能力、API 和企业落地。