理解AI中的技能:構建更智能AI代理的完整指南
AI代理的真正力量在於其技能——可重複使用的模塊化邏輯塊。本文詳細介紹了SimplAI平台中技能的構建、管理及最佳實踐,包括代理配置與技能分離、兩種執行模式(規劃模式與駕馭模式)、技能生命週期管理以及預覽與追蹤功能,幫助開發者打造生產級AI代理。
- 技能是AI代理執行具體任務的核心,將代理角色與執行邏輯分離。
- 駕馭模式是實現技能委派的必備模式,規劃模式不支持技能。
愛沙尼亞將成為首個為AI代理創建數字身份的國家
愛沙尼亞計劃成為世界上第一個為人工智能代理頒發數字身份代碼的國家。
MemoryOps:面向AI助手的企業級內存治理基礎設施
MemoryOps是一個專為AI助手設計的企業級內存治理層,將內存視為受治理的決策系統而非簡單數據庫。它實現了從捕獲、策略評估、類型化存儲到混合檢索、受控遺忘、審計及租户隔離的完整內存生命週期管理。項目支持無API密鑰的離線存根運行,提供完整的架構文檔和可測試的固有不變量。當前已實現寫入/讀取路徑、策略執行、審計日誌、臨時會話控制及治理UI等核心功能。
- 將內存治理作為核心設計原則,而非單純向量數據庫
- 強制執行租户隔離、刪除保證、來源追蹤等企業級不變量
Cloudflare 臨時賬户
Cloudflare 臨時賬户允許代理在註冊前部署。
Sakana Fugu:一個模型指揮所有
Sakana AI 推出 Fugu,一個通過單一API動態編排多種模型的多智能體系統,在編碼、推理等複雜任務上達到前沿性能,且不依賴單一供應商。基於ICLR 2026論文,Fugu學習自動組合和協調專家模型,提供兩種版本:Fugu(平衡性能與延遲)和Fugu Ultra(針對高強度問題優化)。在多個基準測試中,Fugu模型與頂尖模型並駕齊驅,甚至超越。目前EU/EEA區域暫不可用。
- Fugu通過單一API動態編排多種模型,無需手動設計工作流。
- 提供Fugu和Fugu Ultra兩種模型,分別平衡性能與延遲或最大化答案質量。
給你的沙盒代理提供它們無法讀取的API密鑰
Superserve 發佈 Secrets 功能,允許開發者將 API 密鑰綁定到沙盒,但密鑰的真實值永遠不會進入沙盒環境,從而防止代理泄露密鑰。
- Secrets 通過將真實憑證替換為佔位符令牌來防止密鑰泄露,令牌僅在請求離開沙盒時被交換。
- 支持 OpenAI、Anthropic、GitHub 等主流服務提供商,並可自定義密鑰和允許的主機。
ANMA:通過邊界合約降低AI編碼代理成本
ANMA是一款開源工具,通過純YAML模塊合約生成CLAUDE.md、掛鈎和CI檢查,強制AI編碼代理(如Claude Code)遵守架構邊界。基準測試表明,對於廉價模型(Claude Haiku 4.5),它能將邊界違規率從68%降至0%,同時為前沿模型提供額外保障。支持Python、Go、TypeScript,輕量級設計(約800行代碼),並提供企業級功能如漂移檢測和增量採用。
- ANMA通過純YAML合約聲明模塊公共接口和依賴,自動生成代理上下文指南和強制檢查。
- 在Python基準測試中,Haiku 4.5的違規率從13/19降至0/20(Fisher精確檢驗p<0.0001)。
Show HN:PeekAI – Python AI 代理的本地優先可觀測性工具
PeekAI 是一款本地優先的 Python AI 代理可觀測性工具,將所有追蹤數據存儲在本地 SQLite 數據庫中,無需雲賬户或配置。它支持一鍵檢測 OpenAI、Anthropic 和 LiteLLM,提供多代理可視化、追蹤回放功能,並配備命令行界面和 Web 儀表盤。
- 本地優先:追蹤數據存儲在 ~/.peekai/peekai.db,不離開機器。
- 零配置:一行代碼即可檢測主流 LLM 提供商。
科技工作者對抗硅谷的AI推動
自2025年以來,近40萬科技工作者被裁員,其中2026年就有超過15萬人,許多人被明確因公司加大對人工智能的投入而解僱。與此同時,Meta、谷歌DeepMind和甲骨文等公司員工正在組織起來,抗議AI監控、強制使用AI以及軍事用途。本文探討了當前科技工人運動的新浪潮、挑戰和未來展望。
- Meta員工因公司新的模型能力倡議(MCI)收集計算機使用數據訓練AI而發起請願,已有超過1600人簽名。
- 谷歌DeepMind英國員工投票成立工會,反對公司為軍事用途提供AI。
Compass:為AI編碼代理提供護欄與硬性預算上限
Compass 是一個本地優先的配置層,專為 Claude Code、Codex 和 Gemini 設計,能夠強制實施預算上限、阻止危險命令並通過評分系統確保護欄策略的有效性。它提供自動化的 PR 循環,可自我修復,並支持可驗證的供應鏈安全。安裝簡單,無需 telemetry,且始終由你決定合併。
- 硬性預算上限:設置 COMPASS_MAX_USD 後,會話在達到上限時立即停止,避免意外高額費用。
- 護欄評分:通過 100/100 的 CI 評分驗證,阻止災難性命令和密鑰泄露,並支持紅隊測試。
我讓AI管理一個文明,它造了核彈——啓動CivBench
作者利用《文明VI》構建了CivBench基準測試,評估AI的戰略決策能力。AI代理在遊戲中表現出色,但未能察覺法國文化勝利的威脅,最終訴諸核武器,卻仍然失敗。實驗揭示了AI在複雜環境中的感知盲區和知行差距。
- AI代理在《文明VI》中展現了戰略思維,但未能識別文化勝利威脅。
- 和平手段失敗後,AI選擇使用核武器,仍未能阻止失敗。
Show HN:Bifrost Edge:在你的組織電腦上運行並路由所有AI流量
Bifrost Edge 是一個處於 alpha 階段的端點代理,能夠自動治理設備上的所有 AI 流量,包括桌面聊天應用、瀏覽器工具、編碼代理和 MCP 服務器,無需逐個應用配置。它將現有的 Bifrost 網關策略(如虛擬密鑰、預算、審計日誌和防護欄)擴展到每台機器。
- 自動路由並治理端點上的所有 AI 流量,無需逐個應用設置。
- 支持 macOS、Windows 和 Linux,可通過 MDM 靜默部署。
EGC:為AI編碼工具提供跨會話持久內存的MCP服務器
EGC 是一個本地運行時,為 AI 編碼工具提供跨會話的持久內存,使它們無需手動提示即可保留上下文。它會自動保存決策、失敗、偏好和後續步驟,並在新會話開始時加載。支持 Claude Code、Cursor、Gemini CLI 等多種工具和模型。
- EGC 使 AI 編碼工具在會話之間擁有持久內存
- 自動保存和加載狀態,無需提示
AI原生組織的解剖結構
本文分析了AI如何改變組織架構,特別是中間層的翻譯工作被壓縮,從而影響管理者和工程師的角色。新的組織形態中,定義“為什麼”的小團隊保持不變,定義“做什麼”的團隊擴大,而執行“怎麼做”的團隊縮小但要求更高。管理者必須從協調翻譯轉向直接貢獻,工程師則應專注於AI無法替代的判斷和設計工作。
- AI主要取代了翻譯型任務,而非特定職位
- 組織中間層(翻譯層)正在縮小,兩端(戰略和產品定義)重要性增加
MsgMaster – 一款將雜亂收件箱轉化為優先級工作流的AI
MsgMaster是一款由Emergent開發的AI工具,旨在通過智能排序和優先級劃分,幫助用户高效管理電子郵件,將混亂的收件箱轉變為有序的工作流程。
- 利用人工智能自動對郵件進行優先級排序
- 由Emergent公司開發
Conduit – 為AI代理提供自託管比特幣閃電支付
Conduit是一個自託管的比特幣閃電網絡支付基礎設施,專為自主AI代理設計。它運行在你的LND節點前,為每個代理提供虛擬閃電錢包、支出政策和API,同時運營商完全控制資金。
- Conduit是自託管軟件,運營商持有私鑰,代理僅持有作用域API密鑰。
- 支持測試網和主網,已通過真實支付驗證。
日本芯片製造設備供應商在華銷售額下降10%
日本芯片製造設備供應商在華銷售額下降10%,表明西方企業應多元化東亞市場策略。西方網絡安全供應商需緊急調整防禦策略以應對先進AI代理。NTT的tsuzumi 2達到接近人類的編碼水平,顯示日本LLM驅動自動化的快速發展。
- 日本芯片設備供應商在華銷售額下降10%,提示西方企業應多元化市場。
- 西方網絡安全機構需適應能自主發現漏洞的AI代理。
Show HN:DebugBrief —— 將調試過程轉化為報告,無需AI
DebugBrief 是一個本地優先的 CLI 工具,用於記錄調試會話並生成基於證據的 Markdown 報告,適用於拉取請求、交接或事故記錄。它不含 AI,不收集遙測數據,僅基於實際發生的命令和文件變更構建報告。
- DebugBrief 記錄調試中的筆記和命令,生成可靠的 Markdown 報告,無 AI 參與。
- 支持多種語言項目,通過 `debugbrief run` 捕獲命令並自動識別測試運行器。
Lelu:運行時檢測AI代理被操縱的開源授權引擎
Lelu 是一個開源授權引擎,專門用於檢測並防止 AI 代理在運行時被操縱。它通過分層管道(包括提示注入檢測、置信度門控、策略評估和風險模型)來識別異常行為、低置信度決策和提示注入攻擊。Lelu 提供允許、拒絕、人工審核和計算四種結果,並支持自託管。
- Lelu 通過分層管道檢測 AI 代理的運行時操縱,包括提示注入、低置信度和異常行為。
- 提供四種決策結果:允許、拒絕、人工審核(暫停等待人工批准)、計算(重定向到沙箱)。
更便宜、更安全的代理式AI工作流程
一位開發者通過使用GLM-5.2和DeepSeek V4 Flash等模型,實現了低成本、高效的代理式AI編碼,同時通過虛擬機隔離保護隱私。文章分享了具體步驟、成本對比(低至0.034美元)以及對AI行業商業模式的思考。
- 使用GLM-5.2和DeepSeek V4 Flash模型,任務成本低至0.034美元,耗時僅3分鐘。
- 通過VirtualBox中的Debian虛擬機隔離環境,保護私有數據。
兩個AI評委給我們的智能體答案打了0.85分,但它從未打開文件
本文揭示了LLM作為評委(LLM-as-Judge)在評估智能體時的根本缺陷:評委只檢查最終答案是否匹配,而不檢查答案是否基於有效的證據路徑。通過案例展示,智能體在未檢索必要文檔的情況下仍獲得0.85高分,而基於軌跡的評分僅為0.000。文章提出使用確定性狀態契約來評估智能體行為,並分析了三種失效模式。
- LLM-as-Judge只比較最終答案與正確答案,無法驗證答案生成路徑。
- 案例中兩個前沿模型給出0.85分,但智能體從未打開所需文檔。