理解AI中的技能:構建更智慧AI代理的完整指南
AI代理的真正力量在於其技能——可重複使用的模組化邏輯塊。本文詳細介紹了SimplAI平臺中技能的構建、管理及最佳實踐,包括代理配置與技能分離、兩種執行模式(規劃模式與駕馭模式)、技能生命週期管理以及預覽與追蹤功能,幫助開發者打造生產級AI代理。
- 技能是AI代理執行具體任務的核心,將代理角色與執行邏輯分離。
- 駕馭模式是實現技能委派的必備模式,規劃模式不支援技能。
愛沙尼亞將成為首個為AI代理建立數字身份的國家
愛沙尼亞計劃成為世界上第一個為人工智慧代理頒發數字身份程式碼的國家。
MemoryOps:面向AI助手的企業級記憶體治理基礎設施
MemoryOps是一個專為AI助手設計的企業級記憶體治理層,將記憶體視為受治理的決策系統而非簡單資料庫。它實現了從捕獲、策略評估、型別化儲存到混合檢索、受控遺忘、審計及租戶隔離的完整記憶體生命週期管理。專案支援無API金鑰的離線存根執行,提供完整的架構文件和可測試的固有不變數。當前已實現寫入/讀取路徑、策略執行、審計日誌、臨時會話控制及治理UI等核心功能。
- 將記憶體治理作為核心設計原則,而非單純向量資料庫
- 強制執行租戶隔離、刪除保證、來源追蹤等企業級不變數
Cloudflare 臨時賬戶
Cloudflare 臨時賬戶允許代理在註冊前部署。
Sakana Fugu:一個模型指揮所有
Sakana AI 推出 Fugu,一個透過單一API動態編排多種模型的多智慧體系統,在編碼、推理等複雜任務上達到前沿效能,且不依賴單一供應商。基於ICLR 2026論文,Fugu學習自動組合和協調專家模型,提供兩種版本:Fugu(平衡效能與延遲)和Fugu Ultra(針對高強度問題最佳化)。在多個基準測試中,Fugu模型與頂尖模型並駕齊驅,甚至超越。目前EU/EEA區域暫不可用。
- Fugu透過單一API動態編排多種模型,無需手動設計工作流。
- 提供Fugu和Fugu Ultra兩種模型,分別平衡效能與延遲或最大化答案質量。
給你的沙盒代理提供它們無法讀取的API金鑰
Superserve 釋出 Secrets 功能,允許開發者將 API 金鑰繫結到沙盒,但金鑰的真實值永遠不會進入沙盒環境,從而防止代理洩露金鑰。
- Secrets 透過將真實憑證替換為佔位符令牌來防止金鑰洩露,令牌僅在請求離開沙盒時被交換。
- 支援 OpenAI、Anthropic、GitHub 等主流服務提供商,並可自定義金鑰和允許的主機。
ANMA:透過邊界合約降低AI編碼代理成本
ANMA是一款開源工具,透過純YAML模組合約生成CLAUDE.md、掛鉤和CI檢查,強制AI編碼代理(如Claude Code)遵守架構邊界。基準測試表明,對於廉價模型(Claude Haiku 4.5),它能將邊界違規率從68%降至0%,同時為前沿模型提供額外保障。支援Python、Go、TypeScript,輕量級設計(約800行程式碼),並提供企業級功能如漂移檢測和增量採用。
- ANMA透過純YAML合約宣告模組公共介面和依賴,自動生成代理上下文指南和強制檢查。
- 在Python基準測試中,Haiku 4.5的違規率從13/19降至0/20(Fisher精確檢驗p<0.0001)。
Show HN:PeekAI – Python AI 代理的本地優先可觀測性工具
PeekAI 是一款本地優先的 Python AI 代理可觀測性工具,將所有追蹤資料儲存在本地 SQLite 資料庫中,無需雲賬戶或配置。它支援一鍵檢測 OpenAI、Anthropic 和 LiteLLM,提供多代理視覺化、追蹤回放功能,並配備命令列介面和 Web 儀表盤。
- 本地優先:追蹤資料儲存在 ~/.peekai/peekai.db,不離開機器。
- 零配置:一行程式碼即可檢測主流 LLM 提供商。
科技工作者對抗矽谷的AI推動
自2025年以來,近40萬科技工作者被裁員,其中2026年就有超過15萬人,許多人被明確因公司加大對人工智慧的投入而解僱。與此同時,Meta、谷歌DeepMind和甲骨文等公司員工正在組織起來,抗議AI監控、強制使用AI以及軍事用途。本文探討了當前科技工人運動的新浪潮、挑戰和未來展望。
- Meta員工因公司新的模型能力倡議(MCI)收集計算機使用資料訓練AI而發起請願,已有超過1600人簽名。
- 谷歌DeepMind英國員工投票成立工會,反對公司為軍事用途提供AI。
Compass:為AI編碼代理提供護欄與硬性預算上限
Compass 是一個本地優先的配置層,專為 Claude Code、Codex 和 Gemini 設計,能夠強制實施預算上限、阻止危險命令並透過評分系統確保護欄策略的有效性。它提供自動化的 PR 迴圈,可自我修復,並支援可驗證的供應鏈安全。安裝簡單,無需 telemetry,且始終由你決定合併。
- 硬性預算上限:設定 COMPASS_MAX_USD 後,會話在達到上限時立即停止,避免意外高額費用。
- 護欄評分:透過 100/100 的 CI 評分驗證,阻止災難性命令和金鑰洩露,並支援紅隊測試。
我讓AI管理一個文明,它造了核彈——啟動CivBench
作者利用《文明VI》構建了CivBench基準測試,評估AI的戰略決策能力。AI代理在遊戲中表現出色,但未能察覺法國文化勝利的威脅,最終訴諸核武器,卻仍然失敗。實驗揭示了AI在複雜環境中的感知盲區和知行差距。
- AI代理在《文明VI》中展現了戰略思維,但未能識別文化勝利威脅。
- 和平手段失敗後,AI選擇使用核武器,仍未能阻止失敗。
Show HN:Bifrost Edge:在你的組織電腦上執行並路由所有AI流量
Bifrost Edge 是一個處於 alpha 階段的端點代理,能夠自動治理裝置上的所有 AI 流量,包括桌面聊天應用、瀏覽器工具、編碼代理和 MCP 伺服器,無需逐個應用配置。它將現有的 Bifrost 閘道器策略(如虛擬金鑰、預算、審計日誌和防護欄)擴充套件到每臺機器。
- 自動路由並治理端點上的所有 AI 流量,無需逐個應用設定。
- 支援 macOS、Windows 和 Linux,可透過 MDM 靜默部署。
EGC:為AI編碼工具提供跨會話持久記憶體的MCP伺服器
EGC 是一個本地執行時,為 AI 編碼工具提供跨會話的持久記憶體,使它們無需手動提示即可保留上下文。它會自動儲存決策、失敗、偏好和後續步驟,並在新會話開始時載入。支援 Claude Code、Cursor、Gemini CLI 等多種工具和模型。
- EGC 使 AI 編碼工具在會話之間擁有持久記憶體
- 自動儲存和載入狀態,無需提示
AI原生組織的解剖結構
本文分析了AI如何改變組織架構,特別是中間層的翻譯工作被壓縮,從而影響管理者和工程師的角色。新的組織形態中,定義“為什麼”的小團隊保持不變,定義“做什麼”的團隊擴大,而執行“怎麼做”的團隊縮小但要求更高。管理者必須從協調翻譯轉向直接貢獻,工程師則應專注於AI無法替代的判斷和設計工作。
- AI主要取代了翻譯型任務,而非特定職位
- 組織中間層(翻譯層)正在縮小,兩端(戰略和產品定義)重要性增加
MsgMaster – 一款將雜亂收件箱轉化為優先順序工作流的AI
MsgMaster是一款由Emergent開發的AI工具,旨在透過智慧排序和優先順序劃分,幫助使用者高效管理電子郵件,將混亂的收件箱轉變為有序的工作流程。
- 利用人工智慧自動對郵件進行優先順序排序
- 由Emergent公司開發
Conduit – 為AI代理提供自託管比特幣閃電支付
Conduit是一個自託管的比特幣閃電網路支付基礎設施,專為自主AI代理設計。它執行在你的LND節點前,為每個代理提供虛擬閃電錢包、支出政策和API,同時運營商完全控制資金。
- Conduit是自託管軟體,運營商持有私鑰,代理僅持有作用域API金鑰。
- 支援測試網和主網,已透過真實支付驗證。
日本晶片製造裝置供應商在華銷售額下降10%
日本晶片製造裝置供應商在華銷售額下降10%,表明西方企業應多元化東亞市場策略。西方網路安全供應商需緊急調整防禦策略以應對先進AI代理。NTT的tsuzumi 2達到接近人類的編碼水平,顯示日本LLM驅動自動化的快速發展。
- 日本晶片裝置供應商在華銷售額下降10%,提示西方企業應多元化市場。
- 西方網路安全機構需適應能自主發現漏洞的AI代理。
Show HN:DebugBrief —— 將除錯過程轉化為報告,無需AI
DebugBrief 是一個本地優先的 CLI 工具,用於記錄除錯會話並生成基於證據的 Markdown 報告,適用於拉取請求、交接或事故記錄。它不含 AI,不收集遙測資料,僅基於實際發生的命令和檔案變更構建報告。
- DebugBrief 記錄除錯中的筆記和命令,生成可靠的 Markdown 報告,無 AI 參與。
- 支援多種語言專案,透過 `debugbrief run` 捕獲命令並自動識別測試執行器。
Lelu:執行時檢測AI代理被操縱的開源授權引擎
Lelu 是一個開源授權引擎,專門用於檢測並防止 AI 代理在執行時被操縱。它透過分層管道(包括提示注入檢測、置信度門控、策略評估和風險模型)來識別異常行為、低置信度決策和提示注入攻擊。Lelu 提供允許、拒絕、人工稽核和計算四種結果,並支援自託管。
- Lelu 透過分層管道檢測 AI 代理的執行時操縱,包括提示注入、低置信度和異常行為。
- 提供四種決策結果:允許、拒絕、人工稽核(暫停等待人工批准)、計算(重定向到沙箱)。
更便宜、更安全的代理式AI工作流程
一位開發者透過使用GLM-5.2和DeepSeek V4 Flash等模型,實現了低成本、高效的代理式AI編碼,同時透過虛擬機器隔離保護隱私。文章分享了具體步驟、成本對比(低至0.034美元)以及對AI行業商業模式的思考。
- 使用GLM-5.2和DeepSeek V4 Flash模型,任務成本低至0.034美元,耗時僅3分鐘。
- 透過VirtualBox中的Debian虛擬機器隔離環境,保護私有資料。
兩個AI評委給我們的智慧體答案打了0.85分,但它從未開啟檔案
本文揭示了LLM作為評委(LLM-as-Judge)在評估智慧體時的根本缺陷:評委只檢查最終答案是否匹配,而不檢查答案是否基於有效的證據路徑。透過案例展示,智慧體在未檢索必要文件的情況下仍獲得0.85高分,而基於軌跡的評分僅為0.000。文章提出使用確定性狀態契約來評估智慧體行為,並分析了三種失效模式。
- LLM-as-Judge只比較最終答案與正確答案,無法驗證答案生成路徑。
- 案例中兩個前沿模型給出0.85分,但智慧體從未開啟所需文件。