AI News HubLIVE

今日必讀

Agent

阻止AI代理透過自身記憶體被武器化(OWASP)

OWASP釋出了Agent Memory Guard,這是一個開源執行時防禦層,可防止AI代理記憶體中毒攻擊。它介於代理和記憶體儲存之間,透過一系列檢測器和YAML策略監控讀寫操作。基準測試顯示召回率92.5%,精確率100%,零誤報,中位延遲59微秒。

  • Agent Memory Guard是OWASP針對代理記憶體中毒(ASI06)的參考實現。
  • 它包含五種檢測類別:SHA-256完整性、提示注入、敏感資料洩露、受保護鍵修改和大小異常。
站內正文

從頭構建基本AI代理:工具

本文介紹如何透過新增工具來增強基本AI代理,使其能夠與計算機環境互動。涵蓋工具定義、代理使用方式以及七個必備工具(bash、檔案讀寫、檔案搜尋、grep、網頁獲取等)的Python實現和工具模式定義。

  • 工具是暴露給LLM的函式,使代理能自主執行操作。
  • 現代LLM支援原生工具呼叫,以JSON格式生成工具請求。
站內正文

使用 Amazon Bedrock AgentCore Payments 的內建防護欄實現安全的代理支付

本文探討了設計代理支付系統時面臨的主要安全風險,包括失控支出、使用者授權缺失、憑證洩露等,並介紹了 Amazon Bedrock AgentCore Payments 如何透過基礎設施層的防護欄(如支付限額、策略控制、憑證安全儲存和即時令牌)來應對這些挑戰。

  • AgentCore Payments 讓AI代理能夠代表終端使用者支付付費資源,當前與Coinbase和Stripe(Privy)合作提供預覽版。
  • 系統面臨四大風險:失控支出、使用者授權不足、開發者金鑰和錢包令牌洩露、支付工具資訊暴露。
站內正文

圖靈獎得主Richard Sutton:純生成式AI無法進行真正的科學發現

圖靈獎得主Richard Sutton指出,普通生成式AI缺乏評估自身輸出的能力,因此無法實現真正的科學發現。他認為,只有像AlphaGo那樣內建評估迴圈的系統才具備真正的創造力。Sutton呼籲開發能夠持續學習、自我評估和選擇最優解的AI。

  • 生成式AI只能模仿或隨機生成,無法判斷新想法的好壞。
  • 真正的科學發現需要經歷變化、評估和選擇性保留三個階段。
站內正文

遇見 Memory OS:基於 Hermes Agent 的六層開源記憶棧

Memory OS 是一個新的 MIT 許可庫,為 Hermes Agent 增加了六層記憶,包括向量資料庫、結構化事實和自動整理的百科。它完全本地執行,需要 Docker、Qdrant、Redis,並注重 token 效率。

  • Memory OS 在 Hermes Agent 內建記憶之上增加了六層:工作區、會話、結構化事實、Fabric、向量資料庫和 LLM 百科。
  • 檢索採用基於門控、去重的四源召回,捕獲在呼叫後自動進行。
站內正文

斯坦福大學CS336課程AI助手使用指南

本文為CS336課程的AI編碼助手(如ChatGPT、Claude Code等)提供了明確的使用指南。AI助手應充當教學助理,透過解釋、指導和反饋幫助學生,而不是直接完成作業。文中詳細列出了AI助手應做和不應做的事情,並給出了教學方法和示例互動。

  • AI助手應充當教學助理,而非解決方案生成器。
  • 禁止編寫程式碼、直接給出解決方案或完成作業中的TODO部分。
站內正文
工具

亞馬遜因員工作弊關閉內部AI使用排行榜

亞馬遜關閉了一個根據員工使用AI工具頻率進行排名的內部排行榜。公司官方稱已達成目標,但員工懷疑真實原因是作弊和資源浪費。有員工承認故意刷分,甚至被管理層要求增加AI使用量。

  • 亞馬遜關閉內部AI使用排行榜,官方稱已達成目標,但員工懷疑因作弊和浪費
  • 有員工因被批評AI使用不足而作弊刷分
站內正文
政策

駭客要求Meta AI授予他們Instagram賬戶訪問許可權,竟然成功了

駭客利用Meta的AI支援聊天機器人,透過簡單詢問即可更改高知名度Instagram賬戶的關聯郵箱,導致包括歐巴馬白宮賬戶在內的多個賬戶被劫持。該漏洞凸顯了將技術支援外包給AI的巨大風險。Meta已在近期修補該漏洞,但受害者表示無法升級至人工支援。

  • 駭客透過Meta AI聊天機器人,請求更改目標賬戶的郵箱地址,成功接管Instagram賬戶。
  • 受影響的賬戶包括歐巴馬白宮賬戶、太空軍首席軍士長賬戶和絲芙蘭賬戶。
站內正文
創業融資

Claude製造商Anthropic向SEC秘密提交IPO申請

Anthropic已向美國證券交易委員會秘密提交IPO註冊草案。這家開發Claude聊天機器人的公司在最新一輪融資後估值接近1萬億美元。競爭對手OpenAI也在籌備IPO。AI領域的投資者爭奪戰正在升溫。

  • Anthropic秘密提交S-1註冊草案,啟動IPO流程
  • 公司估值在最新65億美元融資後接近1萬億美元
站內正文
機器人

美國人形機器人在烏克蘭戰爭中進行測試

美國人形機器人正在烏克蘭戰爭中接受測試,同時這些機器人也被瞄準用於工業工作環境。

  • 美國人形機器人在烏克蘭戰爭中進行實戰測試
  • 機器人還計劃應用於工業領域
站內正文
其餘更新(13 條)
創業融資

Anthropic正式提交上市申請

Anthropic於週一提交了保密的IPO註冊宣告,估值9650億美元,超越競爭對手OpenAI。上市程序緊隨SpaceX計劃於6月12日的IPO之後。

  • Anthropic向SEC秘密提交IPO草案,估值9650億美元,成為全球最高估值初創公司。
  • 這一估值超過了主要競爭對手OpenAI的8520億美元。
站內正文

Anthropic秘密提交美國上市申請

人工智慧公司Anthropic已秘密向美國股市提交首次公開募股(IPO)申請。該公司開發了受軟體工程師和企業客戶歡迎的Claude聊天機器人,今年崛起迅速。此次IPO的估值和其他條款尚未公開。此前,Anthropic在週四宣佈完成650億美元融資,估值達9650億美元,而2月份時其估值為3800億美元。

  • Anthropic秘密提交美股IPO申請
  • 公司未披露估值和發行條款
站內正文
工具

DuckDuckGo 推出“無AI”搜尋擴充套件,流量激增下強化反AI立場

隨著流量持續增長,替代搜尋引擎 DuckDuckGo 推出新的瀏覽器擴充套件,讓使用者輕鬆將其無AI搜尋體驗設為預設。該擴充套件適用於 Chrome 和 Firefox,承諾搜尋結果中不包含AI輔助答案、聊天提示和AI生成影像。DuckDuckGo 瀏覽器使用者即使清除歷史記錄,AI設定也不會丟失。

  • DuckDuckGo 釋出瀏覽器擴充套件,可將 noai.duckduckgo.com 設為預設搜尋引擎。
  • 擴充套件強調無AI搜尋體驗,不含AI輔助答案或聊天提示。
站內正文
Agent

我們給AI智慧體裝上眼睛,它卻根本沒使用它們

一項實驗發現,即使為AI智慧體賦予視覺能力,它可能也不會使用。使用Claude Haiku 4.5和Goose框架,智慧體在表格提取任務中成功不是靠視覺,而是藉助保留佈局的文本工具。透過開放標準AVP記錄,揭示了堅持和合適工具比昂貴模型更重要。

  • AI智慧體裝備視覺能力卻未使用,成功源於佈局感知的文本工具。
  • 便宜模型(Claude Haiku 4.5)在正確工具和框架下完成高難度PDF提取任務。
站內正文

AgentOps:使用 Amazon Bedrock AgentCore 大規模運營 AI 智慧體

構建 AI 智慧體解決方案時,面臨智慧體決策不可預測、成本失控及除錯非確定性故障等運營挑戰。AgentOps 是部署、管理和持續改進生產環境中 AI 智慧體的運營規程。本文介紹瞭如何使用 Amazon Bedrock AgentCore 實現 AgentOps,涵蓋四大支柱:治理與安全、構建與運營、評估、可觀測性,並提供了參考架構和實踐指南。

  • AgentOps 是專門為 AI 智慧體設計的運營規程,應對其自主決策帶來的挑戰。
  • 四大支柱包括治理與安全、構建與運營、評估、可觀測性。
站內正文

AI主權與參與架構

本文探討了國家追求技術主權的趨勢,以巴西追求醫療主權為例,類比到AI領域。作者認為,去耦的說法過於狹隘,實際上各國尋求的是在保持連線的同時建立自身能力,類似於聯邦制而非分離。開源AI模型、協議和工具是實現主權的重要途徑,但基礎設施層(資料中心、晶片、電網)才是關鍵,因為這些難以複製。文章提出了聯邦化AI的概念,以及為AI時代重建基礎設施的願景。

  • 巴西追求醫療主權,希望自主生產疫苗和藥物,減少對外依賴。
  • 類似地,各國追求AI主權,旨在不依賴少數美國或中國公司。
站內正文

Rippling如何在6個月內藉助Deep Agents和LangSmith實現全產品AI化

Rippling利用LangChain的Deep Agents和LangSmith,在6個月內為其跨HR、IT、財務、薪資和全球運營的平臺構建了生產級AI系統,採用多智慧體架構和上下文工程解決大規模本體推理難題。

  • Rippling的AI層使用監督智慧體協調5-7個專業子智慧體,涵蓋讀取、RAG和操作三類智慧體。
  • 上下文工程透過動態技能注入、程式碼執行和變數引腳(REPL)減少上下文膨脹100-500倍。
站內正文

Amazon Quick 透過 MCP 整合時間序列資料庫實現市場情報分析

本文介紹瞭如何使用 KDB-X MCP 伺服器與 Amazon Quick 整合,使交易員和分析師能夠透過自然語言提問,從時間序列資料集中獲取可操作的見解。該整合模式可應用於金融分析、物聯網監控和 DevOps 儀表板等多個領域。

  • Amazon Quick 整合 MCP 協議,無需複雜資料庫查詢即可訪問時間序列資料。
  • 使用 KDB-X MCP 伺服器在 EC2 上部署,並透過 Amazon Bedrock AgentCore Gateway 進行安全連線。
站內正文

我們如何使用Gemini打造Google I/O 2026

瞭解Google員工如何利用AI來製作Google I/O 2026,從水母暖場節目到“TPU訓練日”影片,看看Gemini如何幫助實現今年的I/O盛會。

  • Google I/O 2026的創作過程中廣泛使用了AI工具,包括Gemini、Nano Banana等。
  • 製作團隊將AI與人類藝術結合,創造了短片“TPU訓練日”、視覺品牌形象、沉浸式體驗等。
站內正文

這個程式設計智慧體不想要你的反饋——它直接交付,無需迭代

SkipLabs推出Skipper,一個閉環AI程式設計智慧體,能從自然語言描述或OpenAPI規範中直接生成完整的後端服務,無需開發者在迭代迴圈中參與。它採用來自Skip語言的響應式執行時來處理狀態管理和併發,這是AI程式碼最常出問題的地方。Skipper將AI模型視為商品,預設使用Claude Opus,支援多種模型。未來計劃包括增量TypeScript實現和增量更新模式。

  • Skipper是一個閉環智慧體,從描述直接生成可執行的後端服務,無需人工審查和迭代。
  • 它使用Skip語言的響應式執行時自動管理狀態、快取失效和併發,避免AI程式碼在這些方面的常見錯誤。
站內正文

Anthropic向SEC秘密提交S-1草案

Anthropic已向美國證券交易委員會秘密提交S-1註冊宣告草案,為潛在的首次公開募股做準備,具體取決於市場條件和SEC審查。股票數量和發行價格尚未確定。

  • Anthropic於2026年6月1日秘密向SEC提交了S-1草案。
  • IPO是可選的,需待SEC審查和市場條件。
站內正文

智慧體執行稅:大模型在瀏覽器自動化中的真正瓶頸

在720次瀏覽器代理任務基準測試中發現,模型在結構化輸出可靠性上的差異導致高達22.9%的執行稅(浪費的推理呼叫佔比)。Kimi K2.5實現零執行稅,而Gemini 2.5 Flash在近五分之一的呼叫中出現JSON格式錯誤。這種執行開銷不僅增加了成本,還放大了延遲和任務失敗風險。

  • 智慧體執行稅衡量因無效結構化輸出而產生的冗餘推理呼叫比例,Gemini高達22.9%,而Kimi為零。
  • 結構化輸出可靠性是核心瓶頸:Gemini每5次呼叫就有1次解析失敗,導致87%的任務至少經歷一次重試。
站內正文
模型

利用 Amazon FSx for Lustre 上的 GPUDirect 和 TurboQuant 加速 LLM 模型載入並擴大上下文視窗

本文探討了如何透過結合 Amazon FSx for Lustre、NVIDIA GPUDirect Storage (GDS) 和預分片並行載入,將大型語言模型 (LLM) 的冷啟動首次令牌時間從分鐘級縮短到秒級,並介紹了 TurboQuant KV 快取對擴大上下文視窗的影響。

  • CPU 模型載入是冷啟動瓶頸,對 405B 引數模型需 10–20 分鐘。
  • FSx for Lustre + GPUDirect Storage 透過 EFA 直接向 GPU HBM 傳輸資料,繞過 CPU。