AI News HubLIVE

今日必讀

Agent

Goat 2.0 – 面向AI智慧體的主動情景記憶系統

Goat 2.0 是一個基於Telegram的AI智慧體,核心是一個主動分層記憶系統。與標準RAG不同,它在每次對話回合前主動檢索記憶,無需智慧體主動詢問。系統包含三個獨立的儲存後端(Redis、ChromaDB、Letta),具有自適應令牌預算、優先反轉的L2/L3分割、寫透歸檔等特性。該專案展示瞭如何構建具有複雜記憶機制的AI助手。

  • 主動檢索:在每個對話回合開始前,記憶檢索獨立於查詢內容進行,而非由模型發現缺失後觸發。
  • 三層獨立後端:工作記憶(Redis)、情景記憶(ChromaDB)、永久記憶(Letta),各自延遲連線並獨立故障。
站內正文

Anthropic正在招聘人員保護民主免受其自身AI的影響

Anthropic釋出了一個研究工程師職位,旨在研究並防範其AI系統對民主制度的影響。該職位屬於新成立的Anthropic研究所,負責從內部評估AI對經濟、民主機構和社會的影響。工作分為三個方向:確保AI遵守法律、研究AI對政府結構的影響以及利用AI增強民主生活。候選人需要兼具AI專業知識和政治學或法律背景。

  • Anthropic招聘研究工程師組建"法治團隊",研究AI對民主制度的潛在壓力
  • 崗位屬於內部研究所,能從實驗室內部評估AI的社會影響
站內正文

AI根因分析的難點已不再是模型本身

本文指出,AI根因分析(RCA)的真正挑戰不在於模型的推理能力,而在於資料準備和工具鏈(即“護欄”)。作者透過實驗展示了不同模型在給定完整上下文時的表現,強調預處理的確定性管道比模型本身更重要。

  • RCA的難點分為推理和護欄兩部分,當前瓶頸在護欄。
  • 透過確定性管道預處理資料,再交給模型推理,可有效聚焦問題。
站內正文

2026年6月谷歌AI最新動態

谷歌在2026年6月釋出了一系列AI更新,包括Gemini 3.5即時翻譯、Android 17新功能、Google Home Speaker、Gemma 4 12B本地模型、Gemini 3.5 Flash計算機使用、Nano Banana 2 Lite和Gemini Omni Flash模型、Pixel六月更新、新Google Finance、NotebookLM升級、Gemini學習筆記本、教育工具、反詐騙訴訟、極端天氣AI以及AI採用研究等。

  • 推出Gemini 3.5 Live Translate,支援70多種語言的即時語音翻譯,保留自然語調。
  • Android 17帶來懸浮視窗、螢幕反應、摺疊屏最佳化和安全升級。
站內正文

構建無伺服器A2A閘道器:實現智慧體發現、路由與訪問控制

本文介紹如何在AWS上構建一個無伺服器A2A閘道器,統一管理多個AI智慧體的通訊,包括路徑路由、集中許可權控制和語義搜尋。閘道器透過三個層面(管理、控制、執行)簡化智慧體整合,支援標準A2A協議,無需修改客戶端。

  • 使用API Gateway作為單一入口,路徑路由到後端智慧體。
  • 透過Lambda授權器基於JWT作用域實施細粒度訪問控制。
站內正文

AgentCore Memory 中的結構化後設資料過濾

本文介紹如何在 Amazon Bedrock AgentCore Memory 中使用後設資料過濾來提升檢索精度。透過在名稱空間隔離的基礎上新增細粒度的屬性過濾,可以按業務維度(如優先順序、部門、時間範圍)進行檢索。文章詳細描述了後設資料的三階段生命週期:配置、攝取和檢索,並展示了嚴格一致提取等特性,以及多代理和多租戶架構下的最佳實踐。

  • 後設資料過濾在名稱空間隔離之上新增了屬性級檢索,顯著提升了問答準確率(從40%到64%)。
  • 後設資料生命週期分為配置、攝取和檢索三個階段,支援索引鍵和嚴格一致提取。
站內正文
模型

ZCode:來自GLM開發者的Claude Code

本文介紹瞭如何從零開始構建一個具備啟發式AI策略的五子棋遊戲,包括棋盤渲染、落子邏輯、勝負判斷及AI策略最佳化,最終實現一個完全本地執行的瀏覽器遊戲。

  • 從零開始構建15x15五子棋遊戲,支援玩家與AI對戰
  • AI採用啟發式評分演算法,綜合進攻、防守和中心偏好選擇最佳落子
站內正文

日本計劃開發自主AI模型並部署1000萬個機器人

日本政府宣佈計劃到2040年開發本土AI模型,並在十幾個行業部署1000萬個配備AI的機器人。專案投資約60億美元,由軟銀、索尼等公司組成的聯盟Noetra負責開發。此舉旨在減少對美中技術的依賴。

  • 日本計劃到2040年擁有1000萬個AI機器人,覆蓋十幾個行業。
  • 政府將投資約60億美元開發本土AI模型。
站內正文

在 AWS GovCloud(美國)上透過 Amazon Bedrock 執行 NVIDIA Nemotron 和 OpenAI GPT OSS 模型

AWS GovCloud(美國)區域新增對 OpenAI 開源 GPT OSS 模型(120B 和 20B)及 NVIDIA Nemotron 系列模型(Nano 9B v2、Nano 12B v2、Nano 30B、Super 120B)的支援,透過 Amazon Bedrock 提供統一的 API 訪問,推理過程完全在美國境內由美國公民運營的基礎設施上進行,滿足 FedRAMP、DoD SRG 等合規要求。

  • Amazon Bedrock 現支援 OpenAI GPT OSS(120B/20B)和 NVIDIA Nemotron(多個尺寸)模型。
  • 所有推理均在 AWS GovCloud(美國)隔離邊界內進行,資料不離開美國。
站內正文
工具

別讓人工智慧填補所有重要空白

文章指出AI擅長“填補空白”,但這容易導致輸出平庸。作者主張使用者應在提示詞中具體、詳細地指定需求,將AI視為結對程式設計師而非黑盒,避免放棄決策權,並減少不確定性。重點在於透過精心設計的提示詞引導AI產出符合個人品味的結果。

  • AI填充空白的能力使其輸出趨於統計平均,缺乏個性。
  • 使用者應錨定具體技術或美學決策,防止AI用平庸替代個人品味。
站內正文
其餘更新(16 條)
模型

HippoRAG:基於神經生物學啟發的RAG,使用Amazon Bedrock、Amazon Neptune和個性化PageRank

本文演示瞭如何使用AWS技術棧實現HippoRAG,包括Amazon Bedrock、Amazon Neptune、Neptune Analytics和Amazon Titan Embeddings。該框架受人類海馬體記憶系統啟發,透過構建知識圖譜和個性化PageRank演算法,實現單步多跳檢索,提升複雜推理任務的效率。文章詳細介紹了從HotpotQA資料處理到Neptune圖資料庫構建的完整流程,並提供了程式碼示例。

  • HippoRAG是基於海馬體索引理論的檢索增強生成框架,能有效整合跨文件資訊。
  • 使用Amazon Bedrock提取知識圖譜三元組,Amazon Neptune儲存圖譜,Neptune Analytics執行個性化PageRank。
站內正文

讀者在用AI模型創作小說嗎?

一項新研究分析了超過50萬次匿名ChatGPT對話,發現超過三分之一的對話涉及小說創作,包括原創故事、角色扮演、同人和情色小說。使用者中重度使用者居多,存在“無限故事索取者”模式。研究者認為AI可能催生“自戀式讀寫一體者”,並引發對AI在娛樂中角色的思考。

  • 超過三分之一的ChatGPT對話涉及小說創作
  • 使用者中重度使用者佔主導,存在重複請求相同敘事的模式
站內正文

人工智慧重塑全球能源系統,墨爾本以工程協作引領變革

隨著人工智慧驅動計算需求激增,能源系統面臨同步升級的緊迫挑戰。墨爾本憑藉其先進的能源生態系統、世界級工程研究和政產學研協同,成為全球能源轉型的標杆。本文探討了AI對能源基礎設施的影響、墨爾本在智慧電網和可再生能源領域的創新,以及2027年IEEE PES GTD Asia會議將如何促進國際合作。

  • 到2035年,澳大利亞資料中心預計將佔全國電力消費的11%,AI對能源系統構成重大壓力。
  • 墨爾本透過墨爾本大學、智慧電網實驗室和EPICS中心等機構,推動能源與數字基礎設施的協同設計。
站內正文
Agent

OpenWiki:為程式設計代理提供開源倉庫文件

OpenWiki 是一個開源代理和命令列工具,用於自動生成和維護程式碼庫文件。它建立倉庫維基,連線程式設計代理,並透過 GitHub Action 持續更新文件,幫助代理更好地理解程式碼庫上下文,從而提高編碼效率。

  • OpenWiki 自動為程式碼庫生成維基文件,並保持更新。
  • 它透過在代理指令檔案中新增引用,使程式設計代理能夠按需獲取文件。
站內正文

Inscribe 如何利用 Amazon Bedrock 在數秒內阻止文件欺詐

Inscribe 開發了基於 Amazon Bedrock 的代理式 AI 系統,模仿專家欺詐分析師的方式推理文件。該系統可在 90 秒內檢測出篡改、偽造和 AI 生成的金融文件,比傳統人工審查快 20 倍,同時保持金融服務監管所需的準確性和可解釋性。

  • 每 16 份文件中就有 1 份存在欺詐,AI 生成的偽造文件在 2025 年 4 月至 12 月間增長了 5 倍。
  • Inscribe 的代理式 AI 系統協調多個基礎模型,實現跨文件推理和自動化欺詐檢測。
站內正文

利用Amazon SageMaker AI上的BoltzGen加速蛋白質設計

本文演示瞭如何在SageMaker AI上部署BoltzGen,並執行端到端的蛋白質設計實驗。該設定提供兩種執行模式以適應不同的研究階段,並使用步驟級快取來減少迭代工作流中的計算成本。

  • BoltzGen是一種基於擴散的生成模型,用於設計蛋白質和肽。
  • SageMaker AI管理GPU計算基礎設施,從例項預置到結果交付和資源清理。
站內正文

Show HN:AnalystAIPack——118個可執行的惡意軟體分析與逆向工程代理技能

AnalystAIPack 是一個開源的代理技能庫,包含118個經過測試的技能,專為惡意軟體分析、逆向工程和威脅狩獵設計。它解決了通用AI代理在分析惡意軟體時缺乏實踐知識的問題,提供了可執行的指令碼、安全設計(只讀分析、無害化IOC)以及基於MITRE ATT&CK等框架的對映。每個技能包含“何時使用”、“工作流”、“驗證”和“陷阱”等部分,確保代理能夠正確應用技術。文章還展示了一個從樣本到檢測的完整示例,展示瞭如何透過鏈式技能完成分析流程。

  • AnalystAIPack 提供118個深度覆蓋惡意軟體分析、逆向工程和威脅狩獵的代理技能,採用Apache-2.0許可證。
  • 所有技能都附帶經過測試的Python指令碼,可實際執行,且設計為只讀、安全,不會執行樣本。
站內正文

Show HN: AnalystAIPack – 118個可執行的惡意軟體分析與逆向工程Agent技能

AnalystAIPack是一個開源Agent技能庫,專為惡意軟體分析、逆向工程和威脅狩獵設計,包含118個精心策劃且可執行的技能,每個技能都附有測試指令碼,並對映到MITRE ATT&CK、D3FEND和CAR框架。專案強調深度而非廣度,所有指令碼均為只讀分析,安全可靠。

  • 包含118個可執行的Agent技能,覆蓋惡意軟體分析、逆向工程、威脅狩獵和實驗室基礎四個子領域。
  • 每個技能都提供經過測試的Python指令碼,並附帶完整的文件(包括使用時機、工作流程、驗證和陷阱)。
站內正文

Devin安全蜂群:AI驅動的程式碼安全分析新正規化

Devin釋出Security Swarm,一種基於新型架構Agentic MapReduce的自動化安全分析工具。它模擬安全研究團隊的工作流程,在真實程式碼庫中並行掃描攻擊面並驗證漏洞,在測試中達到72%的召回率,成本僅為其他工具的約三分之二。

  • Security Swarm使用Agentic MapReduce架構,透過規劃代理、選擇器、子代理和還原器協同工作。
  • 在包含50個真實漏洞的評估中,召回率達到72%,成本為次優方案的約三分之二。
站內正文

我用Gemini和Claude寫郵件回覆,但只有一個聽起來像我

Gemini和Claude各有優勢,但在撰寫電子郵件方面,只有一個明顯的贏家。

  • Google的Gemini支援Gmail中的Help Me Write,但Claude在匹配語氣和要求方面更勝一籌。
  • 測試顯示Claude能提出更相關的後續問題,並生成更短、更個性化的草稿。
站內正文

Databricks 資料與 AI 峰會 2026 後的思考:資料層為何再次重要

作者認為資料層是 AI 棧中被市場低估的關鍵部分,但隨著 AI 進入生產階段,這一現狀將改變。AI 智慧體暴露了資料管道的缺陷,Databricks 的方向正確但架構尚未完善。文章探討了資料層在 AI 時代的重要性,以及未來 AI 原生資料系統的必備特性。

  • 資料層是 AI 棧中重新定價最慢但最關鍵的部分
  • AI 智慧體因錯誤上下文而失敗,暴露資料管道缺陷
站內正文

紐約市教育工作者與行業領袖齊聚谷歌辦公室,共塑AI在課堂的未來

谷歌、紐約就業CEO委員會和Urban Assembly聯合舉辦了一場AI峰會,150名教育及行業領袖參加。會議聚焦AI如何助力學生未來職業準備,強調人類技能的重要性,並承諾保護隱私和公平獲取。

  • 谷歌與合作伙伴舉辦AI峰會,探討教育中的AI應用
  • 透過動手環節,教師學習了AI工具以提升AI素養
站內正文
晶片

“你只計算一次”:Clockwork 如何終結 AI 訓練重啟

Clockwork 推出 TorchPass 容錯產品和 YOCO 保證,宣稱 90% 的 GPU 叢集故障無需回滾檢查點,透過即時遷移訓練作業到健康 GPU 來避免昂貴的重算。文章分析了當前訓練中斷的成本、TorchPass 的工作原理、兩種模式(模型感知與模型透明)、侷限性以及獨立基準測試結果。

  • TorchPass 能在 GPU 故障時即時遷移訓練狀態,避免回滾檢查點。
  • YOCO 保證 90% 的故障無進度損失,否則提供 25% 的續費折扣。
站內正文

利用GPU快照減少gVisor冷啟動時間

本文介紹了Cerebrium如何透過GPU記憶體快照技術,將gVisor容器中GPU工作負載的冷啟動時間從50秒降低到2.25秒。文章詳細闡述了檢查點(checkpoint)的工作原理:在應用預熱完成後,暫停程序、轉儲CPU和GPU記憶體狀態,並在需要時快速恢復。技術實現涉及修改gVisor containerd shim以在容器建立時決定是正常啟動還是恢復檢查點,並解決了時序、網路、多程序、檔案系統等一系列邊緣情況。

  • GPU工作負載的初始化過程(如匯入Python模組、載入PyTorch、編譯CUDA核心)是確定性的,可以快取結果避免重複計算。
  • Cerebrium擴充套件了gVisor執行時,在容器建立時根據是否存在相容檢查點來決定正常啟動或恢復快照。
站內正文
政策

Fable 5、Mythos 5 限制解除,Anthropic 釋出 Sonnet 5

該強大模型的釋出表明,企業需要對不同的AI系統持開放態度,並在選擇模型時考慮治理問題。

  • Anthropic 釋出 Sonnet 5,同時解除對 Fable 5 和 Mythos 5 的限制。
  • 企業應開放使用多種 AI 系統,並將治理納入模型選擇過程。
站內正文
工具

我們可以沒有AI,但能沒有乾淨的水嗎?| 讀者來信

讀者回應關於艾琳·布羅克維奇對抗AI資料中心的文章,質疑AI大量消耗電力和水資源的益處。指出AI的主要用途是治療、技術支援、娛樂和同人故事,但AI治療可能無法減少孤獨感,反而削弱社交技能和批判性思維。

  • AI資料中心消耗大量電力和水資源,引發環境擔憂。
  • AI的主要用途是治療、技術支援和娛樂。
AI 日報 2026-07-02 | AI News Hub