AI News HubLIVE

今日必讀

Agent

2026年6月:LangChain通訊——Fleet值班副駕駛、Deep Agents評分標準等

LangSmith新增Fleet值班副駕駛用於告警分類、智慧體計算機使用、語音跟蹤除錯和實驗狀態跟蹤。還有Deep Agents評分標準、程式化子智慧體、新的LangSmith部署課程,以及芝加哥、柏林、華盛頓特區和拉斯維加斯的即將舉行的活動。

  • Fleet On-Call Copilot:一個預構建的智慧體模板,用於透過程式碼、軌跡和執行手冊進行告警分類和更新草稿。
  • 計算機使用:智慧體現在可以使用隔離的虛擬計算機進行程式碼、檔案和經身份驗證的API呼叫。
站內正文

反對“倫理AI”

本文批判了以Anthropic為代表的“倫理AI”運動,認為其建立在一個未經證實的假設上:AI發展不可阻擋但可以引導向善。實際上,倫理AI既未能重塑認知習慣,也未能引導AI走向人道,反而充當了非倫理AI的受控反對派。文章透過分析Anthropic聯合創始人Jack Clark的“世界構建”敘事,揭示了倫理AI的內在矛盾:聲稱無力減緩AI發展,卻自信能控制其後果。

  • 倫理AI建立在“進步不可避免但可引導”的虛假假設上。
  • Anthropic的敘事透過科幻式世界構建,聲稱AGI必然到來但可塑造。
站內正文

為人工智慧時代重新定位零售業

人工智慧正在重塑零售業,但主要變化發生在幕後,如搜尋排名、供應鏈管理和即時客戶響應。梅西百貨採用'AI優先'策略,將智慧融入個性化、搜尋和運營規劃,並推出對話式購物助手Ask Macy's。AI被視為增強人類判斷的隱形層,而非替代品。

  • 人工智慧在零售業的應用主要體現在幕後決策流程,如商品搜尋、庫存管理和程式碼開發。
  • 梅西百貨採用'AI優先'方法,將智慧直接嵌入系統,加速業務決策並提升個性化體驗。
站內正文
模型

銀行為何需要首席科學家?

Prem Natarajan離開亞馬遜,成為第一資本的首席科學家,將深度AI研究應用於解決大規模現實金融挑戰,從欺詐檢測到代理客戶服務。

  • 第一資本將AI視為一門科學學科,而不僅僅是部署的技術。
  • 該銀行的雲優先基礎設施支援大規模AI研究。
站內正文

DeepReinforce釋出Ornith-1.0:開源程式設計模型家族,自我學習強化學習框架

DeepReinforce釋出了Ornith-1.0,一個基於Gemma 4和Qwen 3.5的開源程式設計模型系列,涵蓋9B至397B四種規模。其核心創新在於模型在強化學習過程中自主學習框架(scaffold),而非依賴固定的人造框架。旗艦版397B模型在SWE-Bench Verified上取得82.4分,所有權重均在MIT許可下開源。

  • Ornith-1.0包括9B、31B、35B-MoE和397B-MoE四種模型,均基於Gemma 4和Qwen 3.5,採用MIT許可證。
  • 模型在強化學習中自主學習程式設計框架,即同時最佳化框架和解決方案。
站內正文
工具

人工智慧如何幫助解決其自身帶來的能源挑戰

資料中心公司高管表示,人工智慧可以在管理其日益增長的電力需求的同時,支援能源轉型目標。

  • 人工智慧的快速發展導致電力需求激增,給能源系統帶來壓力。
  • 資料中心高管認為AI本身可以最佳化能源使用,支援可再生能源整合。
站內正文

Meta撤回強制工程師參與AI培訓的決定

Meta最初將7000名員工重新分配到應用AI任務組,引發不滿,現在改為尊重個人選擇,允許他們退出。此決定發生在CEO承認士氣低落的背景下,此前公司已裁員10%。

  • Meta強制7000名工程師加入AI培訓任務組,引發員工強烈反對
  • 公司釋出備忘錄,改為尊重個人選擇,允許退出
站內正文
晶片

人工智慧經濟現狀

過去12個月,生成式AI經濟創造了1100億美元銷售額,年化收入超過1750億美元。本文透過自下而上的去重方法,首次全面衡量消費者和企業AI支出,分析需求側、收入能否覆蓋GPU投資以及代幣價格下降對市場的影響。

  • AI生態系統過去12個月收入1100億美元,年化執行率1750億美元,增速是移動/網際網路浪潮的3倍。
  • 研究採用去重方法,只計算終端客戶支出,避免供應鏈重複計算。
站內正文

使用 NVIDIA Blackwell 最佳化 Amazon SageMaker AI 上的模型訓練

本文介紹瞭如何在 Amazon SageMaker AI 上配置訓練作業,以充分利用 NVIDIA Blackwell 架構的優勢。您將學習如何選擇批大小和序列長度以利用 Blackwell 的擴充套件記憶體,為模型大小(1B 到 64B 引數)選擇合適的精度格式,並策略性地應用啟用檢查點。最終,您將獲得一個實用的框架來調整訓練配置並在 P6-B200 例項上啟動分散式訓練作業。

  • Blackwell 的擴充套件記憶體支援更大的批大小、更長的序列長度和簡化的模型分片。
  • 啟用檢查點對於大模型(~14B+ 引數)是穩定訓練的先決條件。
站內正文
政策

沒有人願意解決的AI記憶問題

本文探討了長期執行的AI系統中的上下文漂移問題,指出真正的挑戰不是模型能力的限制,而是架構設計導致的記憶退化,即架構幻覺。文章對比了LLM幻覺與架構幻覺,並提出了結構化記憶作為解決方案。

  • AI記憶隨使用時間變差,源於上下文壓縮而非模型能力下降。
  • 架構幻覺是系統自我反饋導致的上下文漂移,而非單純模型錯誤。
站內正文
其餘更新(10 條)
Agent

透過 Amazon SageMaker AI 部署 SeedVR2 實現超解析度

本文展示瞭如何使用 SeedVR2 和 Amazon SageMaker AI 實現影片放大。我們介紹瞭解決方案架構、部署步驟,並進行了效能對比,突出了質量提升和處理效率。完成後,您將掌握實現該超解析度解決方案的實用知識。

  • SeedVR2 是字節跳動開源影片修復模型,結合擴散模型和 GAN 實現高效影片放大。
  • 解決方案採用三層 AWS 架構,包括安全、儲存和 SageMaker 處理管道。
站內正文

使用由Amazon Bedrock支援的AI代理構建自助式AWS健康分析,以發現可操作的健康洞察

本文介紹如何構建Chaplin(客戶健康與計劃生命週期智慧聯結器),這是一個開源解決方案,利用透過模型上下文協議(MCP)暴露的AI代理,提供自助式健康事件分析。Chaplin允許團隊用自然語言提問,並從MCP相容的AI助手獲得精確、上下文化的答案,無需依賴AWS支援進行常規分析。

  • Chaplin是一個開源解決方案,使用AI代理透過MCP提供自助式AWS健康事件分析。
  • 它解決了運營團隊依賴TAM解釋健康事件的瓶頸問題。
站內正文

在AWS上使用現代資料網格策略構建自主AI應用

本文展示瞭如何在AWS上構建一個受治理的無伺服器資料網格,為生產級自主AI提供安全、可擴充套件的資料基礎。架構透過S3 Tables(Iceberg)、S3 Vectors和AgentCore Gateway實現三層治理,解決自主AI多步驟資料訪問中的授權問題。

  • 自主AI需要從工具發現到查詢執行的每一步都進行細粒度訪問控制,傳統RAG的單點治理模式無法滿足。
  • 使用Amazon S3 Tables(內建Iceberg支援)和AWS Lake Formation實現行/列/單元格級安全,交易效能提升10倍。
站內正文

OpenKnowledge:開源、AI原生的Obsidian/Notion替代品

OpenKnowledge 是一個開源、AI原生的Markdown編輯器和知識庫,旨在成為Obsidian或Notion的替代品。它提供了美觀的富文本編輯器,底層基於Markdown,專為人類和AI代理協同工作而設計。功能包括協作編輯、Git同步、代理原生技能、與Claude、Cursor和Codex整合的MCP支援,以及本地優先、注重隱私的方式。v2.0版本釋出後,24小時內獲得1400個新註冊,登上Product Hunt第一名和Hacker News首頁。

  • OpenKnowledge是一個開源、AI原生的Markdown編輯器和知識庫。
  • 它提供基於Markdown的富文本編輯器,支援人類和AI代理協同編輯。
站內正文

Tabularis:開源桌面SQL客戶端,AI代理也可使用

Tabularis 是一款開源的桌面資料庫客戶端,專為AI代理和人類使用者共同使用而設計。它內建MCP伺服器,支援AI代理安全地檢查模式和執行查詢,同時保留高階SQL編輯器、筆記本、視覺化查詢構建器等人類友好功能。支援PostgreSQL、MySQL、SQLite等多種引擎,並透過外掛擴充套件。採用本地優先架構,確保資料安全。

  • 內建Model Context Protocol (MCP) 伺服器,AI代理可直接在應用內執行查詢
  • 提供Monaco SQL編輯器、筆記本、視覺化EXPLAIN和ER圖等專業工具
站內正文

使用 Gemini 建立 Google 表格

本教程介紹了三種利用 Gemini 建立 Google 表格的方法:在電子表格內直接使用內建整合、透過 Gemini 網頁應用生成並匯出、以及使用 Gemini 編寫 Google Apps Script 實現高階自動化。同時提供最佳化提示以獲得更好結果的建議。

  • Gemini 是 Google 表格中的 AI 整合工具,可透過自然語言建立、填充和分析電子表格。
  • 方法一:在 Google 表格內部使用 Gemini 邊欄,透過提示生成表格、公式和分析。
站內正文

程式碼審查已死,程式碼審查萬歲

傳統的人工程式碼審查流程在AI生成程式碼爆發的時代已無法擴充套件。本文提出用自動化CI/CD門控替代儀式性的人工審批,構建四層質量門控管道,將人類審查保留給高風險變更,並透過後合併審查建立反饋迴圈。

  • AI使程式碼產出速度遠超人工審查能力,傳統審查模式失效。
  • 自動化門控(lint、SAST、測試、分支保護)保證一致性和速度。
站內正文

使用AI智慧體自動化fork維護 | Cohere

本文介紹了一種利用AI編碼智慧體自動化軟體fork與上游同步的方法,透過將fork維護建模為控制論中的閉環反饋系統,顯著縮短了吸收新上游版本的時間。以Cohere的vLLM fork為例,展示了從衝突解決到測試修復的全自動流程。

  • AI智慧體可自動化fork維護的完整迴圈:同步、測量、修復、重複。
  • 將fork維護視為控制論中的反饋系統,智慧體充當控制器。
站內正文
研究

混合模型在哪些token上預測得更好?

Ai2團隊比較了7B引數規模的Transformer模型Olmo 3和混合模型Olmo Hybrid,發現混合模型在內容詞(名詞、動詞、形容詞)和需要上下文推理的token上表現更優,但在重複token和閉合括號上優勢消失。研究表明,基於token的損失過濾可以揭示架構間的細微差異。

  • 混合模型在含義豐富的token(如實詞)上預測更準確,而在重複token上優勢消失。
  • 混合模型使用遞迴層替代部分注意力層,具有固定大小的記憶,適合跟蹤序列變化。
站內正文

藉助AI解釋與實驗,深入理解大腦

微軟研究院與合作者提出生成式因果測試(GCT),將黑箱模型轉化為可驗證的假設,揭示大腦特定區域對語言中不同概念的響應。

  • GCT將大腦預測模型提煉為簡短的語言解釋。
  • 透過生成新故事在fMRI中驗證解釋的正確性。