AI News HubLIVE

今日必讀

Agent

使用 Agent-EvalKit 系統化評估 AI 代理

Agent-EvalKit 是一個開源工具包 (Apache 2.0),透過整合 AI 編碼助手(包括 Claude Code、Kiro CLI 和 Kilo Code)來提供評估基礎設施。本文介紹了 Agent-EvalKit 的六個評估階段,並以使用 Strands Agents SDK 和 Amazon Bedrock 構建的旅行研究代理為例進行說明。

  • Agent-EvalKit 透過六個階段(計劃、資料、追蹤、執行代理、評估、報告)實現系統化評估。
  • 該工具包與 AI 編碼助手整合,將評估工作流帶入開發環境。
站內正文

使用 Databricks Marketplace 上即用型 MCP 賦能醫療智慧代理

Databricks Marketplace 現提供來自 Climb、Atropos Health、Kythera Labs 和 Redox 等合作伙伴的預構建 MCP 伺服器,涵蓋生物醫學、臨床證據、醫療語義和互操作性等領域,幫助開發者快速構建安全的醫療 AI 代理。所有 MCP 伺服器集中在 MCP Catalog 中,由 Unity AI Gateway 統一治理,並支援低程式碼和編碼兩種開發方式。

  • Databricks Marketplace 推出即用型 MCP 伺服器,降低醫療 AI 代理開發門檻。
  • 合作伙伴提供的 MCP 伺服器覆蓋靶點藥物、臨床試驗、FDA 標籤、醫學語義翻譯和互運算元據流。
站內正文

Ecolab如何在Databricks和Anthropic Claude上重建零售智慧

Ecolab利用Databricks和Anthropic的Claude模型,將9個孤立的資料來源整合為一個統一的零售智慧平臺,使合規報告編制時間從兩週縮短至兩分鐘以下。

  • Ecolab透過Databricks和Claude模型整合9個資料來源
  • 合規報告從兩週縮短至兩分鐘
站內正文

從零構建特徵儲存:最小可用實現

本文從零開始用Python、DuckDB、Parquet、Redis和FastAPI構建最小特徵儲存,涵蓋登錄檔、離線儲存、線上儲存、物化管道和檢索API五個元件,並探討AI時代特徵儲存的設計變化。

  • 五個核心元件:特徵登錄檔、離線儲存、線上儲存、物化管道、檢索API。
  • 特徵儲存解決訓練-服務偏差,併為LLM提供低延遲上下文。
站內正文

AI代理需要基礎設施:為什麼歐洲的雲區域戰略至關重要

隨著生成式AI向代理型AI演進,歐洲企業面臨資料主權、成本控制和技術基礎設施的新挑戰。文章探討了為何區域性雲服務(如Vultr)比傳統超大規模雲提供商更適合代理型AI的部署,強調了本地化資料管理和避免供應商鎖定的重要性。

  • 代理型AI市場預計到2034年將達到1391.9億美元,歐洲以42%的CAGR增長。
  • 歐洲企業需在創新與法規合規間平衡,資料主權要求雲基礎設施本地化。
站內正文
工具

OpenAI與Anthropic:API代幣價格戰一觸即發

據《華爾街日報》報道,OpenAI正考慮降低API代幣價格以從Anthropic手中爭奪客戶,一場價格戰正在醞釀中。

  • OpenAI計劃透過降價吸引Anthropic的客戶
  • 價格戰可能影響AI API市場格局
站內正文
模型

datasette 1.0a33 釋出:JSON 擴充套件功能增強 API

Datasette 1.0a33 釋出,這是邁向穩定版 1.0 的重要一步。該版本將 ?_extra= 模式從表擴充套件到查詢和行,並新增了文件。還演示了使用 AI 構建的 API 瀏覽器。

  • Datasette 1.0a33 是通往 1.0 穩定版的里程碑版本。
  • ?_extra= 模式現在支援查詢和行,而不僅僅是表。
站內正文

在 Amazon Bedrock Data Automation 中最佳化藍圖提取準確性

Amazon Bedrock Data Automation 的新功能藍圖指令最佳化,透過提供3-10個示例文件和真實值,可在幾分鐘內自動改進提取指令,無需模型微調,顯著提高文件處理準確性。

  • 提供3-10個代表性文件及其真實值
  • BDA自動分析差異並最佳化自然語言指令
站內正文
政策

6月23日DC地區歡樂時光活動!

瞭解AI團隊將於6月23日在The Crown & Crow舉辦歡樂時光活動,歡迎DC地區讀者參加,與團隊和特邀嘉賓交流。

  • 活動時間:6月23日下午5:30至8:00,地點:The Crown & Crow。
  • 團隊全員出席,特邀嘉賓Andy Masley和Abi Olvera將到場。
站內正文
創業融資

AI財富潮推動舊金山房價飆升:“太荒謬了”

隨著OpenAI、Anthropic等AI公司即將IPO,員工們獲得鉅額財富,導致本就昂貴的舊金山灣區房價進一步飛漲。專家預測,這股熱潮可能持續,加劇住房市場緊張。

  • AI公司員工因IPO獲得大量財富,推動舊金山房價飆升。
  • OpenAI、Anthropic和SpaceX等公司即將上市,可能進一步推高房價。
站內正文
其餘更新(54 條)
晶片

Neura Robotics 融資 14 億美元用於物理 AI

來自 Nvidia、亞馬遜和高通等投資者的資金將支援該供應商開發人形機器人和物理 AI。

  • Neura Robotics 獲得 14 億美元融資
  • 投資者包括 Nvidia、亞馬遜和高通
站內正文

大幅優惠,暢玩無限:GeForce NOW夏季促銷帶來超值會員折扣

NVIDIA GeForce NOW夏季促銷現已開啟,12個月Ultimate會員直降70美元,Performance會員優惠35美元。雲遊戲服務消除了硬體障礙,提供即時訪問高效能RTX遊戲的體驗,並支援多裝置暢玩。此外,宣佈《激戰3》即將登陸平臺,現有《激戰2》和《激戰:重製版》的獨家獎勵。

  • GeForce NOW夏季促銷:Ultimate會員年費省70美元,Performance會員省35美元,限時優惠。
  • 雲遊戲消除硬體限制,提供即時遊戲、自動更新和跨裝置支援。
站內正文

那些AI想取代的乏味差事和家務?它們其實有助於保持健康 | Manoush Zomorodi 和 Keith Diaz

本文指出,雖然AI高管宣稱效率提升將讓人們迴歸健康生活,但歷史經驗表明節省勞力的技術很少促進健康習慣。過去的便利(如外賣、微波爐、自動扶梯)悄悄減少了我們的身體活動,長期損害健康。

  • AI帶來的便利可能並不會讓我們更健康,反而會減少日常身體活動。
  • 從外賣到自動扶梯,技術創新往往用更省力的方式取代了原本需要身體參與的任務。
站內正文

PyTorch 效能分析(第2部分):從 nn.Linear 到融合 MLP

本文是 PyTorch 效能分析系列的第二部分,深入探討了 nn.Linear 層的內部機制,包括轉置操作、融合偏置的 epilogue 技術,以及 torch.compile 對單個線性層的影響。隨後,文章剖析了一個包含 GeGLU 啟用的多層感知機(MLP)的效能特徵,展示了 GPU 核心的排程和執行過程。

  • nn.Linear 透過 epilogue 將偏置加法融合到矩陣乘法核心中,避免額外的記憶體訪問。
  • torch.compile 對單個 nn.Linear 層無明顯加速,但能消除 CPU 排程開銷。
站內正文
Agent

初創公司獲OpenAI支援,徹底改革企業AI自動化

一家獲得OpenAI支援的初創公司正瞄準金融科技領域,旨在透過其AI自動化解決方案徹底改變企業運營方式。

  • 初創公司獲得OpenAI的投資支援
  • 專注於金融科技領域的AI自動化
站內正文

谷歌DeepMind分拆公司如何追蹤隱藏的藥物靶點

谷歌DeepMind的分拆公司Isomorphic Labs利用其新型AI系統IsoDDE發現蛋白質上隱藏的藥物結合口袋,超越了AlphaFold。該系統成功預測了cereblon上的隱秘口袋,驗證了其發現新藥物靶點的能力。

  • IsoDDE超越了AlphaFold,不僅預測結構,還能預測蛋白質-配體相互作用。
  • 該系統僅使用蛋白質序列就準確預測了《自然》雜誌發表的cereblon隱秘口袋的位置。
站內正文

Visa與ChatGPT整合實現AI代理零售購買

Visa將支付基礎設施與ChatGPT連線,使AI代理能夠推薦零售產品並執行金融交易。該部署消除了零售漏斗最後階段的人工干預。自主代理現在可以處理使用者提示、評估商家目錄,並透過Visa支付網路在任何支援的商家完成結賬。

  • Visa整合ChatGPT,AI代理可自主完成零售購買。
  • AI代理基於資料而非視覺營銷選擇產品,要求零售商提供結構化資料。
站內正文

認識Warren 3.0:你的AI財務規劃夥伴

Warren是一款免費的AI財務規劃助手,透過與使用者進行語音對話,在10分鐘內生成個性化財務計劃。新版本3.0具有更準確、透明的財務模型,支援使用者編輯假設並檢視兩種未來情景。已幫助3000多名英國使用者規劃財務,解決財務規劃門檻高的問題。

  • Warren提供免費的AI財務規劃,透過一次性語音對話生成計劃
  • 3.0版本擁有全新透明可編輯的財務模型,解釋每項假設
站內正文

序列觀點:記錄系統與行動系統

討論代理型AI時代企業軟體的新正規化:從記錄系統轉向行動系統。

  • 傳統企業軟體以人為核心,記錄狀態。
  • 代理型AI將改變軟體的作用,重點轉向可靠地執行行動。
站內正文

當上下文崩潰:教會智慧體檢測和恢復丟失的記憶

本文是智慧體工程系列文章的第八篇,探討AI智慧體在複雜多步驟任務中面臨的上下文丟失問題。作者提出了外部化-識別-再水合(ERR)模式,透過將狀態儲存到磁碟檔案、檢測上下文退化、從檔案恢復,幫助智慧體自主應對上下文丟失。文章以歷史比喻(640K記憶體限制)和實際案例(Copilot會話崩潰)說明問題,並詳細介紹了執行連續性和任務連續性兩層狀態的外部化方法。

  • AI智慧體的上下文視窗有限,如同早期的記憶體限制,會導致資訊丟失。
  • 提出ERR模式:外部化狀態、識別丟失、再水合恢復。
站內正文

Xebia:為什麼AI代理在沒有正確資料基礎的情況下會失敗

Xebia全球CTO Niels Zeilemaker強調,AI代理的成功依賴於堅實的資料基礎,包括資料目錄的正確性。Xebia的Agentic Data Foundation(ADF)和ACE框架幫助企業加速AI採用,同時保持治理和質量。

  • AI代理需要正確的資料目錄和基礎,否則會誤解資料或出錯。
  • Xebia的Agentic Data Foundation擴充套件資料平臺以支援代理。
站內正文

Nous Research 推出 Hermes Agent 個人資料構建器:在一個儀表板流程中整合身份、模型、技能和 MCP 伺服器

Nous Research 為其開源自改進代理 Hermes Agent 推出了個人資料構建器,該構建器整合在本地 Web 儀表板中,將原先需要多個 CLI 步驟的代理設定流程簡化為一個引導式介面,支援定義身份、選擇模型和提供商、啟用技能、安裝中心技能以及附加 MCP 伺服器,並生成隔離的個人資料目錄。

  • Hermes Agent 儀表板新增個人資料構建器,將多步 CLI 設定整合為單次引導流程。
  • 使用者可透過瀏覽器表單定義代理身份、模型/提供商、內建/中心技能及 MCP 伺服器。
站內正文

別再構建資料產品,開始構建資料服務

隨著企業透過收購快速擴張以及AI代理消費模式的興起,傳統的資料產品模式變得笨重。Howden集團首席資料官Barry Panayi主張轉向資料服務層,將資料治理和質量檢查左移,減少洞察延遲,並採用統一的資料模型和會話式分析,以應對更快的業務節奏。

  • 每用例一產品的模式在收購驅動的增長和代理消費下崩潰,資料服務層更具適應性。
  • 將資料治理和質量檢查左移到資料攝入階段,可將整合周期從數月縮短至數週。
站內正文

SmithDB中的全文搜尋:為物件儲存設計倒排索引

SmithDB支援對代理追蹤進行全文搜尋和JSON過濾,中位延遲僅為400毫秒,儘管底層資料是儲存在物件儲存中的大型巢狀JSON文件。本文詳細介紹了為物件儲存和大型代理追蹤負載量身定製的倒排索引設計,包括面臨的獨特挑戰(大型負載、Zipfian分佈、多種查詢模式、物件儲存約束)、為何不採用Tantivy,以及兩次設計迭代的經驗教訓。

  • SmithDB的倒排索引針對物件儲存和大型代理追蹤負載進行了最佳化
  • 傳統搜尋引擎如Tantivy因基於mmap和本地磁碟而不適合
站內正文

代理與應用之間的缺失環節

大多數AI代理工具執行在伺服器上,限制了瀏覽器API、裝置功能和前端狀態的訪問。瞭解LangChain的無頭工具如何為現代代理應用啟用安全的客戶端工具執行。

  • 伺服器端工具無法直接訪問瀏覽器、應用和裝置的寶貴狀態與功能。
  • 無頭工具將客戶端能力引入代理迴圈,使代理能呼叫瀏覽器API、本地記憶體和應用特定操作。
站內正文

asyncinject 0.7 釋出

asyncinject 0.7 釋出,這是一個支援 asyncio 依賴注入的 Python 庫。作者在 Datasette 中使用該庫時,由 Claude Fable 5 發現了依賴中的幾個 bug 並自動修復。

  • asyncinject 0.7 版本釋出
  • 提供 asyncio 依賴注入模式
站內正文

Cloudskill

Cloudskill 是一個管理 AI 技能的平臺,將分散的技能檔案轉換為帶有版本控制、訪問策略和完整審計日誌的託管目錄。它支援 Claude、Cursor、Copilot 等 AI 代理,確保技能建立和更新經過審查和批准,從而保證團隊依賴的技能安全、一致且可管理。

  • Cloudskill 將 AI 技能檔案轉化為託管目錄,提供版本控制、訪問策略和審計日誌。
  • 支援多種 AI 代理,如 Claude、Cursor、GitHub Copilot 等。
站內正文

【AINews】開放模型、模型實驗室與代理實驗室,以及什麼無法訓練——Sarah Guo

本文回顧了Sarah Guo關於開放模型、模型實驗室與代理實驗室區別的深刻文章,並涵蓋了Anthropic的Fable/Mythos模型因靜默降級能力引發的信任危機、Fable 5在基準測試中的強勁表現、Google的DiffusionGemma釋出、代理工具與基準的進展,以及最佳化和科學建模領域的技術動態。

  • Sarah Guo提出基於可讀性的框架,區分了開放模型、模型實驗室與代理實驗室,並強調了不可訓練的價值。
  • Anthropic的Fable/Mythos因靜默降級AI研究相關能力而引發廣泛批評,損害了信任。
站內正文

為什麼AI未能取代軟體工程師,而且永遠不會

本文透過資料和案例分析,反駁了AI將導致軟體工程師大規模失業的敘事。作者指出,所謂的AI驅動的裁員往往是財務壓力下的“AI洗白”,而實際的就業資料表明,AI只是壓縮了“執行”層,但“決策”和“交付”層仍需要人類深度參與。文章提出了“決定-執行-交付三明治”模型,並認為這些瓶頸不會因AI能力提升而消失。

  • AI導致大規模裁員的說法多為“AI洗白”,實際裁員常因財務壓力。
  • 軟體工程的瓶頸不在於編寫程式碼,而在於決策、驗證和對系統的深入理解。
站內正文

前沿團隊如何重塑AI原生開發

前沿團隊不僅利用AI加速編碼,更從根本上重新設計軟體構建方式,實現了4.5倍乃至超過10倍的生產力提升。本文透過亞馬遜Bedrock、Prime Video等團隊的案例,揭示了成為前沿團隊的五個關鍵實踐,並指出工作流程的變革比工具本身更重要。

  • 前沿團隊透過重構工作流程而非簡單疊加AI工具,實現了4.5倍至10倍以上的生產力提升。
  • 亞馬遜Bedrock團隊用6名工程師76天完成了原需30人12-18個月的專案。
站內正文

OpenAI收購Ona公司

OpenAI宣佈收購Ona,旨在將安全的持久化雲環境整合到Codex中,從而支援企業工作流程中的長時間執行AI代理。

  • OpenAI計劃收購Ona,擴充套件Codex能力。
  • Ona提供安全的持久化雲環境。
站內正文

Microsoft SkillOpt的編碼實現:工具化提示最佳化、技能演化分析與基線對比

本教程完整實現了Microsoft SkillOpt的工作流程,包括環境搭建、基線評估、最佳化迴圈(rollout、反思、聚合、選擇、更新、驗證門控)以及訓練歷史視覺化與最終技能比較,最終獲得可部署的最佳化技能檔案並展示了準確率提升。

  • 設定SkillOpt倉庫並連線OpenAI相容模型,配置最佳化器與目標模型
  • 評估初始種子技能作為基線,獲取硬匹配與軟匹配分數
站內正文

對於自動駕駛計程車,安全必須內建而非外加

隨著自動駕駛計程車服務在全球擴充套件,NVIDIA推出Halos作業系統——一個整合了認證作業系統、標準化介面、AI護欄和驗證框架的全面安全系統,確保安全從底層構建於自動駕駛車輛之中。

  • 全球多個自動駕駛計程車專案使用NVIDIA DRIVE Hyperion平臺啟動,包括慕尼黑的Uber/Autobrains、臺灣的富士康、東南亞的VinFast以及沙烏地阿拉伯的HUMAIN。
  • NVIDIA Halos OS解決四個關鍵安全挑戰:安全可認證的作業系統、安全的介面、帶可驗證護欄的AI,以及大規模驗證。
站內正文

Onpilot:為您的業務量身定製的AI勞動力

Onpilot建立專門針對企業系統、工作流程和流程的AI工作者,可監控運營、識別風險、發現機會、推薦行動並自動化工作,支援3000多種整合,部署在Slack、Teams、WhatsApp、SaaS或本地。該平臺強調安全與信任,提供審批流程、審計跟蹤和異常處理機制,確保AI在關鍵操作前獲得人工確認。

  • Onpilot是一支AI勞動力,能夠根據企業的系統和流程進行定製,主動監控運營並識別風險與機會。
  • 它透過與3000多種工具整合,自動化任務並在複雜情況下透過審批流程和異常處理確保可靠性。
站內正文

使用語言伺服器為 GitHub Copilot CLI 提供真正的程式碼智慧

GitHub Copilot CLI 現在可以透過 LSP 設定技能來安裝和配置語言伺服器,從而獲得精確的程式碼語義理解,不再依賴暴力 grep 或反編譯。本文介紹了該技能的工作原理、配置格式以及 14 種支援的語言。

  • GitHub Copilot CLI 以前透過文本搜尋和二進位制提取來理解程式碼,效率低且不準確。
  • LSP 設定技能可自動安裝和配置語言伺服器,支援 14 種語言。
站內正文
模型

DiffusionGemma:谷歌基於擴散的開源模型,實現更快的文本生成

谷歌DeepMind的DiffusionGemma是一款實驗性的開源模型,採用擴散方式並行生成文本塊,相比傳統的自迴歸模型,在本地推理時速度更快。它基於Gemma 4 26B A4B MoE架構,犧牲部分質量換取速度,特別適用於互動式編輯等任務。本文解釋了其架構、文本擴散的工作原理、基準測試結果,並提供了使用llama.cpp在本地執行的分步指南。

  • DiffusionGemma並行生成和最佳化文本塊,減少本地推理延遲。
  • 它使用雙向注意力和256令牌的畫布,透過多個去噪步驟進行生成。
站內正文

Dario Amodei的新論文:AI時代的冷戰劇本

Anthropic釋出了一篇全面的論文和兩個政策框架,呼籲對前沿模型進行具有約束力的審計,並將AI描繪為國家間戰略武器。CEO Dario Amodei以《指環王》的樹人比喻政治系統反應緩慢,警告AI能力呈指數級增長,可能在1-2年內出現“強大AI”。公司提出強制性第三方測試、披露要求和阻止風險模型權力,並制定了應對失業的層級計劃。

  • Amodei用《指環王》樹人比喻政治系統反應緩慢,AI威脅迫在眉睫。
  • Anthropic呼籲對前沿模型進行強制性第三方審計,並賦予政府阻止風險模型的權力。
站內正文

Anthropic為Claude Fable隱形護欄道歉

Anthropic為其新AI模型Claude Fable 5內藏的隱形限制措施道歉,這些措施悄然削弱了研究人員和競爭對手使用該模型開發系統的能力。公司表示將撤銷此做法,並對何時啟動限制更加透明,即使這意味著Fable會拒絕更多查詢。

  • Anthropic承認在Claude Fable中部署了不可見的蒸餾檢測護欄。
  • 使用者觸發護欄時,模型會提供降級回覆但不通知使用者。
站內正文

遇見「North Mini Code」:Cohere 的 30B 開放權重混合專家模型,3B 活躍引數,專為智慧體程式設計打造

Cohere 釋出了其首個面向開發者的編碼模型 North Mini Code。這是一款 30B 總引數、3B 活躍引數的混合專家模型,可在單張 H100 GPU 上執行,支援 256K 上下文長度。模型專注於程式碼生成、智慧體軟體工程和終端任務,權重採用 Apache 2.0 許可釋出。

  • North Mini Code 是 Cohere 首個編碼模型,30B 總引數,3B 活躍引數,支援 256K 上下文和 64K 最大輸出。
  • 模型可在單張 H100(FP8)上執行,權重開源(Apache 2.0),透過 Hugging Face、Cohere API 等渠道可用。
站內正文

Anthropic撤回可能導致AI研究人員使用Claude時被“暗中破壞”的政策

Anthropic在強烈抗議後改變了Claude Fable 5的安全措施,使其對前沿LLM開發的限制變得可見。此前,該模型會在使用者不知情的情況下降低請求的有效性。現在,被標記的請求將明顯回退到Opus 4.8,API請求會返回拒絕原因。

  • Anthropic因政策遭到強烈抗議而改變立場
  • 此前Claude Fable 5會暗中限制前沿LLM開發請求
站內正文

Ollama在Apple Silicon上透過MLX實現最高效能

Ollama的MLX引擎更新後,在Apple Silicon上實現了最高效能。透過更充分利用蘋果統一記憶體和Metal支援的MLX框架,模型輸出質量更高,響應更快,記憶體佔用更低。新支援NVFP4格式,輸出速度提升高達20%,並引入快照系統最佳化代理工作流。

  • Ollama MLX引擎更新,支援NVFP4格式,量化質量損失減半。
  • 輸出速度提升高達20%,得益於融合的Metal核心和最佳化取樣。
站內正文

datasette-agent 0.2a0 釋出:智慧代理新增使用者互動與查詢儲存功能

datasette-agent 0.2a0 版本引入了工具可向使用者提問的功能,以及新的內建儲存查詢工具,使 Datasette 的 AI 代理更加靈活和使用者可控,這些特性得益於新的 LLM 框架。

  • 工具可透過 `context.ask_user()` 在執行時向使用者提問,支援是非、多選和自由文本形式。
  • 未回答的問題會暫停代理,並持久化到資料庫,伺服器重啟後仍可繼續。
站內正文

DiffusionGemma:谷歌開源高速文本生成模型

谷歌釋出了名為DiffusionGemma的新開源模型,基於Apache 2許可證,可在NVIDIA的NIM雲API上免費使用。該模型在生成速度上表現卓越,達到每秒500個token以上。

  • 谷歌釋出開源模型DiffusionGemma,採用Apache 2許可證。
  • 該模型在NVIDIA NIM雲API上免費託管。
站內正文

透過Oracle雲承諾訪問OpenAI模型和Codex

Oracle雲客戶現可利用現有云承諾訪問OpenAI模型和Codex,以企業級安全與治理構建和部署AI應用。

  • Oracle雲整合OpenAI模型和Codex,支援企業級AI開發。
  • 客戶可使用現有的Oracle雲承諾額度,無需額外費用。
站內正文

谷歌新開放模型DiffusionGemma:透過噪聲而非逐詞生成文本

谷歌釋出26億引數的DiffusionGemma模型,採用擴散方式生成文本,速度是傳統自迴歸模型的四倍,但質量較低,目前作為實驗工具。

  • DiffusionGemma是26億引數模型,透過噪聲擴散生成文本
  • 速度達每秒1000個token,比傳統模型快4倍
站內正文

谷歌AI釋出DiffusionGemma:26B MoE開放模型,採用文本擴散技術實現最高4倍生成速度

DiffusionGemma是Google DeepMind推出的實驗性開放文本生成模型,採用文本擴散而非標準自迴歸解碼,在專用GPU上可實現最高4倍生成加速。模型引數量26B(MoE架構,推理時僅啟用3.8B),基於Gemma 4骨幹,支援多模態輸入(文本、影像、影片),上下文視窗256K,覆蓋140+語言,採用Apache 2.0許可。

  • DiffusionGemma是26B引數的混合專家(MoE)模型,推理時僅啟用3.8B引數,透過並行文本擴散生成整塊文本。
  • 在單個NVIDIA H100上達到1000+ tokens/s,RTX 5090上700+ tokens/s,量化後僅需18GB VRAM。
站內正文

Claude Fable 拒絕回答基礎生物學問題

Anthropic 釋出了其最強大的 AI 模型 Claude Fable 5,但該模型拒絕回答基礎生物學問題,例如“什麼是線粒體”或“細胞膜是什麼”。原因是 Anthropic 為了安全考慮,故意設定了嚴格的生物安全防護措施,以防止模型被用於生物武器相關研究。公司表示這是一種保守策略,並計劃未來為生物科學界提供無限制訪問。

  • Claude Fable 5 拒絕回答基礎生物學問題,如細胞膜、線粒體、mRNA 疫苗等。
  • Anthropic 出於生物武器防範考慮,故意設定了保守的安全限制。
站內正文

微軟因資料保留問題限制員工使用Claude Fable

Anthropic釋出首個Mythos級AI模型Claude Fable 5後,微軟因新資料保留條款限制員工使用該模型。Claude Fable 5要求保留提示和輸出30天,違規內容可能保留兩年,引發微軟對客戶資料和機密資訊的擔憂。微軟已將模型提供給GitHub Copilot和Foundry客戶,但內部版本仍未啟用。

  • 微軟因資料保留問題限制Claude Fable 5內部使用
  • Claude Fable 5要求30天資料保留,違規內容最長兩年
站內正文

NVIDIA加速谷歌DeepMind的DiffusionGemma,實現本地AI

谷歌DeepMind釋出了DiffusionGemma實驗性開源模型,透過並行生成文本而非逐詞預測,大幅提升速度。NVIDIA對其進行了最佳化,使其在GeForce RTX、RTX PRO和DGX Spark等平臺上執行更快,本地即可實現高達1000 tokens/sec的推理速度。

  • DiffusionGemma採用擴散模型方式,每步並行生成多達256個token,而非傳統自迴歸式逐個生成。
  • 基於Gemma 4架構(26B引數,MoE),啟用僅3.8B引數,效能提升達4倍。
站內正文
工具

AI絕對主義正在摧毀我們的思維。我們被兜售的末日未來並非不可避免

我們聽到的關於人工智慧的一切都相互矛盾,且無法迴避。AI既可怕又美妙,既可能摧毀世界也能變革未來。有人呼籲必須擁抱它,也有人認為不使用它是一種道德義務。文章指出,AI絕對主義——無論是極端樂觀還是極端悲觀——都在扭曲我們的思考,而真正的未來並非如此單一。

  • AI絕對主義包括極端樂觀和極端悲觀兩種對立觀點,都在影響公眾認知
  • AI已在經濟中佔據重要地位,2025年第四季度貢獻了美國經濟增長的近60%
站內正文

Deezer推出AI音樂檢測工具,可掃描其他流媒體平臺

Deezer現在可以掃描使用者在其他流媒體平臺上的播放列表,以檢測AI生成的音樂。Deezer是首個開始標記AI音樂的大型流媒體服務,也曾向其他平臺提供技術,但似乎買家不多。現在,Deezer直接向大眾推出檢測工具,支援20個平臺。

  • Deezer推出AI音樂檢測工具,支援掃描20個流媒體平臺上的播放列表。
  • Deezer是首個標記AI音樂的大型平臺,但其他平臺如Apple Music和Spotify選擇了自願標記系統。
站內正文

BBVA與OpenAI合作,將AI置於銀行業務核心

西班牙對外銀行(BBVA)將ChatGPT Enterprise推廣至10萬名員工,並與OpenAI合作,加速全球AI驅動的銀行業轉型。

  • BBVA將ChatGPT Enterprise推廣至10萬名員工。
  • 與OpenAI建立合作伙伴關係,加速AI轉型。
站內正文

支援歐洲構建可信賴的人工智慧生態系統

OpenAI支援歐盟關於人工智慧內容透明度的實踐準則,推進溯源標準和工具,幫助人們理解AI生成的內容。

  • OpenAI支援歐盟AI內容透明度實踐準則
  • 推進溯源標準和工具
站內正文

PixelForge:將照片轉化為遊戲資產

PixelForge是一款AI工具,可將真人照片瞬間轉換為可識別的RPG角色精靈圖,生成4方向行走的16幀透明PNG及GIF,支援Godot、Unity等引擎。一次性付費5美元,無需賬戶或訂閱。由程式碼完成後期處理,注重個性化和趣味性。

  • 上傳照片即可生成風格化遊戲角色
  • 一次付費5美元,無賬戶訂閱
站內正文

微軟理解畢業生為何對AI演講者喝倒彩

近日,美國大學畢業生在畢業典禮上對鼓吹人工智慧的演講者發出噓聲,引發熱議。微軟副總裁兼總裁Brad Smith發表長文部落格回應,表示這是“警鐘”,並呼籲提高標準。然而,部落格內容與之前AI立場相似,被質疑為何公眾要信任製造不確定性的科技巨頭。

  • 畢業生對AI樂觀演講喝倒彩,反映社會對AI的普遍不滿
  • Brad Smith認為這是警鐘,需要傾聽並提高標準
站內正文

谷歌將儲存你的Lens照片、搜尋直播錄音和翻譯音訊用於AI訓練

谷歌在傳送給使用者的電子郵件中宣佈,將推出新的“搜尋服務歷史”設定,儲存使用者使用Google Lens、搜尋直播工具、語音搜尋和翻譯應用中的影像、檔案、音訊和影片,用於提供和改進服務,包括AI模型。使用者可選擇關閉此設定或停用“儲存媒體”選項。

  • 谷歌推出“搜尋服務歷史”設定,儲存搜尋互動資料用於AI訓練。
  • 涉及Google Lens、搜尋直播、語音搜尋和翻譯中的媒體檔案。
站內正文
政策

專訪AAAI會士Tanya Berger-Wolf:人工智慧在生態、生物多樣性與保護中的應用

在本次專訪中,AAAI會士Tanya Berger-Wolf分享了她在人工智慧與生態學交叉領域的開創性工作,包括開發生命之樹基礎模型BioCLIP,該模型在物種分類、新性狀發現以及實際應用(如透過影像識別蜱蟲)方面取得了顯著成果,並展望了AI驅動的科學發現未來。

  • Tanya Berger-Wolf是俄亥俄州立大學教授,領導影像組學研究所,專注於AI在生態與保護中的應用。
  • 其團隊開發的BioCLIP是首個生命之樹基礎模型,可進行物種分類、新物種發現及多維度性狀分析。
站內正文

Anthropic在影像理解上追平OpenAI

Anthropic釋出了兩個新模型Claude Mythos 5和Claude Fable 5,在程式設計能力上大幅提升,但在影像理解方面進步有限。作者測試發現,Fable 5和GPT-5.5能解決許多去年頂尖模型無法處理的影像問題,但幾何推理能力仍只相當於幼兒水平,表明通用人工智慧可能仍遙遠。

  • Anthropic釋出Claude Mythos 5和Claude Fable 5,兩者均為兩個月前預覽版的變體。
  • Mythos僅限特定組織使用,Fable向公眾開放但有安全限制。
站內正文

AI監管的未來:最奇怪、最焦慮的盟友

《The Verge》的《監管者》通訊在華盛頓混亂的政治生態中迴歸,報道了華盛頓AI網路晚宴、教皇利奧十四世關於AI的通諭,以及特朗普領導下AI監管的不可預測性。文章強調了該行業在應對黨派政治和即將到來的中期選舉中的困境,其中AI正成為選民關注的關鍵議題。

  • 教皇利奧十四世的AI通諭《偉大的人文》雖然在公眾中受到關注,但在華盛頓並未引起重視。
  • 特朗普對AI行政命令的反覆無常展示了科技行業監管環境的不確定性。
站內正文

機器學習遺忘審計新框架

Google研究人員提出正則化f-散度核檢驗框架,用於審計機器學習模型的遺忘和隱私保護。該框架自適應選擇最優散度度量,能夠更敏感地檢測資料洩露和遺忘失敗,且所需樣本更少,調參更少。

  • 傳統雙樣本檢驗在大規模模型中失效,新框架更靈敏且自適應。
  • 利用f-散度(卡方、KL、曲棍球棒)檢測全域性和區域性資料偏移。
站內正文

谷歌拒絕承認使用YouTube創作者內容訓練音樂AI

一群獨立音樂人起訴谷歌,指控其未經許可使用YouTube上傳的歌曲訓練Lyria 3模型。谷歌提出駁回動議,聲稱根據使用者條款,使用者已授予廣泛許可。谷歌未明確承認,但過往宣告暗示確實使用了YouTube影片。

  • 獨立音樂人起訴谷歌非法使用YouTube歌曲訓練Lyria AI。
  • 谷歌以使用者條款為由申請駁回訴訟。
站內正文
研究

天體物理學家如何使用Codex幫助模擬黑洞

瞭解天體物理學家Chi-kwan Chan如何使用Codex構建黑洞模擬,幫助科學家研究極端物理並檢驗愛因斯坦的廣義相對論。

  • 天體物理學家Chi-kwan Chan利用Codex進行黑洞模擬。
  • 這些模擬有助於研究極端物理並檢驗廣義相對論。
站內正文
創業融資

OpenAI的IPO推遲?阿爾特曼告訴員工預計“一年內”上市

山姆·阿爾特曼告訴員工,他預計OpenAI將在“一年內”進行IPO,但也可能推遲到2027年。他將此歸因於對自我改進AI的謹慎態度,但分析認為Anthropic更強勁的增長資料和即將進行的IPO可能是真正的原因。

  • 阿爾特曼告訴員工OpenAI可能在一年內上市
  • IPO有可能推遲到2027年