AI News HubLIVE

今日必讀

模型

谷歌DeepMind的Gemma 4 12B將多模態AI壓縮到僅需16GB RAM的筆記本電腦上

谷歌DeepMind發佈開源模型Gemma 4 12B,原生處理文本、圖像和音頻,可在僅16GB RAM的筆記本電腦上運行。其性能幾乎與兩倍大小的26B模型相當,並採用Apache 2.0許可證,可用於商業用途。

  • Gemma 4 12B是開源多模態模型,支持文本、圖像和音頻。
  • 僅需16GB RAM即可在筆記本電腦上運行。
站內正文

Google DeepMind 發佈 Gemma 4 12B:無需編碼器的多模態模型,原生音頻支持,可在 16GB 筆記本電腦上運行

Google DeepMind 發佈 Gemma 4 12B,這是一款 120 億參數的密集多模態模型,採用無編碼器設計,直接將視覺和音頻輸入 LLM 主幹。該模型可在 16GB RAM 的消費級筆記本電腦上本地運行,並採用 Apache 2.0 許可證。它原生支持文本、圖像、音頻和視頻,是首個具備原生音頻功能的中型 Gemma 模型。

  • 無編碼器架構:取消獨立的視覺(5.5億參數)和音頻(3億參數)編碼器,使用輕量級視覺嵌入器(3500萬參數)和直接音頻波形投影。
  • 性能接近 26B MoE 模型,但內存佔用不到一半,可在 16GB 設備上運行。
站內正文

Ideogram 4.0 以開源權重模型發佈,原生支持2K分辨率,文本渲染能力提升

Ideogram 發佈4.0版本文本生成圖像模型,作為開源權重模型,提供原生2K分辨率、邊界框控制和改進的文本渲染。在DesignArena排行榜中,該模型在所有開源模型中排名第一;只有OpenAI和Google的閉源系統得分更高。商業使用需要付費許可。

  • 開源權重模型,原生支持2K分辨率
  • 支持邊界框控制,文本渲染增強
站內正文
工具

谷歌允許網站退出AI搜索結果,但大多數網站別無選擇

谷歌首次在Search Console中為網站運營商提供退出AI搜索功能(如AI概覽和AI模式)的開關,這些功能已覆蓋超過35億月活躍用户。新性能報告單獨展示展示次數。此舉是由英國競爭與市場管理局(CMA)推動的,該機構認為網站運營商處於嚴重劣勢。

  • 谷歌在Search Console中新增退出AI搜索功能的開關,適用於AI概覽和AI模式。
  • 這些AI搜索功能已覆蓋超過35億月活躍用户。
站內正文

英國工黨議員起訴埃隆·馬斯克的AI公司,稱其生成虛假色情圖片

英國工黨議員傑斯·阿薩託對埃隆·馬斯克的AI公司提起訴訟,指控其Grok工具被用來生成她的虛假性化圖片。這些圖片在今年早些時候大量出現在X平台上,阿薩託稱看到自己被AI以不雅形象呈現感到“被侵犯”。

  • 工黨議員傑斯·阿薩托起訴馬斯克的AI公司,因Grok工具生成其虛假性感圖片。
  • 阿薩託此前曾批評此類未經同意的圖片生成行為。
站內正文
Agent

如何使用iii通過Workers、Functions和Cron Triggers構建文檔智能後端

本教程展示瞭如何使用iii引擎構建文檔智能工作流,包括安裝引擎、註冊模塊化函數、組合分析管道,並通過直接調用、HTTP端點、即發即棄執行和定時cron觸發器複用相同邏輯。

  • 安裝iii引擎和Python SDK,啓動後台進程並連接worker。
  • 註冊文本歸一化、分詞、情感分析、關鍵詞提取等獨立函數。
站內正文

我的團隊應該使用多少人工智能?管理者框架

本文提出了“AI領結”框架,幫助管理者決定團隊工作流中何時使用AI,避免過度依賴或完全迴避的極端。框架包括五個階段:研究探索、綜合提煉、獨立思考(無AI)、計劃準備、執行實施。

  • 在探索階段應大量使用AI來生成多種可能性。
  • 在思考階段完全禁用AI,確保核心決策由人類做出。
站內正文

AI即計算

本文認為,人工智能(尤其是大語言模型)應被理解為一種計算形式,而非人造智能體。文章探討了循環、組合性和代理框架在實現計算中的作用,引入了“Verplankalkül”作為非正式編程語言的概念,並分析了將計算結構整合到訓練中的未來方向。

  • LLMs通過非正式語言規則執行計算,不僅僅是函數逼近。
  • 計算的力量源於無限循環,在AI中由代理框架提供。
站內正文

為何CPU在AI代理時代依然重要

儘管AI基礎設施的討論常聚焦於GPU和TPU,但CPU在AI從聊天機器人轉向自主代理的過程中扮演着關鍵角色,作為“空中交通管制員”協調任務,並支持沙盒環境以確保安全。ARM和Google的專家解釋了CPU在處理工具調用、內存管理和輕量級模型運行中的優勢。

  • CPU在AI代理中充當協調工具調用和內存管理的核心角色。
  • Google的gVisor沙盒技術可快速啓動多達300個沙盒/秒,保障代理運行安全。
站內正文

AI導致認知疲勞,如何高效利用而不耗費精力

研究表明,使用AI可能增加工作量而非減少,導致認知疲勞。專家建議聚焦工具、遵循準則和優化輸出,以平衡效率與質量。

  • 使用AI可能導致更多任務而非減少。
  • 應謹慎選擇工具並明確目的。
站內正文
其餘更新(21 條)
Agent

隨着AI變得更好,它揭示了一個空洞的承諾

本文批評了谷歌Gemini Spark等AI生產力工具,指出它們解決了科技公司自己製造的問題,而忽視了工資停滯、工作不安全感等系統性經濟問題。作者認為,AI提升的生產力並未惠及工人,反而可能加劇不平等,且缺乏社會保障。

  • 谷歌Gemini AI代理Spark能訪問個人信息,引發隱私擔憂。
  • AI生產力工具旨在解決科技公司製造的工作與生活界限模糊問題。
站內正文

精益推理:將精益製造原則應用於人工智能

本文將精益製造原則應用於AI推理,識別了LLM推理中的七大浪費,並提出了即時上下文、標準化工作、節拍時間和提示緩存等核心原則,通過一個倉庫分析代理的案例展示了13倍成本降低和3.3倍延遲改進。

  • AI工程中過度使用前沿模型、RAG上下文膨脹、順序阻塞、輸出缺陷等是常見的推理浪費。
  • 精益推理原則包括即時上下文、標準化工作、節拍時間預算和提示緩存。
站內正文

將AI集成到SaaS應用中的五個層次

本文提出了一個從簡單SaaS到AI原生平台的實用框架,描述了五個層次的AI集成:從提供個人訪問令牌和MCP服務器,到嵌入AI聊天窗口,再到對話歷史、自定義UI生成,最終實現自主代理框架。作者分享了自己的實踐經驗,並強調了每個層次的關鍵考慮因素。

  • 第一層:通過MCP服務器暴露API端點,無需改動UI。
  • 第二層:在SaaS中嵌入AI聊天窗口,降低使用門檻。
站內正文

如何構建自定義代理腳手架

本文介紹了使用LangChain的create_agent和中間件構建自定義代理腳手架的方法。代理由模型和腳手架組成,腳手架負責將模型連接到真實世界。通過中間件,可以在代理循環的各個階段插入自定義邏輯、工具、狀態管理等,從而實現高度定製化的代理。

  • 代理 = 模型 + 腳手架,腳手架決定代理的實用性。
  • create_agent提供核心代理循環,中間件允許在循環各階段定製。
站內正文

我用真實病歷測試了微軟Copilot Health——這是我的結論

微軟Copilot Health預覽版允許用户分享病歷以獲得個性化的AI健康建議。作者測試後發現結果好壞參半,存在技術故障,同時提及隱私保護措施,並警告不要依賴AI做出醫療決策。

  • 微軟Copilot Health利用個人病歷提供定製健康建議。
  • 隱私保護措施包括加密、不用於訓練和醫生監督。
站內正文

微軟AI不再只是副駕駛,它想掌控方向盤

微軟推出名為“Autopilot”的新型自主AI代理,首發代理“Scout”將全天候監控用户操作並自動執行任務,旨在簡化工作流程。然而,該代理基於OpenClaw構建,存在安全隱患,且可能被惡意操縱。目前僅限部分客户預覽,並需訂閲GitHub Copilot。

  • 微軟發佈Autopilot代理類別,首個代理Scout可自主運行並持續監控用户活動。
  • Scout能自動安排會議、標記截止日期、識別風險,充當“工作保姆”。
站內正文

Meta追趕AI的幕後努力

Meta內部團隊TBD在Wang的帶領下,推行專注專有模型和初創文化,但面臨公司裁員、員工抗議追蹤軟件等挑戰。其AI模型Muse Spark在視覺理解上獲好評,但編程能力落後競爭對手。

  • Wang主張Meta應更重視專有模型,而非長期堅持的開源模式
  • 內部團隊TBD通過非層級化初創文化和奶茶歡聚增強凝聚力
站內正文

GitLab裁員14%以擴展平台支持AI工作負載

GitLab裁減約14%員工(約350人),作為上個月宣佈的重組計劃的一部分。公司退出22個國家,精簡管理層,投資基礎設施以擴展平台,應對AI工作流帶來的流量增長,並聚焦研發。

  • GitLab裁員約14%,約350名員工受影響。
  • 重組包括退出22個國家、精簡管理層。
站內正文

Harmonic 如何利用 Deep Agents 和 LangSmith 重建 Scout 並實現 4 倍留存

Harmonic 使用 Deep Agents 和 LangSmith 重建了其 AI Scout,將用户留存率提高了 4 倍,並將工具從僵化的搜索界面轉變為能夠處理複雜投資查詢的可信賴顧問。

  • Scout V1 是僵化的 LangGraph 管線,需要大量評估;V2 使用單一前沿模型和兩類工具,簡化了架構。
  • 新用户體驗允許用户自然交互,生成可視化和搜索結果,代理可以引用這些結果,創建共享真實源。
站內正文

一個機器人向你衝來:你希望它運行Claude還是Grok?

本文通過一場2D大逃殺遊戲實驗,比較了11個大型語言模型的表現。結果顯示,Grok 4.1 Fast以最低成本贏得最多比賽,而Claude Sonnet 4.6則因過度合作而表現不佳。實驗揭示了校準税對模型性能的影響,以及傳統基準測試無法預測實際任務表現的問題。

  • Grok 4.1 Fast以每勝0.97美元的成本贏得了30場比賽中的13場。
  • Claude Sonnet 4.6因傾向於合作和分享信息,僅贏得5場,每勝成本高達26.78美元。
站內正文

Cursor Enterprise 推出組織功能

Cursor Enterprise 推出組織功能,允許企業統一管理多個團隊,每個團隊可獨立設置預算、安全和功能控制。該功能包括沙盒測試、模型訪問分段和統一分析,並支持在組織級別管理身份和成員資格。

  • 組織功能允許從單一儀表板管理多個Cursor團隊。
  • 功能包括沙盒測試、分段訪問和統一分析。
站內正文
模型

免費vLLM課程:推理、壓縮與基準測試

DeepLearning.AI與Red Hat合作推出免費中級課程《使用vLLM實現快速高效的LLM推理》,由Red Hat高級開發者倡導者Cedric Clyburn授課。課程涵蓋量化、vLLM服務部署及基準測試,時長1小時38分鐘,包含9個視頻課程、3個代碼示例和1個評分作業。

  • 學習使用量化技術縮小模型內存佔用並評估精度權衡
  • 使用vLLM服務模型,掌握連續批處理、PagedAttention和前綴緩存技術
站內正文

LangSmith、Langfuse 和 Arize 的智能體可觀測性對比實踐

本文對比了三種常用的智能體可觀測性工具:LangSmith、Langfuse 和 Arize。通過設置一個基於 LangChain 的測試智能體,展示了各工具的集成方式、追蹤能力和評估工作流。LangSmith 與 LangChain 原生集成,提供完整的執行樹視圖和提示調試功能;Langfuse 是開源且框架無關的,支持會話分組和事後評分;Arize 專注於生產級 ML 監控,使用 OpenInference 標準。文章幫助讀者根據需求選擇合適的工具。

  • 智能體可觀測性需要捕獲完整的執行圖,包括每一步、決策、LLM 輸入輸出、工具調用、令牌使用和延遲。
  • LangSmith 通過環境變量與 LangChain 無縫集成,提供深入的追蹤和提示調試功能。
站內正文

Trilogy 藉助 Fireworks AI 驗證開源權重模型在企業工作負載中的表現

Trilogy 的 AI 卓越中心評估了 Fireworks AI 作為推理基礎設施,以標準化開源權重模型的使用,降低了成本並實現了十億級 token 的代理工作流。

  • Trilogy 採用 Fireworks AI 作為企業級開源權重模型的推理層。
  • 成本降至專有系統的約五分之一,避免了速率限制問題。
站內正文
政策

特朗普新行政令要求AI公司自願提交模型供政府安全審查

白宮發佈行政令,要求五角大樓和CISA等機構在30天內利用AI工具加強網絡防禦。AI開發者可自願提交模型進行安全測試,但命令明確排除強制批准。鑑於近期政府對AI公司的壓力,這種合作的自願性仍存疑問。

  • 行政令要求國防部和CISA等機構30天內使用AI強化網絡安全。
  • AI公司可自願提交模型供政府測試,但非強制。
站內正文

英國監管機構針對谷歌AI搜索結果新規對出版商意味着什麼?

英國競爭與市場管理局(CMA)命令谷歌改變其AI搜索結果中使用出版商內容的方式,賦予新聞網站屏蔽其內容用於AI摘要的權力,此舉將產生全球影響。

  • CMA利用新權力為具有“戰略市場地位”的科技巨頭制定定製規則。
  • 新規要求谷歌允許出版商選擇退出AI摘要功能。
站內正文

將人工智能引入經濟、社會和治理核心的風險 | 讀者來信

讀者回應Nesrine Malik關於信任機器而非人類的文章,指出AI對寫作和證據的影響,擔憂偽造引文和不可靠研究對真相和公眾信任的威脅。

  • AI不僅文風空洞,更關鍵的是它模糊了事實與虛構的界限。
  • 被假引文坑害的作家並非故意欺騙,而是誤信AI作為研究工具。
站內正文
工具

Impermeabiliza 在瓦倫西亞利用人工智能實現防水現代化

Impermeabiliza 是瓦倫西亞的一家防水專家,通過集成人工智能來提升診斷、規劃和執行水平,確保住宅、工業和商業結構的耐久性,防止滲漏、濕氣和黴菌。

  • Impermeabiliza 是瓦倫西亞地區的防水解決方案提供商。
  • 公司使用先進系統預防滲漏、濕氣和黴菌。
站內正文

在不斷變化的AI市場中保障SaaS成功

在AI市場不斷變化的背景下,SaaS企業不僅需要適應AI,更要主動構建上下文並將這些技術整合到自身產品中,這是生存的關鍵。

  • SaaS企業必須主動構建AI上下文並整合技術
  • 適應AI是基礎,但主動整合才是關鍵
站內正文
芯片

歐盟擬阻止外國供應商使用“關閉開關”破壞歐洲關鍵科技服務

歐盟委員會提出技術主權提案,旨在減少對美中等外國供應商在雲計算、人工智能和半導體生產領域的依賴,確保外國政府或公司無法通過“關閉開關”中斷歐洲關鍵科技服務。

  • 歐盟尋求消除外國對歐洲關鍵科技服務的“關閉開關”風險
  • 提案聚焦雲計算、AI和半導體生產的自主化
站內正文

使用DLAMI和DLC上的SOCI索引減少容器冷啓動時間

AWS Deep Learning AMI和Deep Learning Containers現已支持SOCI快照器和索引,通過選擇性文件下載(延遲加載)和並行拉取模式,顯著縮短容器啓動時間。本文介紹了SOCI的工作原理、適用場景以及性能基準測試結果。

  • SOCI(Seekable OCI)通過層索引實現懶加載,容器僅需下載必要文件即可啓動,冷啓動時間從6分59秒降至21秒。
  • AWS DLAMI和DLC提供標準Docker拉取、SOCI並行拉取和SOCI懶加載三種模式,用户可根據實例規格和網絡帶寬選擇。