Google

來源分布

Hacker News AI30
MarkTechPost4
arXiv Computational Linguistics2
Google Research Blog2
Product Hunt AI2
Analytics Vidhya1
Google AI Blog1
IEEE Spectrum AI1

主題分布

Agent32
研究22
政策15
模型13
芯片8
創業融資6
機械人3
工具2

日期線

2026-07-0711
2026-07-089
2026-07-107
2026-07-096
2026-07-115
2026-07-033
2026-07-063
2026-07-042

最新動態

Show HN: Inkfold – 跨多AI提供商的共享內存工作空間

2026-07-12 15:38 UTC+8

Inkfold 是一個專為多 AI 訂閲用户設計的平台，可在 ChatGPT、Claude、Gemini、Grok 等工具間共享記憶和上下文，避免重複解釋。它提供智能、私密或隱身三種保留模式，支持訂閲或按需付費。適用於個人、團隊和組織，提供免費和付費方案。

跨多個AI提供商共享記憶和上下文
支持智能、私密或隱身三種保留模式

研究發現AI小説因“愚蠢且糟糕”而易於檢測

2026-07-12 02:53 UTC+8

馬里蘭大學與Google DeepMind的研究表明，AI生成的小説在敍事結構上存在明顯缺陷，如過度解釋主題、缺乏支線情節和生硬的説教，使其易於被檢測。研究人員開發了StoryScope檢測器，通過分析敍事特徵來區分人機寫作，並測試了多個AI模型。研究使用了爭議性的Books3數據集，但未公開發布。

AI小説傾向於過度解釋主題，77%的AI故事會明確説明寓意，而人類只有52%。
AI模型各有缺陷：GPT濫用夢境序列，Gemini偏好外部描述，Claude事件發展平淡。

免費AI可見性審計工具與代理

2026-07-11 23:59 UTC+8

這個免費工具可檢查ChatGPT、Gemini、Claude、Perplexity、Grok和Google AI能否抓取、理解、驗證和引用你的網站。報告涵蓋全面站點抓取、品牌實體檔案、聲明級證據、AI意圖覆蓋、技術可抓取性、結構化數據、信任信號、競爭對手差距以及執行路線圖，並附有電商、AI SaaS和B2B服務的案例。

免費審計工具評估AI系統對網站的可見性。
報告覆蓋12個維度，包括技術、內容和信任信號。

2026年中AI模型分級

2026-07-11 23:43 UTC+8

作者從個人編碼和審計經驗出發，對2026年中的主流AI模型進行非正式分級，涵蓋Anthropic Fable、OpenAI Sol、Mistral、Gemini和DeepSeek等模型，並融入美國出口管制和歐洲視角的評論。

Fable（Anthropic）被評為B級，雖然流暢但不可靠，常隱藏錯誤。
Sol（OpenAI）被評為S級，在低級代碼和測試方面表現出色，值得信賴。

Show HN: 用於Google Chat的AI助手，翻譯任意文件並保留佈局

2026-07-11 20:00 UTC+8

AnyFile Translator 是一款AI翻譯助手，可在Google Chat中直接翻譯文件、網頁鏈接和文本，保留原始佈局和格式，支持超過100種語言。它還具備AI寫作功能，可生成並翻譯內容。適合國際團隊和全球客户使用。

翻譯PDF、Word、PPT等文件並保留佈局
支持100多種語言，可直接在聊天中使用

Show HN：使用AI實時創建逼真的團體照片

2026-07-11 17:48 UTC+8

Pixailer 是一款AI工具，可讓用户上傳個人照片並描述場景，在幾秒鐘內生成包含最多8人的高質量團體照片。它提供多種AI引擎（Google Gemini和OpenAI GPT-Image），支持多種語言提示，並有靈活的付費方案。隱私方面，上傳的照片不會用於訓練模型，並在生成後自動刪除。

上傳清晰照片並描述場景，AI在10秒內生成團體照
支持最多8人，可選Express（快速）或Studio（高保真）引擎

哪種“AI科學家”適合你的實驗室？一份困惑者指南

2026-07-11 07:58 UTC+8

本文探討了多種專為科學研究設計的AI工具，如Anthropic的Claude Science、Google DeepMind的Co-Scientist和開源平台Biomni。這些工具能加速基因組分析、假設生成和實驗設計等任務。科學家分享了使用經驗，並建議研究人員多嘗試不同工具，從小任務開始驗證輸出，同時保持謹慎。

Anthropic發佈Claude Science平台，專注於生物學研究。
Google DeepMind的Co-Scientist通過挖掘文獻提出科學假設。

讓你“成為”而非“做事”的AI

2026-07-10 23:55 UTC+8

本文探討了當前AI工具僅注重完成任務（DO），卻忽略了幫助用户理解自身工作模式、實現自我提升（BE）的缺失。作者通過個人16天的活動追蹤，揭示了諸如固定時間點注意力崩潰、最佳工作窗口等行為模式，並介紹了構建中的自我認知AI棧——包括Dayflow、Gemini Flash Lite、Clawdbot和self.md——旨在提供行為洞察而非僅僅任務執行。

當前AI（如ChatGPT、Claude）只記錄用户告訴它的事實，而不觀察用户實際的工作模式。
作者通過16天自我追蹤發現：每天工作兩小時後注意力崩潰、11:00-12:30為最佳工作時段、頻繁使用Telegram造成分心等模式。

谷歌推出SensorFM：基於一萬億分鐘傳感器數據預訓練的可穿戴健康基礎模型

2026-07-10 16:52 UTC+8

谷歌研究、谷歌DeepMind與大學合作者共同推出了SensorFM，這是一個基於超過1萬億分鐘傳感器數據（來自500萬參與者）預訓練的可穿戴健康基礎模型。該模型採用ViT-1D掩碼自編碼器架構，在處理缺失數據方面具有創新性。在35項任務中，凍結嵌入加PCA-50線性探測器的表現優於34項特徵工程基線。此外，還介紹了自動化超參數搜索的“智能體課堂”以及用於評估個人健康代理的臨牀醫生評價。

SensorFM在500萬參與者、超過1萬億分鐘的傳感器數據上預訓練，覆蓋100多個國家和20多種可穿戴設備。
通過自適應繼承掩碼（AIM）處理缺失數據，在隨機插補任務上比最佳基線提升74.8%。

全雙工語音代理中LALM音頻裁判的可靠性評估

2026-07-10 12:00 UTC+8

一篇新研究評估了Gemini模型作為音頻裁判在全雙工語音代理對話中的可靠性。基於209個立體聲會話，在8個維度上與人類評分者進行對比，結果顯示Gemini 2.5 Flash在多數維度上與人類高度一致，且成本僅為人類評分的約1/100。研究還指出模型切換需重新校準，並提出了部署時需注意的四個方面。

Gemini 2.5 Flash在5/8維度上的LALM-人類Spearman相關係數與人類之間差異不超過0.07
LALM在6/8維度上60-92%的會話中與三名人類評分者的均值相差不超過1分

使用 AlphaEvolve 解決更困難的問題，現已面向所有 Google Cloud 用户開放

2026-07-10 05:00 UTC+8

Google 宣佈其 AI 驅動的代碼優化與發現代理 AlphaEvolve 在 Gemini Enterprise Agent Platform 上正式公開發布。該工具幫助企業和研究人員解決物流、半導體、基因組學等領域的複雜算法優化問題。多行業客户已取得顯著成效。

AlphaEvolve 是 Google 基於 Gemini 構建的代碼優化與發現代理，現已全面上市。
通過定義、測量、優化、應用四步流程，系統性地探索搜索空間以找到最優解。

谷歌意外提前棄用Gemini 2.5模型

2026-07-10 03:53 UTC+8

谷歌在沒有事先警告的情況下，比預定關閉日期更早地棄用了Gemini 2.5 Flash模型，引發了開發者社區的困惑。

谷歌意外提前棄用Gemini 2.5 Flash模型
棄用時間早於官方公佈的關閉日期

Cloud Run 沙箱：為 AI 代理提供輕量級隔離

2026-07-10 01:41 UTC+8

Google Cloud 宣佈 Cloud Run 沙箱公開預覽，這是一種原生、安全的超快運行時環境，專為執行不可信代碼和代理工作負載而設計，可在毫秒內啓動。它支持 LLM 代碼解釋器、無頭瀏覽器和用户提交代碼執行等用例，並通過憑據隔離、默認拒絕網絡和只讀文件系統覆蓋提供零信任安全。

Cloud Run 沙箱是原生、安全的運行時環境，可在毫秒內啓動。
支持 LLM 代碼解釋器、無頭瀏覽器和用户提交代碼執行。

ChatGPT Work

2026-07-10 01:16 UTC+8

ChatGPT Work 是一款智能助手，可跨應用和文件執行任務，支持數小時持續工作，並能將目標轉化為完成的工作。它集成了 Slack、Google Drive 等工具，支持桌面和移動端協作，還具備 Codex 編碼功能。

可在手機、桌面和網頁間無縫切換任務
集成 Slack、Gmail、Salesforce 等工具

Show HN：QX Labs – 構建跨工具工作的代理、流程和網格

2026-07-09 19:52 UTC+8

QX Labs 是一個AI代理平台，允許用户在幾分鐘內構建代理，並將其連接到Slack、電子郵件、WhatsApp和電子表格等工具。平台提供三種工作方式：獨立代理、大規模並行網格和自動化流程，支持與超過1000個應用集成，並允許在OpenAI、Anthropic、Gemini等模型間自由切換。

QX Labs 使團隊能夠快速構建AI代理並連接到常用工具。
網格功能可同時運行數千個代理，用於大規模研究和外聯。

WhisperShortcut：macOS上的AI語音層（自帶API密鑰，支持離線Whisper）

2026-07-09 19:49 UTC+8

WhisperShortcut 是一款開源的 macOS 應用，讓你通過快捷鍵在任何應用中用語音進行轉錄、編輯、朗讀、截圖和聊天。它支持 Google Gemini、OpenAI GPT、xAI Grok 等雲服務，也支持完全離線的本地 Whisper 模型，無需賬户或訂閲。

通過 ⌘1 到 ⌘4 及 ⌥Space 等快捷鍵快速調用語音、朗讀、截圖和聊天功能。
支持 Google Gemini、OpenAI GPT、xAI Grok 等多種 AI 模型，可離線運行本地 Whisper。

SensorFM：面向可穿戴健康數據的通用智能與接口

2026-07-09 17:56 UTC+8

谷歌研究院推出 SensorFM，這是一個基於超過一萬億分鐘傳感器數據和五百萬人訓練的可穿戴健康基礎模型。它通過自監督學習掌握人類生理的通用表示，可遷移至35項健康任務，支持標籤高效適配，並能作為個人健康代理的基石。

SensorFM 使用來自五百萬人的超過一萬億分鐘可穿戴傳感器數據進行預訓練。
採用缺失感知掩蔽的自監督學習方法，有效處理真實世界數據中的缺失片段。

德國極右翼AfD開發生成'憤怒誘餌'的AI軟件

2026-07-09 13:17 UTC+8

據調查媒體Correctiv的卧底調查，德國極右翼政黨AfD開發了一套名為Alternita的AI軟件套件，利用Google Gemini、OpenAI的ChatGPT和Anthropic的Claude等主流AI引擎，自動生成煽動性社交媒體帖子，旨在控制黨內信息傳播並維持其網絡優勢。

AfD利用AI技術生成'憤怒誘餌'內容，以引發情緒反應並擴大影響力。
軟件可自動抓取極右翼新聞源，並根據用户指令生成適配各大平台的帖子。

Google AI Studio 在構建模式中新增“從 GitHub 導入”功能，將現有倉庫轉化為可編輯、可部署的應用

2026-07-09 02:41 UTC+8

Google AI Studio 在構建模式中推出“從 GitHub 導入”功能，可將現有 GitHub 倉庫轉化為與運行時兼容的格式，並支持在 AI Studio 中迭代、部署等操作。該功能補全了構建模式中缺失的入站路徑，但私有倉庫支持和同步行為等細節尚未公佈。

AI Studio 構建模式新增“從 GitHub 導入”功能，可直接導入現有倉庫。
導入後倉庫被自動轉換為運行時兼容格式，可在 AI Studio 中繼續迭代並部署。

JetBrains下一步不是更好的IDE——而是針對Claude Code、Codex和Gemini CLI的治理層

2026-07-09 01:44 UTC+8

JetBrains推出了AI for Teams and Organizations，在現有AI工具之上增加共享上下文、可重用的代理流程、組織範圍的治理和成本控制，無需團隊統一使用單一供應商。

JetBrains發佈AI for Teams and Organizations，在任何AI工具之上增加治理層。
功能包括自動化、JetBrains Context（跨倉庫知識）、JetBrains Central（管理控制台）和Central CLI（跟蹤CLI代理）。

Gemini失敗後，我在Gmail收件箱試用了Claude Cowork——它為我節省了數小時的工作

2026-07-08 23:09 UTC+8

科技記者David Gewirtz在Gmail中嘗試使用Gemini進行郵件篩選未果後，轉而使用Anthropic的Claude Cowork。Cowork成功識別出關於Fable 5限制的相關媒體推介和引文，並確保了發佈許可，將原本需要數小時的繁瑣工作縮短至幾分鐘的驗證時間，展示了連接式AI助手應對郵件過載的潛力。

Gmail的Gemini在處理複雜郵件搜索時失敗，無法理解上下文。
Claude Cowork在幾分鐘內識別出12個相關媒體推介，並從中篩選出8個可用的引文來源。

Start with A —— 開源、自託管的投資研究平台（BYOK AI）

2026-07-08 22:50 UTC+8

Start with A 是一個開源的投資研究平台，整合了研究、投資組合監控和交易日誌，形成紀律嚴明的投資工作流。支持自託管，使用自己的AI API密鑰（BYOK），兼容Gemini、OpenAI和Anthropic。

開源、自託管，用户擁有數據完全控制權。
三大模塊：研究、投資組合、日誌，形成閉環流程。

The Sequence AI本週第891期：提示電子表格——深入剖析Google TabFM表格AI

2026-07-08 19:02 UTC+8

谷歌研究團隊發佈了TabFM，一種用於表格分類和迴歸的基礎模型，它能夠將整個表格數據作為一個提示，通過一次前向傳播產生預測，無需訓練、調參或特徵工程，實現了表格數據的上下文學習。

TabFM是谷歌研究團隊新發布的表格基礎模型，支持分類和迴歸任務。
該模型通過單一前向傳播即可對未見過的表格進行預測，無需訓練或特徵工程。

AI模型“過度思考”問題——這是一種安全風險

2026-07-08 19:00 UTC+8

研究表明，具備推理能力的大語言模型容易因邏輯不一致的提示而陷入“過度思考”，導致輸出長度激增，可能被利用發動拒絕服務攻擊。浙江大學與阿里巴巴的研究人員開發了一種進化算法，能夠生成惡意提示，使模型輸出長度最高增加26倍，影響包括DeepSeek-R1、Qwen3-Thinking、GPT-o3和Gemini 2.5 Flash在內的主流推理模型。

研究人員展示了一種利用AI推理模型“過度思考”漏洞的新型攻擊，導致計算量急劇增加。
通過進化算法破壞提示的邏輯結構，可使模型輸出長度最高達到正常情況的26倍。

ZML發佈免費產品，加速跨AI芯片推理

2026-07-08 16:18 UTC+8

法國AI初創公司ZML在被譽為圖靈獎得主Yann LeCun的支持下，推出了一款免費軟件，旨在使多種開源大型語言模型能夠在包括Nvidia、AMD、Google TPU、Apple Metal和Intel Arc在內的多種芯片上高效運行。

ZML獲得Yann LeCun背書，發佈免費推理加速軟件
支持多種AI芯片，打破Nvidia壟斷格局

大語言模型的“是-否”偏差反映答案順序和措辭，而非道德判斷的轉變

2026-07-08 12:00 UTC+8

新研究通過交叉對稱化方法分離了LLM在道德困境中的“是-否”偏差成分，發現前沿模型的內在道德立場近乎格式不變，而克勞德模型存在顯著的順序偏差和詞彙拉動，GPT-5.5和Gemini則幾乎為零。該偏差隨擴展推理而縮小，且並非朝向拒絕，而是跟隨表面印刷。

LLM在二元道德判斷中表現出的“是-否”偏差可分解為順序偏差（傾向最後選項）和詞彙拉動（傾向“否”字），但內在道德尺度格式不變。
克勞德模型的偏差較大（故事平均-0.32至-0.86），GPT-5.5和Gemini接近零，擴展推理可縮小偏差。

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

2026-07-08 10:20 UTC+8

本期AINews涵蓋了2026年7月6日至7日的廣泛AI發展。亮點包括Lilian Weng對遞歸自我改進中套件工程深入分析、Meta推出Muse Image和預覽Muse Video（具有代理生成循環）、以及Anthropic、LangChain和Google在代理平台上的重大產品更新。其他值得注意的內容：NVIDIA的Audex音頻模型、Cohere的阿拉伯語ASR、與Hugging Face和NVIDIA的機器人集成、Liquid AI的Antidoom方法減少推理循環失敗、以及Anthropic有爭議的J-space可解釋性研究。還涵蓋了代理和法律AI的基準測試、研究自動化和推理效率進展。

Lilian Weng的博文將遞歸自我改進重新聚焦於套件工程而非直接權重修改，強調套件工程對於指定目標和上下文至關重要。
Meta的Muse Image和Muse Video展示了具有規劃、工具使用和自我細化的代理生成，迅速登上公共排行榜高位。

Neuronpedia：一個用於AI可解釋性的開源平台

2026-07-08 03:42 UTC+8

Neuronpedia是一個開源的可解釋性平台，允許用户探索、可視化和操控AI模型的內部運作。該平台支持多種功能，包括頭可視化、自然語言自動編碼器、電路追蹤和特徵操控。它託管了超過50,000,000個潛在向量，並提供API和庫以便集成。由前蘋果工程師Johnny Lin創建，並得到Anthropic、Google DeepMind等多個組織的支持。

Neuronpedia是一個用於AI模型可解釋性的開源平台，支持探索、可視化和操控。
平台包含HeadVis、自然語言自動編碼器、電路追蹤等工具，以及大量預訓練模型和SAE。

協作的力量：如何減少交通擁堵

2026-07-08 00:42 UTC+8

谷歌研究在10個美國城市進行的一項大規模真實世界研究表明，通過導航應用程序對少量行程（不到2%）進行輕微改道，可顯著減少交通擁堵和排放。該研究發表在《自然·城市》上，發現目標路段行駛速度中位數提高約2%，每個城市每年可能減少數千噸二氧化碳當量排放。

在10個美國城市進行的為期六個月的實驗表明，通過導航應用干預協調少量行程（不到2%）可改善整個網絡的交通效率。
將行程從擁堵路段改道至類似替代路線，使目標路段行駛速度中位數提高約2%，並降低了燃料消耗。

使用Gemma 4進行零樣本本地文檔解析：將PDF視為圖像

2026-07-07 22:00 UTC+8

本文介紹一種將PDF頁面渲染為圖像，並利用Google DeepMind的Gemma 4視覺語言模型進行本地文檔解析的方法。該方法統一處理掃描和數字PDF，無需OCR或佈局解析器，並支持靈活的視覺令牌預算。

將PDF頁面渲染為高分辨率圖像，用視覺語言模型直接讀取，消除掃描版與數字版PDF的差異。
Gemma 4支持2D旋轉位置嵌入和逐層嵌入，增強文檔理解能力，完全本地運行，無需API密鑰。

面向AI時代的可觀測性設計——應用、基礎設施、CI、LLM（第一部分）

2026-07-07 21:24 UTC+8

本文介紹了為AI時代重塑可觀測性堆棧的設計思路。作者將監控分為四個維度：應用（標準OTel堆棧）、基礎設施（GCP指標統一到Mimir）、CI（通過事後拉取日誌到Loki）、LLM（Gemini用Prometheus實時成本估計，Claude Code用BigQuery進行SQL聚合）。強調數據必須事先塑形才能被AI有效消費。

將監控分為四軸：應用、基礎設施、CI、LLM
CI日誌採用事後拉取而非推送，解耦執行與可觀測性

Show HN：我開發了一個通話中AI，最難的部分是讓它少説話

2026-07-07 19:35 UTC+8

Heyalo是一款實時AI銷售情報工具，能在通話過程中提供現場信號和答案，並在掛斷後自動生成摘要、交易信號和跟進草稿。它通過瀏覽器監聽通話，無需安裝或機器人加入，支持Zoom、Google Meet、Microsoft Teams等平台，並提供免費版和專業版訂閲。

無機器人加入通話，完全通過瀏覽器運行
實時識別購買信號、異議回應和風險標誌

我們構建了一個連我們自己都無法讀取的AI聊天工具——以下是證明我們沒有撒謊的方法

2026-07-07 18:10 UTC+8

Brianni是一款集成GPT、Claude和Gemini的AI聊天應用，其核心承諾是運營商無法讀取用户的對話內容。該系統通過客户端生成的加密密鑰、AWS Nitro Enclave硬件隔離和可驗證的遠程認證實現。用户可以通過可重現構建驗證服務器端運行的代碼是否與公開源碼一致，從而確保系統未被篡改。

聊天曆史使用用户設備生成的密鑰加密，服務器僅存儲密文。
對話明文僅出現在AWS Nitro Enclave內，其代碼測量值（PCR0）可通過可重現構建驗證。

擴展Gemini API中的託管代理：後台任務、遠程MCP等

2026-07-07 16:54 UTC+8

Google宣佈為Gemini API中的託管代理添加新功能，包括後台執行、遠程MCP服務器集成、自定義函數調用和交互間憑證刷新，旨在幫助開發者構建可靠的生產級代理。

支持後台執行，允許異步運行長時間任務並輪詢狀態。
可直接連接遠程MCP服務器，無需自定義中間件。

面向低資源語言的AI語音技術棧選擇：以阿塞拜疆語為例

2026-07-07 13:31 UTC+8

本文探討了為低資源語言（如阿塞拜疆語）構建實時語音AI的挑戰，對比了端到端語音模型（OpenAI Realtime、Gemini Live）和級聯流水線（LiveKit、Pipecat、Vapi），分析了各種失敗模式、組件可用性，並提供了評估清單。

端到端語音模型在低資源語言上常因語言覆蓋、輸出質量或延遲而失敗。
級聯流水線提供靈活性，但需要自行處理延遲和尋找可用的語音識別/合成組件。

宣佈推出 AutomationBench-AA

2026-07-07 10:22 UTC+8

Artificial Analysis 與 Zapier 合作推出 AutomationBench-AA 排行榜，測試 AI 模型在真實 SaaS 工作流中的自動化能力。該基準包含 657 個任務，覆蓋多個業務領域。Claude Fable 5 以 48.6% 的得分領先，Gemini 3.5 Flash 在成本效益上表現突出。所有模型均出現防護欄違規，金融任務難度最高。

AutomationBench-AA 評估 657 個工作流自動化任務，模擬 40 個 SaaS 應用環境。
Claude Fable 5 (max) 以 48.6% 的客觀完成率領先。

Meta測試Pocket：一款用於AI生成迷你遊戲的實驗性應用

2026-07-07 09:11 UTC+8

Meta正在測試一款名為Pocket的社交應用，用户無需編程即可創建、分享和發現AI生成的迷你遊戲（稱為“gizmos”）。該應用目前處於Google Play的封閉測試階段，合作平台包括Facebook、Instagram和WhatsApp的交叉推廣。

Pocket是Meta的新社交應用，專注於AI生成的迷你遊戲。
用户通過自然語言描述就能創建遊戲，無需編程技能。

Speechify的Simba 3.2 API在Artificial Analysis語音競技場中位居榜首

2026-07-07 06:45 UTC+8

語音合成模型Simba 3.2在Artificial Analysis的語音競技場中以Elo評分1233排名第一。該排行榜基於盲測用户投票，Gemini 3.1 Flash TTS和Sonic 3.5緊隨其後。文章還提到性價比高的開源模型及分類篩選功能。

Simba 3.2以Elo 1233分位列語音合成模型榜首
排名基於盲測用户投票，確保公正性

XGBoost擊敗LLM：在烏克蘭戰爭Telegram數據中識別平民傷害帖子

2026-07-07 04:28 UTC+8

Bellingcat開發了一種基於XGBoost的機器學習模型，用於從Telegram海量帖子中高效篩選出涉及平民傷害的內容。與傳統方法相比，該模型將搜索時間大幅縮短，且性能優於Gemma、Gemini等大型語言模型。研究團隊通過特徵工程、關鍵詞分析和語義相似度計算，成功將人工核查的重點從搜索轉向驗證。該開源方法為衝突地區平民傷害監測提供了可複用的技術框架。

Bellingcat利用XGBoost模型從Telegram數據中識別平民傷害事件，效率遠超人工篩選
模型通過特徵工程（關鍵詞、情感反應、語義相似度）和BERT嵌入提升準確率

Opper AI：歐洲AI網關，為智能體而生

2026-07-07 00:51 UTC+8

Opper AI 是一個歐洲AI網關，提供統一的API接口，可訪問300多個模型，其中約一半的推理提供商位於歐盟。該平台支持OpenAI、Anthropic和Google SDK的即插即用，內置數據駐留、審計跟蹤和PII控制，並具有智能體原生支持，可無縫集成到Claude Code或Cursor中。

統一API訪問300多個模型，歐盟數據駐留默認開啓
兼容OpenAI、Anthropic和Google SDK，只需更改基礎URL

AI數據中心

2026-07-06 21:42 UTC+8

Epoch AI的獨立數據庫覆蓋全球67個大型AI數據中心，通過衞星圖像、許可證等公開數據追蹤其建設時間線。最大的設施是SpaceXAI在孟菲斯的Colossus 2，IT功率達946 MW，計算能力相當於111.2萬塊H100 GPU。美國集中了大部分數據中心，尤其在得克薩斯、俄亥俄等州。總IT功率容量達10.8 GW，加上冷卻等基礎設施後總設施功率達14 GW，超過紐約市峯值需求。硬件以NVIDIA H100、H200、B200 GPU為主，Google和Amazon也使用自研芯片。

Epoch AI數據庫收錄67個AI數據中心，最大的是SpaceXAI的Colossus 2。
美國擁有最多大型AI數據中心，集中在得克薩斯、俄亥俄等州。

API速查表：藉助Gemini和Kilo Code快速發現端點

2026-07-06 18:47 UTC+8

本文介紹如何利用AI助手（如Gemini和Kilo Code）快速找到API端點、參數及是否需要密鑰。通過CoinGecko API獲取VALR交易所BTC價格的示例，展示了免費和Pro級別的curl命令。作者強調AI可替代大量文檔查閲，並提醒使用環境變量保護API密鑰。

AI工具（Gemini、Kilo Code）能快速識別API端點和參數。
示例：使用CoinGecko API獲取VALR交易所的BTC ZAR價格。

現代視覺語言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

2026-07-06 13:14 UTC+8

現代視覺語言模型（VLM）能夠同時理解圖像和語言，超越了CLIP和BLIP等早期模型。本文詳細介紹了GPT-4o、Gemini、Claude Vision和Qwen-VL的工作方式、關鍵差異、優勢與侷限性，並展示了它們在教育、醫療、自動化等領域的實際應用。

現代VLM可分析圖像、文檔、圖表並回答視覺問題，支持多模態對話。
GPT-4o在實時多模態交互方面表現突出，支持文本、圖像、音頻和視頻。

GCP推出代理型AI的邊界防護新功能

2026-07-05 23:29 UTC+8

Google Cloud宣佈為VPC Service Controls新增面向代理型AI工作負載的能力，包括基於代理身份的定向規則、基於MCP屬性的細粒度訪問控制，以及與Gemini Enterprise Agent Platform的原生集成。這些功能在網絡層面建立邊界，防止被攻陷的AI代理泄露數據，應對OWASP Top 10 LLM威脅。

VPC Service Controls現在支持代理身份和主體集合，實現最小權限訪問。
基於MCP屬性（如工具名稱和方法）的精細化訪問控制。

令人惱火的谷歌廣告：開國元勳竟用AI起草《獨立宣言》

2026-07-05 22:23 UTC+8

谷歌新廣告中，美國開國元勳們使用Google Workspace和Gemini AI協作起草《獨立宣言》，場景滑稽且不合時宜，引發歷史學家和觀眾的批評，認為廣告歪曲了歷史，也無法體現AI的實際價值。

谷歌廣告模擬開國元勳用AI工具起草《獨立宣言》，包括Gemini建議會議時間和編輯功能。
廣告中尷尬的橋段如詢問是否給英王喬治三世編輯權限，被認為荒謬。

我們可以討論AI倫理，但似乎無法改變方向 | 讀者來信

2026-07-04 01:00 UTC+8

《衞報》對Google DeepMind哲學家的報道令人鼓舞，但讀者擔憂AI的發展方向可能已由商業和地緣政治利益決定，而非社會共識。

《衞報》對Google DeepMind哲學家的報道顯示AI建設者重視倫理責任。
但讀者擔憂，AI的發展方向可能已被商業和地緣政治利益所決定。

Plasma Wiki：為AI智能體設計的命令行Wiki管理工具

2026-07-04 00:34 UTC+8

Plasma Wiki是一個命令行工具，用於維護由AI智能體編輯的Markdown Wiki。它遵循LLM Wiki模式和Google的開放知識格式，自動生成索引和交叉鏈接，並處理並行編輯衝突。支持通過pip安裝，可與Claude Code和Codex集成。

基於Markdown的Wiki，通過_index.md文件索引，支持人類和AI共同編輯
提供init、lint、update、map、search、read等CLI命令

Show HN：Imagent – 智能體驅動的圖像/視頻/語音生成

2026-07-03 11:31 UTC+8

Imagent是一個將圖像、視頻和語音生成能力集成到AI代理工作流中的開源工具。它提供統一的CLI接口，支持多個AI提供商（如OpenAI、Google、ElevenLabs等），並管理生成的資產庫，方便複用。

Imagent將生成能力作為代理的原生技能，無需額外集成。
支持多個提供商和模型，通過統一接口切換。

Interfaze 發佈 diffusion-gemma-asr-small：基於 DiffusionGemma 並行去噪解碼器的開源擴散語音識別模型，支持六種語言

2026-07-03 11:24 UTC+8

Interfaze 開源了 diffusion-gemma-asr-small，一個多語言語音識別模型，採用擴散解碼器而非自迴歸解碼器。該模型通過一個約 42M 參數的適配器將音頻輸入到 Google 的凍結 DiffusionGemma 模型中，單個適配器即可處理六種語言。轉錄成本由去噪步數決定，而非轉錄長度。在 LibriSpeech 測試集上詞錯誤率為 6.6%，領先其他擴散 ASR 模型。

首個開源的多語言擴散 ASR 模型，基於 DiffusionGemma 的並行去噪解碼器。
僅需一個約 42M 參數的適配器即可處理六種語言（英語、德語、法語、西班牙語、印地語、普通話）。

RAG-Anything 教程：在 Colab 中構建文本、表格、公式和圖像的多模態檢索管道

2026-07-03 05:38 UTC+8

本教程詳細介紹瞭如何在 Google Colab 中使用 RAG-Anything 構建一個支持文本、表格、公式和圖像的多模態檢索管道。從環境配置、OpenAI API 密鑰安全輸入開始，到生成合成多模態報告、構建 content_list、插入檢索系統，最後測試多種檢索模式（naive、local、global、hybrid）。全面演示了 RAG-Anything 處理多模態文檔的能力。

逐步指導在 Colab 中安裝和配置 RAG-Anything 及其依賴項。
創建包含文本、表格、圖表和 PDF 的合成多模態報告，用於測試。