Google

來源分布

Hacker News AI30
MarkTechPost4
arXiv Computational Linguistics2
Google Research Blog2
Product Hunt AI2
Analytics Vidhya1
Google AI Blog1
IEEE Spectrum AI1

主題分布

Agent32
研究22
政策15
模型13
晶片8
創業融資6
機器人3
工具2

日期線

2026-07-0711
2026-07-089
2026-07-107
2026-07-096
2026-07-115
2026-07-033
2026-07-063
2026-07-042

最新動態

Show HN: Inkfold – 跨多AI提供商的共享記憶體工作空間

2026-07-12 15:38 UTC+8

Inkfold 是一個專為多 AI 訂閱使用者設計的平臺，可在 ChatGPT、Claude、Gemini、Grok 等工具間共享記憶和上下文，避免重複解釋。它提供智慧、私密或隱身三種保留模式，支援訂閱或按需付費。適用於個人、團隊和組織，提供免費和付費方案。

跨多個AI提供商共享記憶和上下文
支援智慧、私密或隱身三種保留模式

研究發現AI小說因“愚蠢且糟糕”而易於檢測

2026-07-12 02:53 UTC+8

馬里蘭大學與Google DeepMind的研究表明，AI生成的小說在敘事結構上存在明顯缺陷，如過度解釋主題、缺乏支線情節和生硬的說教，使其易於被檢測。研究人員開發了StoryScope檢測器，透過分析敘事特徵來區分人機寫作，並測試了多個AI模型。研究使用了爭議性的Books3資料集，但未公開發布。

AI小說傾向於過度解釋主題，77%的AI故事會明確說明寓意，而人類只有52%。
AI模型各有缺陷：GPT濫用夢境序列，Gemini偏好外部描述，Claude事件發展平淡。

免費AI可見性審計工具與代理

2026-07-11 23:59 UTC+8

這個免費工具可檢查ChatGPT、Gemini、Claude、Perplexity、Grok和Google AI能否抓取、理解、驗證和引用你的網站。報告涵蓋全面站點抓取、品牌實體檔案、宣告級證據、AI意圖覆蓋、技術可抓取性、結構化資料、信任訊號、競爭對手差距以及執行路線圖，並附有電商、AI SaaS和B2B服務的案例。

免費審計工具評估AI系統對網站的可見性。
報告覆蓋12個維度，包括技術、內容和信任訊號。

2026年中AI模型分級

2026-07-11 23:43 UTC+8

作者從個人編碼和審計經驗出發，對2026年中的主流AI模型進行非正式分級，涵蓋Anthropic Fable、OpenAI Sol、Mistral、Gemini和DeepSeek等模型，並融入美國出口管制和歐洲視角的評論。

Fable（Anthropic）被評為B級，雖然流暢但不可靠，常隱藏錯誤。
Sol（OpenAI）被評為S級，在低階程式碼和測試方面表現出色，值得信賴。

Show HN: 用於Google Chat的AI助手，翻譯任意檔案並保留佈局

2026-07-11 20:00 UTC+8

AnyFile Translator 是一款AI翻譯助手，可在Google Chat中直接翻譯檔案、網頁連結和文本，保留原始佈局和格式，支援超過100種語言。它還具備AI寫作功能，可生成並翻譯內容。適合國際團隊和全球客戶使用。

翻譯PDF、Word、PPT等檔案並保留佈局
支援100多種語言，可直接在聊天中使用

Show HN：使用AI即時建立逼真的團體照片

2026-07-11 17:48 UTC+8

Pixailer 是一款AI工具，可讓使用者上傳個人照片並描述場景，在幾秒鐘內生成包含最多8人的高質量團體照片。它提供多種AI引擎（Google Gemini和OpenAI GPT-Image），支援多種語言提示，並有靈活的付費方案。隱私方面，上傳的照片不會用於訓練模型，並在生成後自動刪除。

上傳清晰照片並描述場景，AI在10秒內生成團體照
支援最多8人，可選Express（快速）或Studio（高保真）引擎

哪種“AI科學家”適合你的實驗室？一份困惑者指南

2026-07-11 07:58 UTC+8

本文探討了多種專為科學研究設計的AI工具，如Anthropic的Claude Science、Google DeepMind的Co-Scientist和開源平臺Biomni。這些工具能加速基因組分析、假設生成和實驗設計等任務。科學家分享了使用經驗，並建議研究人員多嘗試不同工具，從小任務開始驗證輸出，同時保持謹慎。

Anthropic釋出Claude Science平臺，專注於生物學研究。
Google DeepMind的Co-Scientist透過挖掘文獻提出科學假設。

讓你“成為”而非“做事”的AI

2026-07-10 23:55 UTC+8

本文探討了當前AI工具僅注重完成任務（DO），卻忽略了幫助使用者理解自身工作模式、實現自我提升（BE）的缺失。作者透過個人16天的活動追蹤，揭示了諸如固定時間點注意力崩潰、最佳工作視窗等行為模式，並介紹了構建中的自我認知AI棧——包括Dayflow、Gemini Flash Lite、Clawdbot和self.md——旨在提供行為洞察而非僅僅任務執行。

當前AI（如ChatGPT、Claude）只記錄使用者告訴它的事實，而不觀察使用者實際的工作模式。
作者透過16天自我追蹤發現：每天工作兩小時後注意力崩潰、11:00-12:30為最佳工作時段、頻繁使用Telegram造成分心等模式。

谷歌推出SensorFM：基於一萬億分鐘感測器資料預訓練的可穿戴健康基礎模型

2026-07-10 16:52 UTC+8

谷歌研究、谷歌DeepMind與大學合作者共同推出了SensorFM，這是一個基於超過1萬億分鐘感測器資料（來自500萬參與者）預訓練的可穿戴健康基礎模型。該模型採用ViT-1D掩碼自編碼器架構，在處理缺失資料方面具有創新性。在35項任務中，凍結嵌入加PCA-50線性探測器的表現優於34項特徵工程基線。此外，還介紹了自動化超引數搜尋的“智慧體課堂”以及用於評估個人健康代理的臨床醫生評價。

SensorFM在500萬參與者、超過1萬億分鐘的感測器資料上預訓練，覆蓋100多個國家和20多種可穿戴裝置。
透過自適應繼承掩碼（AIM）處理缺失資料，在隨機插補任務上比最佳基線提升74.8%。

全雙工語音代理中LALM音訊裁判的可靠性評估

2026-07-10 12:00 UTC+8

一篇新研究評估了Gemini模型作為音訊裁判在全雙工語音代理對話中的可靠性。基於209個立體聲會話，在8個維度上與人類評分者進行對比，結果顯示Gemini 2.5 Flash在多數維度上與人類高度一致，且成本僅為人類評分的約1/100。研究還指出模型切換需重新校準，並提出了部署時需注意的四個方面。

Gemini 2.5 Flash在5/8維度上的LALM-人類Spearman相關係數與人類之間差異不超過0.07
LALM在6/8維度上60-92%的會話中與三名人類評分者的均值相差不超過1分

使用 AlphaEvolve 解決更困難的問題，現已面向所有 Google Cloud 使用者開放

2026-07-10 05:00 UTC+8

Google 宣佈其 AI 驅動的程式碼最佳化與發現代理 AlphaEvolve 在 Gemini Enterprise Agent Platform 上正式公開發布。該工具幫助企業和研究人員解決物流、半導體、基因組學等領域的複雜演算法最佳化問題。多行業客戶已取得顯著成效。

AlphaEvolve 是 Google 基於 Gemini 構建的程式碼最佳化與發現代理，現已全面上市。
透過定義、測量、最佳化、應用四步流程，系統性地探索搜尋空間以找到最優解。

谷歌意外提前棄用Gemini 2.5模型

2026-07-10 03:53 UTC+8

谷歌在沒有事先警告的情況下，比預定關閉日期更早地棄用了Gemini 2.5 Flash模型，引發了開發者社群的困惑。

谷歌意外提前棄用Gemini 2.5 Flash模型
棄用時間早於官方公佈的關閉日期

Cloud Run 沙箱：為 AI 代理提供輕量級隔離

2026-07-10 01:41 UTC+8

Google Cloud 宣佈 Cloud Run 沙箱公開預覽，這是一種原生、安全的超快執行時環境，專為執行不可信程式碼和代理工作負載而設計，可在毫秒內啟動。它支援 LLM 程式碼直譯器、無頭瀏覽器和使用者提交程式碼執行等用例，並透過憑據隔離、預設拒絕網路和只讀檔案系統覆蓋提供零信任安全。

Cloud Run 沙箱是原生、安全的執行時環境，可在毫秒內啟動。
支援 LLM 程式碼直譯器、無頭瀏覽器和使用者提交程式碼執行。

ChatGPT Work

2026-07-10 01:16 UTC+8

ChatGPT Work 是一款智慧助手，可跨應用和檔案執行任務，支援數小時持續工作，並能將目標轉化為完成的工作。它整合了 Slack、Google Drive 等工具，支援桌面和移動端協作，還具備 Codex 編碼功能。

可在手機、桌面和網頁間無縫切換任務
整合 Slack、Gmail、Salesforce 等工具

Show HN：QX Labs – 構建跨工具工作的代理、流程和網格

2026-07-09 19:52 UTC+8

QX Labs 是一個AI代理平臺，允許使用者在幾分鐘內構建代理，並將其連線到Slack、電子郵件、WhatsApp和電子表格等工具。平臺提供三種工作方式：獨立代理、大規模並行網格和自動化流程，支援與超過1000個應用整合，並允許在OpenAI、Anthropic、Gemini等模型間自由切換。

QX Labs 使團隊能夠快速構建AI代理並連線到常用工具。
網格功能可同時執行數千個代理，用於大規模研究和外聯。

WhisperShortcut：macOS上的AI語音層（自帶API金鑰，支援離線Whisper）

2026-07-09 19:49 UTC+8

WhisperShortcut 是一款開源的 macOS 應用，讓你透過快捷鍵在任何應用中用語音進行轉錄、編輯、朗讀、截圖和聊天。它支援 Google Gemini、OpenAI GPT、xAI Grok 等雲服務，也支援完全離線的本地 Whisper 模型，無需賬戶或訂閱。

透過 ⌘1 到 ⌘4 及 ⌥Space 等快捷鍵快速呼叫語音、朗讀、截圖和聊天功能。
支援 Google Gemini、OpenAI GPT、xAI Grok 等多種 AI 模型，可離線執行本地 Whisper。

SensorFM：面向可穿戴健康資料的通用智慧與介面

2026-07-09 17:56 UTC+8

谷歌研究院推出 SensorFM，這是一個基於超過一萬億分鐘感測器資料和五百萬人訓練的可穿戴健康基礎模型。它透過自監督學習掌握人類生理的通用表示，可遷移至35項健康任務，支援標籤高效適配，並能作為個人健康代理的基石。

SensorFM 使用來自五百萬人的超過一萬億分鐘可穿戴感測器資料進行預訓練。
採用缺失感知掩蔽的自監督學習方法，有效處理真實世界資料中的缺失片段。

德國極右翼AfD開發生成'憤怒誘餌'的AI軟體

2026-07-09 13:17 UTC+8

據調查媒體Correctiv的臥底調查，德國極右翼政黨AfD開發了一套名為Alternita的AI軟體套件，利用Google Gemini、OpenAI的ChatGPT和Anthropic的Claude等主流AI引擎，自動生成煽動性社交媒體帖子，旨在控制黨內資訊傳播並維持其網路優勢。

AfD利用AI技術生成'憤怒誘餌'內容，以引發情緒反應並擴大影響力。
軟體可自動抓取極右翼新聞源，並根據使用者指令生成適配各大平臺的帖子。

Google AI Studio 在構建模式中新增“從 GitHub 匯入”功能，將現有倉庫轉化為可編輯、可部署的應用

2026-07-09 02:41 UTC+8

Google AI Studio 在構建模式中推出“從 GitHub 匯入”功能，可將現有 GitHub 倉庫轉化為與執行時相容的格式，並支援在 AI Studio 中迭代、部署等操作。該功能補全了構建模式中缺失的入站路徑，但私有倉庫支援和同步行為等細節尚未公佈。

AI Studio 構建模式新增“從 GitHub 匯入”功能，可直接匯入現有倉庫。
匯入後倉庫被自動轉換為執行時相容格式，可在 AI Studio 中繼續迭代並部署。

JetBrains下一步不是更好的IDE——而是針對Claude Code、Codex和Gemini CLI的治理層

2026-07-09 01:44 UTC+8

JetBrains推出了AI for Teams and Organizations，在現有AI工具之上增加共享上下文、可重用的代理流程、組織範圍的治理和成本控制，無需團隊統一使用單一供應商。

JetBrains釋出AI for Teams and Organizations，在任何AI工具之上增加治理層。
功能包括自動化、JetBrains Context（跨倉庫知識）、JetBrains Central（管理控制台）和Central CLI（跟蹤CLI代理）。

Gemini失敗後，我在Gmail收件箱試用了Claude Cowork——它為我節省了數小時的工作

2026-07-08 23:09 UTC+8

科技記者David Gewirtz在Gmail中嘗試使用Gemini進行郵件篩選未果後，轉而使用Anthropic的Claude Cowork。Cowork成功識別出關於Fable 5限制的相關媒體推介和引文，並確保了釋出許可，將原本需要數小時的繁瑣工作縮短至幾分鐘的驗證時間，展示了連線式AI助手應對郵件過載的潛力。

Gmail的Gemini在處理複雜郵件搜尋時失敗，無法理解上下文。
Claude Cowork在幾分鐘內識別出12個相關媒體推介，並從中篩選出8個可用的引文來源。

Start with A —— 開源、自託管的投資研究平臺（BYOK AI）

2026-07-08 22:50 UTC+8

Start with A 是一個開源的投資研究平臺，整合了研究、投資組合監控和交易日誌，形成紀律嚴明的投資工作流。支援自託管，使用自己的AI API金鑰（BYOK），相容Gemini、OpenAI和Anthropic。

開源、自託管，使用者擁有資料完全控制權。
三大模組：研究、投資組合、日誌，形成閉環流程。

The Sequence AI本週第891期：提示電子表格——深入剖析Google TabFM表格AI

2026-07-08 19:02 UTC+8

谷歌研究團隊釋出了TabFM，一種用於表格分類和迴歸的基礎模型，它能夠將整個表格資料作為一個提示，透過一次前向傳播產生預測，無需訓練、調參或特徵工程，實現了表格資料的上下文學習。

TabFM是谷歌研究團隊新發布的表格基礎模型，支援分類和迴歸任務。
該模型透過單一前向傳播即可對未見過的表格進行預測，無需訓練或特徵工程。

AI模型“過度思考”問題——這是一種安全風險

2026-07-08 19:00 UTC+8

研究表明，具備推理能力的大語言模型容易因邏輯不一致的提示而陷入“過度思考”，導致輸出長度激增，可能被利用發動拒絕服務攻擊。浙江大學與阿里巴巴的研究人員開發了一種進化演算法，能夠生成惡意提示，使模型輸出長度最高增加26倍，影響包括DeepSeek-R1、Qwen3-Thinking、GPT-o3和Gemini 2.5 Flash在內的主流推理模型。

研究人員展示了一種利用AI推理模型“過度思考”漏洞的新型攻擊，導致計算量急劇增加。
透過進化演算法破壞提示的邏輯結構，可使模型輸出長度最高達到正常情況的26倍。

ZML釋出免費產品，加速跨AI晶片推理

2026-07-08 16:18 UTC+8

法國AI初創公司ZML在被譽為圖靈獎得主Yann LeCun的支援下，推出了一款免費軟體，旨在使多種開源大型語言模型能夠在包括Nvidia、AMD、Google TPU、Apple Metal和Intel Arc在內的多種晶片上高效執行。

ZML獲得Yann LeCun背書，釋出免費推理加速軟體
支援多種AI晶片，打破Nvidia壟斷格局

大語言模型的“是-否”偏差反映答案順序和措辭，而非道德判斷的轉變

2026-07-08 12:00 UTC+8

新研究透過交叉對稱化方法分離了LLM在道德困境中的“是-否”偏差成分，發現前沿模型的內在道德立場近乎格式不變，而克勞德模型存在顯著的順序偏差和詞彙拉動，GPT-5.5和Gemini則幾乎為零。該偏差隨擴充套件推理而縮小，且並非朝向拒絕，而是跟隨表面印刷。

LLM在二元道德判斷中表現出的“是-否”偏差可分解為順序偏差（傾向最後選項）和詞彙拉動（傾向“否”字），但內在道德尺度格式不變。
克勞德模型的偏差較大（故事平均-0.32至-0.86），GPT-5.5和Gemini接近零，擴充套件推理可縮小偏差。

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

2026-07-08 10:20 UTC+8

本期AINews涵蓋了2026年7月6日至7日的廣泛AI發展。亮點包括Lilian Weng對遞迴自我改進中套件工程深入分析、Meta推出Muse Image和預覽Muse Video（具有代理生成迴圈）、以及Anthropic、LangChain和Google在代理平臺上的重大產品更新。其他值得注意的內容：NVIDIA的Audex音訊模型、Cohere的阿拉伯語ASR、與Hugging Face和NVIDIA的機器人整合、Liquid AI的Antidoom方法減少推理迴圈失敗、以及Anthropic有爭議的J-space可解釋性研究。還涵蓋了代理和法律AI的基準測試、研究自動化和推理效率進展。

Lilian Weng的博文將遞迴自我改進重新聚焦於套件工程而非直接權重修改，強調套件工程對於指定目標和上下文至關重要。
Meta的Muse Image和Muse Video展示了具有規劃、工具使用和自我細化的代理生成，迅速登上公共排行榜高位。

Neuronpedia：一個用於AI可解釋性的開源平臺

2026-07-08 03:42 UTC+8

Neuronpedia是一個開源的可解釋性平臺，允許使用者探索、視覺化和操控AI模型的內部運作。該平臺支援多種功能，包括頭視覺化、自然語言自動編碼器、電路追蹤和特徵操控。它託管了超過50,000,000個潛在向量，並提供API和庫以便整合。由前蘋果工程師Johnny Lin建立，並得到Anthropic、Google DeepMind等多個組織的支援。

Neuronpedia是一個用於AI模型可解釋性的開源平臺，支援探索、視覺化和操控。
平臺包含HeadVis、自然語言自動編碼器、電路追蹤等工具，以及大量預訓練模型和SAE。

協作的力量：如何減少交通擁堵

2026-07-08 00:42 UTC+8

谷歌研究在10個美國城市進行的一項大規模真實世界研究表明，透過導航應用程式對少量行程（不到2%）進行輕微改道，可顯著減少交通擁堵和排放。該研究發表在《自然·城市》上，發現目標路段行駛速度中位數提高約2%，每個城市每年可能減少數千噸二氧化碳當量排放。

在10個美國城市進行的為期六個月的實驗表明，透過導航應用干預協調少量行程（不到2%）可改善整個網路的交通效率。
將行程從擁堵路段改道至類似替代路線，使目標路段行駛速度中位數提高約2%，並降低了燃料消耗。

使用Gemma 4進行零樣本本地文件解析：將PDF視為影像

2026-07-07 22:00 UTC+8

本文介紹一種將PDF頁面渲染為影像，並利用Google DeepMind的Gemma 4視覺語言模型進行本地文件解析的方法。該方法統一處理掃描和數字PDF，無需OCR或佈局解析器，並支援靈活的視覺令牌預算。

將PDF頁面渲染為高解析度影像，用視覺語言模型直接讀取，消除掃描版與數字版PDF的差異。
Gemma 4支援2D旋轉位置嵌入和逐層嵌入，增強文件理解能力，完全本地執行，無需API金鑰。

面向AI時代的可觀測性設計——應用、基礎設施、CI、LLM（第一部分）

2026-07-07 21:24 UTC+8

本文介紹了為AI時代重塑可觀測性堆疊的設計思路。作者將監控分為四個維度：應用（標準OTel堆疊）、基礎設施（GCP指標統一到Mimir）、CI（透過事後拉取日誌到Loki）、LLM（Gemini用Prometheus即時成本估計，Claude Code用BigQuery進行SQL聚合）。強調資料必須事先塑形才能被AI有效消費。

將監控分為四軸：應用、基礎設施、CI、LLM
CI日誌採用事後拉取而非推送，解耦執行與可觀測性

Show HN：我開發了一個通話中AI，最難的部分是讓它少說話

2026-07-07 19:35 UTC+8

Heyalo是一款即時AI銷售情報工具，能在通話過程中提供現場訊號和答案，並在結束通話後自動生成摘要、交易訊號和跟進草稿。它透過瀏覽器監聽通話，無需安裝或機器人加入，支援Zoom、Google Meet、Microsoft Teams等平臺，並提供免費版和專業版訂閱。

無機器人加入通話，完全透過瀏覽器執行
即時識別購買訊號、異議回應和風險標誌

我們構建了一個連我們自己都無法讀取的AI聊天工具——以下是證明我們沒有撒謊的方法

2026-07-07 18:10 UTC+8

Brianni是一款整合GPT、Claude和Gemini的AI聊天應用，其核心承諾是運營商無法讀取使用者的對話內容。該系統透過客戶端生成的加密金鑰、AWS Nitro Enclave硬體隔離和可驗證的遠端認證實現。使用者可以透過可重現構建驗證伺服器端執行的程式碼是否與公開原始碼一致，從而確保系統未被篡改。

聊天曆史使用使用者裝置生成的金鑰加密，伺服器僅儲存密文。
對話明文僅出現在AWS Nitro Enclave內，其程式碼測量值（PCR0）可透過可重現構建驗證。

擴充套件Gemini API中的託管代理：後臺任務、遠端MCP等

2026-07-07 16:54 UTC+8

Google宣佈為Gemini API中的託管代理新增新功能，包括後臺執行、遠端MCP伺服器整合、自定義函式呼叫和互動間憑證重新整理，旨在幫助開發者構建可靠的生產級代理。

支援後臺執行，允許非同步執行長時間任務並輪詢狀態。
可直接連線遠端MCP伺服器，無需自定義中介軟體。

面向低資源語言的AI語音技術棧選擇：以亞塞拜然語為例

2026-07-07 13:31 UTC+8

本文探討了為低資源語言（如亞塞拜然語）構建即時語音AI的挑戰，對比了端到端語音模型（OpenAI Realtime、Gemini Live）和級聯流水線（LiveKit、Pipecat、Vapi），分析了各種失敗模式、元件可用性，並提供了評估清單。

端到端語音模型在低資源語言上常因語言覆蓋、輸出質量或延遲而失敗。
級聯流水線提供靈活性，但需要自行處理延遲和尋找可用的語音識別/合成元件。

宣佈推出 AutomationBench-AA

2026-07-07 10:22 UTC+8

Artificial Analysis 與 Zapier 合作推出 AutomationBench-AA 排行榜，測試 AI 模型在真實 SaaS 工作流中的自動化能力。該基準包含 657 個任務，覆蓋多個業務領域。Claude Fable 5 以 48.6% 的得分領先，Gemini 3.5 Flash 在成本效益上表現突出。所有模型均出現防護欄違規，金融任務難度最高。

AutomationBench-AA 評估 657 個工作流自動化任務，模擬 40 個 SaaS 應用環境。
Claude Fable 5 (max) 以 48.6% 的客觀完成率領先。

Meta測試Pocket：一款用於AI生成迷你遊戲的實驗性應用

2026-07-07 09:11 UTC+8

Meta正在測試一款名為Pocket的社交應用，使用者無需程式設計即可建立、分享和發現AI生成的迷你遊戲（稱為“gizmos”）。該應用目前處於Google Play的封閉測試階段，合作平臺包括Facebook、Instagram和WhatsApp的交叉推廣。

Pocket是Meta的新社交應用，專注於AI生成的迷你遊戲。
使用者透過自然語言描述就能建立遊戲，無需程式設計技能。

Speechify的Simba 3.2 API在Artificial Analysis語音競技場中位居榜首

2026-07-07 06:45 UTC+8

語音合成模型Simba 3.2在Artificial Analysis的語音競技場中以Elo評分1233排名第一。該排行榜基於盲測使用者投票，Gemini 3.1 Flash TTS和Sonic 3.5緊隨其後。文章還提到價效比高的開源模型及分類篩選功能。

Simba 3.2以Elo 1233分位列語音合成模型榜首
排名基於盲測使用者投票，確保公正性

XGBoost擊敗LLM：在烏克蘭戰爭Telegram資料中識別平民傷害帖子

2026-07-07 04:28 UTC+8

Bellingcat開發了一種基於XGBoost的機器學習模型，用於從Telegram海量帖子中高效篩選出涉及平民傷害的內容。與傳統方法相比，該模型將搜尋時間大幅縮短，且效能優於Gemma、Gemini等大型語言模型。研究團隊透過特徵工程、關鍵詞分析和語義相似度計算，成功將人工核查的重點從搜尋轉向驗證。該開源方法為衝突地區平民傷害監測提供了可複用的技術框架。

Bellingcat利用XGBoost模型從Telegram資料中識別平民傷害事件，效率遠超人工篩選
模型透過特徵工程（關鍵詞、情感反應、語義相似度）和BERT嵌入提升準確率

Opper AI：歐洲AI閘道器，為智慧體而生

2026-07-07 00:51 UTC+8

Opper AI 是一個歐洲AI閘道器，提供統一的API介面，可訪問300多個模型，其中約一半的推理提供商位於歐盟。該平臺支援OpenAI、Anthropic和Google SDK的即插即用，內建資料駐留、審計跟蹤和PII控制，並具有智慧體原生支援，可無縫整合到Claude Code或Cursor中。

統一API訪問300多個模型，歐盟資料駐留預設開啟
相容OpenAI、Anthropic和Google SDK，只需更改基礎URL

AI資料中心

2026-07-06 21:42 UTC+8

Epoch AI的獨立資料庫覆蓋全球67個大型AI資料中心，透過衛星影像、許可證等公開資料追蹤其建設時間線。最大的設施是SpaceXAI在孟菲斯的Colossus 2，IT功率達946 MW，計算能力相當於111.2萬塊H100 GPU。美國集中了大部分資料中心，尤其在得克薩斯、俄亥俄等州。總IT功率容量達10.8 GW，加上冷卻等基礎設施後總設施功率達14 GW，超過紐約市峰值需求。硬體以NVIDIA H100、H200、B200 GPU為主，Google和Amazon也使用自研晶片。

Epoch AI資料庫收錄67個AI資料中心，最大的是SpaceXAI的Colossus 2。
美國擁有最多大型AI資料中心，集中在得克薩斯、俄亥俄等州。

API速查表：藉助Gemini和Kilo Code快速發現端點

2026-07-06 18:47 UTC+8

本文介紹如何利用AI助手（如Gemini和Kilo Code）快速找到API端點、引數及是否需要金鑰。透過CoinGecko API獲取VALR交易所BTC價格的示例，展示了免費和Pro級別的curl命令。作者強調AI可替代大量文件查閱，並提醒使用環境變數保護API金鑰。

AI工具（Gemini、Kilo Code）能快速識別API端點和引數。
示例：使用CoinGecko API獲取VALR交易所的BTC ZAR價格。

現代視覺語言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

2026-07-06 13:14 UTC+8

現代視覺語言模型（VLM）能夠同時理解影像和語言，超越了CLIP和BLIP等早期模型。本文詳細介紹了GPT-4o、Gemini、Claude Vision和Qwen-VL的工作方式、關鍵差異、優勢與侷限性，並展示了它們在教育、醫療、自動化等領域的實際應用。

現代VLM可分析影像、文件、圖表並回答視覺問題，支援多模態對話。
GPT-4o在即時多模態互動方面表現突出，支援文本、影像、音訊和影片。

GCP推出代理型AI的邊界防護新功能

2026-07-05 23:29 UTC+8

Google Cloud宣佈為VPC Service Controls新增面向代理型AI工作負載的能力，包括基於代理身份的定向規則、基於MCP屬性的細粒度訪問控制，以及與Gemini Enterprise Agent Platform的原生整合。這些功能在網路層面建立邊界，防止被攻陷的AI代理洩露資料，應對OWASP Top 10 LLM威脅。

VPC Service Controls現在支援代理身份和主體集合，實現最小許可權訪問。
基於MCP屬性（如工具名稱和方法）的精細化訪問控制。

令人惱火的谷歌廣告：開國元勳竟用AI起草《獨立宣言》

2026-07-05 22:23 UTC+8

谷歌新廣告中，美國開國元勳們使用Google Workspace和Gemini AI協作起草《獨立宣言》，場景滑稽且不合時宜，引發歷史學家和觀眾的批評，認為廣告歪曲了歷史，也無法體現AI的實際價值。

谷歌廣告模擬開國元勳用AI工具起草《獨立宣言》，包括Gemini建議會議時間和編輯功能。
廣告中尷尬的橋段如詢問是否給英王喬治三世編輯許可權，被認為荒謬。

我們可以討論AI倫理，但似乎無法改變方向 | 讀者來信

2026-07-04 01:00 UTC+8

《衛報》對Google DeepMind哲學家的報道令人鼓舞，但讀者擔憂AI的發展方向可能已由商業和地緣政治利益決定，而非社會共識。

《衛報》對Google DeepMind哲學家的報道顯示AI建設者重視倫理責任。
但讀者擔憂，AI的發展方向可能已被商業和地緣政治利益所決定。

Plasma Wiki：為AI智慧體設計的命令列Wiki管理工具

2026-07-04 00:34 UTC+8

Plasma Wiki是一個命令列工具，用於維護由AI智慧體編輯的Markdown Wiki。它遵循LLM Wiki模式和Google的開放知識格式，自動生成索引和交叉連結，並處理並行編輯衝突。支援透過pip安裝，可與Claude Code和Codex整合。

基於Markdown的Wiki，透過_index.md檔案索引，支援人類和AI共同編輯
提供init、lint、update、map、search、read等CLI命令

Show HN：Imagent – 智慧體驅動的影像/影片/語音生成

2026-07-03 11:31 UTC+8

Imagent是一個將影像、影片和語音生成能力整合到AI代理工作流中的開源工具。它提供統一的CLI介面，支援多個AI提供商（如OpenAI、Google、ElevenLabs等），並管理生成的資產庫，方便複用。

Imagent將生成能力作為代理的原生技能，無需額外整合。
支援多個提供商和模型，透過統一介面切換。

Interfaze 釋出 diffusion-gemma-asr-small：基於 DiffusionGemma 並行去噪解碼器的開源擴散語音識別模型，支援六種語言

2026-07-03 11:24 UTC+8

Interfaze 開源了 diffusion-gemma-asr-small，一個多語言語音識別模型，採用擴散解碼器而非自迴歸解碼器。該模型透過一個約 42M 引數的介面卡將音訊輸入到 Google 的凍結 DiffusionGemma 模型中，單個介面卡即可處理六種語言。轉錄成本由去噪步數決定，而非轉錄長度。在 LibriSpeech 測試集上詞錯誤率為 6.6%，領先其他擴散 ASR 模型。

首個開源的多語言擴散 ASR 模型，基於 DiffusionGemma 的並行去噪解碼器。
僅需一個約 42M 引數的介面卡即可處理六種語言（英語、德語、法語、西班牙語、印地語、普通話）。

RAG-Anything 教程：在 Colab 中構建文本、表格、公式和影像的多模態檢索管道

2026-07-03 05:38 UTC+8

本教程詳細介紹瞭如何在 Google Colab 中使用 RAG-Anything 構建一個支援文本、表格、公式和影像的多模態檢索管道。從環境配置、OpenAI API 金鑰安全輸入開始，到生成合成多模態報告、構建 content_list、插入檢索系統，最後測試多種檢索模式（naive、local、global、hybrid）。全面演示了 RAG-Anything 處理多模態文件的能力。

逐步指導在 Colab 中安裝和配置 RAG-Anything 及其依賴項。
建立包含文本、表格、圖表和 PDF 的合成多模態報告，用於測試。