Google

来源分布

Hacker News AI30
MarkTechPost4
arXiv Computational Linguistics2
Google Research Blog2
Product Hunt AI2
Analytics Vidhya1
Google AI Blog1
IEEE Spectrum AI1

主题分布

Agent32
研究22
政策15
模型13
芯片8
创业融资6
机器人3
工具2

日期线

2026-07-0711
2026-07-089
2026-07-107
2026-07-096
2026-07-115
2026-07-033
2026-07-063
2026-07-042

最新动态

Show HN: Inkfold – 跨多AI提供商的共享内存工作空间

2026-07-12 15:38 UTC+8

Inkfold 是一个专为多 AI 订阅用户设计的平台，可在 ChatGPT、Claude、Gemini、Grok 等工具间共享记忆和上下文，避免重复解释。它提供智能、私密或隐身三种保留模式，支持订阅或按需付费。适用于个人、团队和组织，提供免费和付费方案。

跨多个AI提供商共享记忆和上下文
支持智能、私密或隐身三种保留模式

研究发现AI小说因“愚蠢且糟糕”而易于检测

2026-07-12 02:53 UTC+8

马里兰大学与Google DeepMind的研究表明，AI生成的小说在叙事结构上存在明显缺陷，如过度解释主题、缺乏支线情节和生硬的说教，使其易于被检测。研究人员开发了StoryScope检测器，通过分析叙事特征来区分人机写作，并测试了多个AI模型。研究使用了争议性的Books3数据集，但未公开发布。

AI小说倾向于过度解释主题，77%的AI故事会明确说明寓意，而人类只有52%。
AI模型各有缺陷：GPT滥用梦境序列，Gemini偏好外部描述，Claude事件发展平淡。

免费AI可见性审计工具与代理

2026-07-11 23:59 UTC+8

这个免费工具可检查ChatGPT、Gemini、Claude、Perplexity、Grok和Google AI能否抓取、理解、验证和引用你的网站。报告涵盖全面站点抓取、品牌实体档案、声明级证据、AI意图覆盖、技术可抓取性、结构化数据、信任信号、竞争对手差距以及执行路线图，并附有电商、AI SaaS和B2B服务的案例。

免费审计工具评估AI系统对网站的可见性。
报告覆盖12个维度，包括技术、内容和信任信号。

2026年中AI模型分级

2026-07-11 23:43 UTC+8

作者从个人编码和审计经验出发，对2026年中的主流AI模型进行非正式分级，涵盖Anthropic Fable、OpenAI Sol、Mistral、Gemini和DeepSeek等模型，并融入美国出口管制和欧洲视角的评论。

Fable（Anthropic）被评为B级，虽然流畅但不可靠，常隐藏错误。
Sol（OpenAI）被评为S级，在低级代码和测试方面表现出色，值得信赖。

Show HN: 用于Google Chat的AI助手，翻译任意文件并保留布局

2026-07-11 20:00 UTC+8

AnyFile Translator 是一款AI翻译助手，可在Google Chat中直接翻译文件、网页链接和文本，保留原始布局和格式，支持超过100种语言。它还具备AI写作功能，可生成并翻译内容。适合国际团队和全球客户使用。

翻译PDF、Word、PPT等文件并保留布局
支持100多种语言，可直接在聊天中使用

Show HN：使用AI实时创建逼真的团体照片

2026-07-11 17:48 UTC+8

Pixailer 是一款AI工具，可让用户上传个人照片并描述场景，在几秒钟内生成包含最多8人的高质量团体照片。它提供多种AI引擎（Google Gemini和OpenAI GPT-Image），支持多种语言提示，并有灵活的付费方案。隐私方面，上传的照片不会用于训练模型，并在生成后自动删除。

上传清晰照片并描述场景，AI在10秒内生成团体照
支持最多8人，可选Express（快速）或Studio（高保真）引擎

哪种“AI科学家”适合你的实验室？一份困惑者指南

2026-07-11 07:58 UTC+8

本文探讨了多种专为科学研究设计的AI工具，如Anthropic的Claude Science、Google DeepMind的Co-Scientist和开源平台Biomni。这些工具能加速基因组分析、假设生成和实验设计等任务。科学家分享了使用经验，并建议研究人员多尝试不同工具，从小任务开始验证输出，同时保持谨慎。

Anthropic发布Claude Science平台，专注于生物学研究。
Google DeepMind的Co-Scientist通过挖掘文献提出科学假设。

让你“成为”而非“做事”的AI

2026-07-10 23:55 UTC+8

本文探讨了当前AI工具仅注重完成任务（DO），却忽略了帮助用户理解自身工作模式、实现自我提升（BE）的缺失。作者通过个人16天的活动追踪，揭示了诸如固定时间点注意力崩溃、最佳工作窗口等行为模式，并介绍了构建中的自我认知AI栈——包括Dayflow、Gemini Flash Lite、Clawdbot和self.md——旨在提供行为洞察而非仅仅任务执行。

当前AI（如ChatGPT、Claude）只记录用户告诉它的事实，而不观察用户实际的工作模式。
作者通过16天自我追踪发现：每天工作两小时后注意力崩溃、11:00-12:30为最佳工作时段、频繁使用Telegram造成分心等模式。

谷歌推出SensorFM：基于一万亿分钟传感器数据预训练的可穿戴健康基础模型

2026-07-10 16:52 UTC+8

谷歌研究、谷歌DeepMind与大学合作者共同推出了SensorFM，这是一个基于超过1万亿分钟传感器数据（来自500万参与者）预训练的可穿戴健康基础模型。该模型采用ViT-1D掩码自编码器架构，在处理缺失数据方面具有创新性。在35项任务中，冻结嵌入加PCA-50线性探测器的表现优于34项特征工程基线。此外，还介绍了自动化超参数搜索的“智能体课堂”以及用于评估个人健康代理的临床医生评价。

SensorFM在500万参与者、超过1万亿分钟的传感器数据上预训练，覆盖100多个国家和20多种可穿戴设备。
通过自适应继承掩码（AIM）处理缺失数据，在随机插补任务上比最佳基线提升74.8%。

全双工语音代理中LALM音频裁判的可靠性评估

2026-07-10 12:00 UTC+8

一篇新研究评估了Gemini模型作为音频裁判在全双工语音代理对话中的可靠性。基于209个立体声会话，在8个维度上与人类评分者进行对比，结果显示Gemini 2.5 Flash在多数维度上与人类高度一致，且成本仅为人类评分的约1/100。研究还指出模型切换需重新校准，并提出了部署时需注意的四个方面。

Gemini 2.5 Flash在5/8维度上的LALM-人类Spearman相关系数与人类之间差异不超过0.07
LALM在6/8维度上60-92%的会话中与三名人类评分者的均值相差不超过1分

使用 AlphaEvolve 解决更困难的问题，现已面向所有 Google Cloud 用户开放

2026-07-10 05:00 UTC+8

Google 宣布其 AI 驱动的代码优化与发现代理 AlphaEvolve 在 Gemini Enterprise Agent Platform 上正式公开发布。该工具帮助企业和研究人员解决物流、半导体、基因组学等领域的复杂算法优化问题。多行业客户已取得显著成效。

AlphaEvolve 是 Google 基于 Gemini 构建的代码优化与发现代理，现已全面上市。
通过定义、测量、优化、应用四步流程，系统性地探索搜索空间以找到最优解。

谷歌意外提前弃用Gemini 2.5模型

2026-07-10 03:53 UTC+8

谷歌在没有事先警告的情况下，比预定关闭日期更早地弃用了Gemini 2.5 Flash模型，引发了开发者社区的困惑。

谷歌意外提前弃用Gemini 2.5 Flash模型
弃用时间早于官方公布的关闭日期

Cloud Run 沙箱：为 AI 代理提供轻量级隔离

2026-07-10 01:41 UTC+8

Google Cloud 宣布 Cloud Run 沙箱公开预览，这是一种原生、安全的超快运行时环境，专为执行不可信代码和代理工作负载而设计，可在毫秒内启动。它支持 LLM 代码解释器、无头浏览器和用户提交代码执行等用例，并通过凭据隔离、默认拒绝网络和只读文件系统覆盖提供零信任安全。

Cloud Run 沙箱是原生、安全的运行时环境，可在毫秒内启动。
支持 LLM 代码解释器、无头浏览器和用户提交代码执行。

ChatGPT Work

2026-07-10 01:16 UTC+8

ChatGPT Work 是一款智能助手，可跨应用和文件执行任务，支持数小时持续工作，并能将目标转化为完成的工作。它集成了 Slack、Google Drive 等工具，支持桌面和移动端协作，还具备 Codex 编码功能。

可在手机、桌面和网页间无缝切换任务
集成 Slack、Gmail、Salesforce 等工具

Show HN：QX Labs – 构建跨工具工作的代理、流程和网格

2026-07-09 19:52 UTC+8

QX Labs 是一个AI代理平台，允许用户在几分钟内构建代理，并将其连接到Slack、电子邮件、WhatsApp和电子表格等工具。平台提供三种工作方式：独立代理、大规模并行网格和自动化流程，支持与超过1000个应用集成，并允许在OpenAI、Anthropic、Gemini等模型间自由切换。

QX Labs 使团队能够快速构建AI代理并连接到常用工具。
网格功能可同时运行数千个代理，用于大规模研究和外联。

WhisperShortcut：macOS上的AI语音层（自带API密钥，支持离线Whisper）

2026-07-09 19:49 UTC+8

WhisperShortcut 是一款开源的 macOS 应用，让你通过快捷键在任何应用中用语音进行转录、编辑、朗读、截图和聊天。它支持 Google Gemini、OpenAI GPT、xAI Grok 等云服务，也支持完全离线的本地 Whisper 模型，无需账户或订阅。

通过 ⌘1 到 ⌘4 及 ⌥Space 等快捷键快速调用语音、朗读、截图和聊天功能。
支持 Google Gemini、OpenAI GPT、xAI Grok 等多种 AI 模型，可离线运行本地 Whisper。

SensorFM：面向可穿戴健康数据的通用智能与接口

2026-07-09 17:56 UTC+8

谷歌研究院推出 SensorFM，这是一个基于超过一万亿分钟传感器数据和五百万人训练的可穿戴健康基础模型。它通过自监督学习掌握人类生理的通用表示，可迁移至35项健康任务，支持标签高效适配，并能作为个人健康代理的基石。

SensorFM 使用来自五百万人的超过一万亿分钟可穿戴传感器数据进行预训练。
采用缺失感知掩蔽的自监督学习方法，有效处理真实世界数据中的缺失片段。

德国极右翼AfD开发生成'愤怒诱饵'的AI软件

2026-07-09 13:17 UTC+8

据调查媒体Correctiv的卧底调查，德国极右翼政党AfD开发了一套名为Alternita的AI软件套件，利用Google Gemini、OpenAI的ChatGPT和Anthropic的Claude等主流AI引擎，自动生成煽动性社交媒体帖子，旨在控制党内信息传播并维持其网络优势。

AfD利用AI技术生成'愤怒诱饵'内容，以引发情绪反应并扩大影响力。
软件可自动抓取极右翼新闻源，并根据用户指令生成适配各大平台的帖子。

Google AI Studio 在构建模式中新增“从 GitHub 导入”功能，将现有仓库转化为可编辑、可部署的应用

2026-07-09 02:41 UTC+8

Google AI Studio 在构建模式中推出“从 GitHub 导入”功能，可将现有 GitHub 仓库转化为与运行时兼容的格式，并支持在 AI Studio 中迭代、部署等操作。该功能补全了构建模式中缺失的入站路径，但私有仓库支持和同步行为等细节尚未公布。

AI Studio 构建模式新增“从 GitHub 导入”功能，可直接导入现有仓库。
导入后仓库被自动转换为运行时兼容格式，可在 AI Studio 中继续迭代并部署。

JetBrains下一步不是更好的IDE——而是针对Claude Code、Codex和Gemini CLI的治理层

2026-07-09 01:44 UTC+8

JetBrains推出了AI for Teams and Organizations，在现有AI工具之上增加共享上下文、可重用的代理流程、组织范围的治理和成本控制，无需团队统一使用单一供应商。

JetBrains发布AI for Teams and Organizations，在任何AI工具之上增加治理层。
功能包括自动化、JetBrains Context（跨仓库知识）、JetBrains Central（管理控制台）和Central CLI（跟踪CLI代理）。

Gemini失败后，我在Gmail收件箱试用了Claude Cowork——它为我节省了数小时的工作

2026-07-08 23:09 UTC+8

科技记者David Gewirtz在Gmail中尝试使用Gemini进行邮件筛选未果后，转而使用Anthropic的Claude Cowork。Cowork成功识别出关于Fable 5限制的相关媒体推介和引文，并确保了发布许可，将原本需要数小时的繁琐工作缩短至几分钟的验证时间，展示了连接式AI助手应对邮件过载的潜力。

Gmail的Gemini在处理复杂邮件搜索时失败，无法理解上下文。
Claude Cowork在几分钟内识别出12个相关媒体推介，并从中筛选出8个可用的引文来源。

Start with A —— 开源、自托管的投资研究平台（BYOK AI）

2026-07-08 22:50 UTC+8

Start with A 是一个开源的投资研究平台，整合了研究、投资组合监控和交易日志，形成纪律严明的投资工作流。支持自托管，使用自己的AI API密钥（BYOK），兼容Gemini、OpenAI和Anthropic。

开源、自托管，用户拥有数据完全控制权。
三大模块：研究、投资组合、日志，形成闭环流程。

The Sequence AI本周第891期：提示电子表格——深入剖析Google TabFM表格AI

2026-07-08 19:02 UTC+8

谷歌研究团队发布了TabFM，一种用于表格分类和回归的基础模型，它能够将整个表格数据作为一个提示，通过一次前向传播产生预测，无需训练、调参或特征工程，实现了表格数据的上下文学习。

TabFM是谷歌研究团队新发布的表格基础模型，支持分类和回归任务。
该模型通过单一前向传播即可对未见过的表格进行预测，无需训练或特征工程。

AI模型“过度思考”问题——这是一种安全风险

2026-07-08 19:00 UTC+8

研究表明，具备推理能力的大语言模型容易因逻辑不一致的提示而陷入“过度思考”，导致输出长度激增，可能被利用发动拒绝服务攻击。浙江大学与阿里巴巴的研究人员开发了一种进化算法，能够生成恶意提示，使模型输出长度最高增加26倍，影响包括DeepSeek-R1、Qwen3-Thinking、GPT-o3和Gemini 2.5 Flash在内的主流推理模型。

研究人员展示了一种利用AI推理模型“过度思考”漏洞的新型攻击，导致计算量急剧增加。
通过进化算法破坏提示的逻辑结构，可使模型输出长度最高达到正常情况的26倍。

ZML发布免费产品，加速跨AI芯片推理

2026-07-08 16:18 UTC+8

法国AI初创公司ZML在被誉为图灵奖得主Yann LeCun的支持下，推出了一款免费软件，旨在使多种开源大型语言模型能够在包括Nvidia、AMD、Google TPU、Apple Metal和Intel Arc在内的多种芯片上高效运行。

ZML获得Yann LeCun背书，发布免费推理加速软件
支持多种AI芯片，打破Nvidia垄断格局

大语言模型的“是-否”偏差反映答案顺序和措辞，而非道德判断的转变

2026-07-08 12:00 UTC+8

新研究通过交叉对称化方法分离了LLM在道德困境中的“是-否”偏差成分，发现前沿模型的内在道德立场近乎格式不变，而克劳德模型存在显著的顺序偏差和词汇拉动，GPT-5.5和Gemini则几乎为零。该偏差随扩展推理而缩小，且并非朝向拒绝，而是跟随表面印刷。

LLM在二元道德判断中表现出的“是-否”偏差可分解为顺序偏差（倾向最后选项）和词汇拉动（倾向“否”字），但内在道德尺度格式不变。
克劳德模型的偏差较大（故事平均-0.32至-0.86），GPT-5.5和Gemini接近零，扩展推理可缩小偏差。

[AINews] Lilian Weng总结35篇关于RSI的套件工程论文

2026-07-08 10:20 UTC+8

本期AINews涵盖了2026年7月6日至7日的广泛AI发展。亮点包括Lilian Weng对递归自我改进中套件工程深入分析、Meta推出Muse Image和预览Muse Video（具有代理生成循环）、以及Anthropic、LangChain和Google在代理平台上的重大产品更新。其他值得注意的内容：NVIDIA的Audex音频模型、Cohere的阿拉伯语ASR、与Hugging Face和NVIDIA的机器人集成、Liquid AI的Antidoom方法减少推理循环失败、以及Anthropic有争议的J-space可解释性研究。还涵盖了代理和法律AI的基准测试、研究自动化和推理效率进展。

Lilian Weng的博文将递归自我改进重新聚焦于套件工程而非直接权重修改，强调套件工程对于指定目标和上下文至关重要。
Meta的Muse Image和Muse Video展示了具有规划、工具使用和自我细化的代理生成，迅速登上公共排行榜高位。

Neuronpedia：一个用于AI可解释性的开源平台

2026-07-08 03:42 UTC+8

Neuronpedia是一个开源的可解释性平台，允许用户探索、可视化和操控AI模型的内部运作。该平台支持多种功能，包括头可视化、自然语言自动编码器、电路追踪和特征操控。它托管了超过50,000,000个潜在向量，并提供API和库以便集成。由前苹果工程师Johnny Lin创建，并得到Anthropic、Google DeepMind等多个组织的支持。

Neuronpedia是一个用于AI模型可解释性的开源平台，支持探索、可视化和操控。
平台包含HeadVis、自然语言自动编码器、电路追踪等工具，以及大量预训练模型和SAE。

协作的力量：如何减少交通拥堵

2026-07-08 00:42 UTC+8

谷歌研究在10个美国城市进行的一项大规模真实世界研究表明，通过导航应用程序对少量行程（不到2%）进行轻微改道，可显著减少交通拥堵和排放。该研究发表在《自然·城市》上，发现目标路段行驶速度中位数提高约2%，每个城市每年可能减少数千吨二氧化碳当量排放。

在10个美国城市进行的为期六个月的实验表明，通过导航应用干预协调少量行程（不到2%）可改善整个网络的交通效率。
将行程从拥堵路段改道至类似替代路线，使目标路段行驶速度中位数提高约2%，并降低了燃料消耗。

使用Gemma 4进行零样本本地文档解析：将PDF视为图像

2026-07-07 22:00 UTC+8

本文介绍一种将PDF页面渲染为图像，并利用Google DeepMind的Gemma 4视觉语言模型进行本地文档解析的方法。该方法统一处理扫描和数字PDF，无需OCR或布局解析器，并支持灵活的视觉令牌预算。

将PDF页面渲染为高分辨率图像，用视觉语言模型直接读取，消除扫描版与数字版PDF的差异。
Gemma 4支持2D旋转位置嵌入和逐层嵌入，增强文档理解能力，完全本地运行，无需API密钥。

面向AI时代的可观测性设计——应用、基础设施、CI、LLM（第一部分）

2026-07-07 21:24 UTC+8

本文介绍了为AI时代重塑可观测性堆栈的设计思路。作者将监控分为四个维度：应用（标准OTel堆栈）、基础设施（GCP指标统一到Mimir）、CI（通过事后拉取日志到Loki）、LLM（Gemini用Prometheus实时成本估计，Claude Code用BigQuery进行SQL聚合）。强调数据必须事先塑形才能被AI有效消费。

将监控分为四轴：应用、基础设施、CI、LLM
CI日志采用事后拉取而非推送，解耦执行与可观测性

Show HN：我开发了一个通话中AI，最难的部分是让它少说话

2026-07-07 19:35 UTC+8

Heyalo是一款实时AI销售情报工具，能在通话过程中提供现场信号和答案，并在挂断后自动生成摘要、交易信号和跟进草稿。它通过浏览器监听通话，无需安装或机器人加入，支持Zoom、Google Meet、Microsoft Teams等平台，并提供免费版和专业版订阅。

无机器人加入通话，完全通过浏览器运行
实时识别购买信号、异议回应和风险标志

我们构建了一个连我们自己都无法读取的AI聊天工具——以下是证明我们没有撒谎的方法

2026-07-07 18:10 UTC+8

Brianni是一款集成GPT、Claude和Gemini的AI聊天应用，其核心承诺是运营商无法读取用户的对话内容。该系统通过客户端生成的加密密钥、AWS Nitro Enclave硬件隔离和可验证的远程认证实现。用户可以通过可重现构建验证服务器端运行的代码是否与公开源码一致，从而确保系统未被篡改。

聊天历史使用用户设备生成的密钥加密，服务器仅存储密文。
对话明文仅出现在AWS Nitro Enclave内，其代码测量值（PCR0）可通过可重现构建验证。

扩展Gemini API中的托管代理：后台任务、远程MCP等

2026-07-07 16:54 UTC+8

Google宣布为Gemini API中的托管代理添加新功能，包括后台执行、远程MCP服务器集成、自定义函数调用和交互间凭证刷新，旨在帮助开发者构建可靠的生产级代理。

支持后台执行，允许异步运行长时间任务并轮询状态。
可直接连接远程MCP服务器，无需自定义中间件。

面向低资源语言的AI语音技术栈选择：以阿塞拜疆语为例

2026-07-07 13:31 UTC+8

本文探讨了为低资源语言（如阿塞拜疆语）构建实时语音AI的挑战，对比了端到端语音模型（OpenAI Realtime、Gemini Live）和级联流水线（LiveKit、Pipecat、Vapi），分析了各种失败模式、组件可用性，并提供了评估清单。

端到端语音模型在低资源语言上常因语言覆盖、输出质量或延迟而失败。
级联流水线提供灵活性，但需要自行处理延迟和寻找可用的语音识别/合成组件。

宣布推出 AutomationBench-AA

2026-07-07 10:22 UTC+8

Artificial Analysis 与 Zapier 合作推出 AutomationBench-AA 排行榜，测试 AI 模型在真实 SaaS 工作流中的自动化能力。该基准包含 657 个任务，覆盖多个业务领域。Claude Fable 5 以 48.6% 的得分领先，Gemini 3.5 Flash 在成本效益上表现突出。所有模型均出现防护栏违规，金融任务难度最高。

AutomationBench-AA 评估 657 个工作流自动化任务，模拟 40 个 SaaS 应用环境。
Claude Fable 5 (max) 以 48.6% 的客观完成率领先。

Meta测试Pocket：一款用于AI生成迷你游戏的实验性应用

2026-07-07 09:11 UTC+8

Meta正在测试一款名为Pocket的社交应用，用户无需编程即可创建、分享和发现AI生成的迷你游戏（称为“gizmos”）。该应用目前处于Google Play的封闭测试阶段，合作平台包括Facebook、Instagram和WhatsApp的交叉推广。

Pocket是Meta的新社交应用，专注于AI生成的迷你游戏。
用户通过自然语言描述就能创建游戏，无需编程技能。

Speechify的Simba 3.2 API在Artificial Analysis语音竞技场中位居榜首

2026-07-07 06:45 UTC+8

语音合成模型Simba 3.2在Artificial Analysis的语音竞技场中以Elo评分1233排名第一。该排行榜基于盲测用户投票，Gemini 3.1 Flash TTS和Sonic 3.5紧随其后。文章还提到性价比高的开源模型及分类筛选功能。

Simba 3.2以Elo 1233分位列语音合成模型榜首
排名基于盲测用户投票，确保公正性

XGBoost击败LLM：在乌克兰战争Telegram数据中识别平民伤害帖子

2026-07-07 04:28 UTC+8

Bellingcat开发了一种基于XGBoost的机器学习模型，用于从Telegram海量帖子中高效筛选出涉及平民伤害的内容。与传统方法相比，该模型将搜索时间大幅缩短，且性能优于Gemma、Gemini等大型语言模型。研究团队通过特征工程、关键词分析和语义相似度计算，成功将人工核查的重点从搜索转向验证。该开源方法为冲突地区平民伤害监测提供了可复用的技术框架。

Bellingcat利用XGBoost模型从Telegram数据中识别平民伤害事件，效率远超人工筛选
模型通过特征工程（关键词、情感反应、语义相似度）和BERT嵌入提升准确率

Opper AI：欧洲AI网关，为智能体而生

2026-07-07 00:51 UTC+8

Opper AI 是一个欧洲AI网关，提供统一的API接口，可访问300多个模型，其中约一半的推理提供商位于欧盟。该平台支持OpenAI、Anthropic和Google SDK的即插即用，内置数据驻留、审计跟踪和PII控制，并具有智能体原生支持，可无缝集成到Claude Code或Cursor中。

统一API访问300多个模型，欧盟数据驻留默认开启
兼容OpenAI、Anthropic和Google SDK，只需更改基础URL

AI数据中心

2026-07-06 21:42 UTC+8

Epoch AI的独立数据库覆盖全球67个大型AI数据中心，通过卫星图像、许可证等公开数据追踪其建设时间线。最大的设施是SpaceXAI在孟菲斯的Colossus 2，IT功率达946 MW，计算能力相当于111.2万块H100 GPU。美国集中了大部分数据中心，尤其在得克萨斯、俄亥俄等州。总IT功率容量达10.8 GW，加上冷却等基础设施后总设施功率达14 GW，超过纽约市峰值需求。硬件以NVIDIA H100、H200、B200 GPU为主，Google和Amazon也使用自研芯片。

Epoch AI数据库收录67个AI数据中心，最大的是SpaceXAI的Colossus 2。
美国拥有最多大型AI数据中心，集中在得克萨斯、俄亥俄等州。

API速查表：借助Gemini和Kilo Code快速发现端点

2026-07-06 18:47 UTC+8

本文介绍如何利用AI助手（如Gemini和Kilo Code）快速找到API端点、参数及是否需要密钥。通过CoinGecko API获取VALR交易所BTC价格的示例，展示了免费和Pro级别的curl命令。作者强调AI可替代大量文档查阅，并提醒使用环境变量保护API密钥。

AI工具（Gemini、Kilo Code）能快速识别API端点和参数。
示例：使用CoinGecko API获取VALR交易所的BTC ZAR价格。

现代视觉语言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

2026-07-06 13:14 UTC+8

现代视觉语言模型（VLM）能够同时理解图像和语言，超越了CLIP和BLIP等早期模型。本文详细介绍了GPT-4o、Gemini、Claude Vision和Qwen-VL的工作方式、关键差异、优势与局限性，并展示了它们在教育、医疗、自动化等领域的实际应用。

现代VLM可分析图像、文档、图表并回答视觉问题，支持多模态对话。
GPT-4o在实时多模态交互方面表现突出，支持文本、图像、音频和视频。

GCP推出代理型AI的边界防护新功能

2026-07-05 23:29 UTC+8

Google Cloud宣布为VPC Service Controls新增面向代理型AI工作负载的能力，包括基于代理身份的定向规则、基于MCP属性的细粒度访问控制，以及与Gemini Enterprise Agent Platform的原生集成。这些功能在网络层面建立边界，防止被攻陷的AI代理泄露数据，应对OWASP Top 10 LLM威胁。

VPC Service Controls现在支持代理身份和主体集合，实现最小权限访问。
基于MCP属性（如工具名称和方法）的精细化访问控制。

令人恼火的谷歌广告：开国元勋竟用AI起草《独立宣言》

2026-07-05 22:23 UTC+8

谷歌新广告中，美国开国元勋们使用Google Workspace和Gemini AI协作起草《独立宣言》，场景滑稽且不合时宜，引发历史学家和观众的批评，认为广告歪曲了历史，也无法体现AI的实际价值。

谷歌广告模拟开国元勋用AI工具起草《独立宣言》，包括Gemini建议会议时间和编辑功能。
广告中尴尬的桥段如询问是否给英王乔治三世编辑权限，被认为荒谬。

我们可以讨论AI伦理，但似乎无法改变方向 | 读者来信

2026-07-04 01:00 UTC+8

《卫报》对Google DeepMind哲学家的报道令人鼓舞，但读者担忧AI的发展方向可能已由商业和地缘政治利益决定，而非社会共识。

《卫报》对Google DeepMind哲学家的报道显示AI建设者重视伦理责任。
但读者担忧，AI的发展方向可能已被商业和地缘政治利益所决定。

Plasma Wiki：为AI智能体设计的命令行Wiki管理工具

2026-07-04 00:34 UTC+8

Plasma Wiki是一个命令行工具，用于维护由AI智能体编辑的Markdown Wiki。它遵循LLM Wiki模式和Google的开放知识格式，自动生成索引和交叉链接，并处理并行编辑冲突。支持通过pip安装，可与Claude Code和Codex集成。

基于Markdown的Wiki，通过_index.md文件索引，支持人类和AI共同编辑
提供init、lint、update、map、search、read等CLI命令

Show HN：Imagent – 智能体驱动的图像/视频/语音生成

2026-07-03 11:31 UTC+8

Imagent是一个将图像、视频和语音生成能力集成到AI代理工作流中的开源工具。它提供统一的CLI接口，支持多个AI提供商（如OpenAI、Google、ElevenLabs等），并管理生成的资产库，方便复用。

Imagent将生成能力作为代理的原生技能，无需额外集成。
支持多个提供商和模型，通过统一接口切换。

Interfaze 发布 diffusion-gemma-asr-small：基于 DiffusionGemma 并行去噪解码器的开源扩散语音识别模型，支持六种语言

2026-07-03 11:24 UTC+8

Interfaze 开源了 diffusion-gemma-asr-small，一个多语言语音识别模型，采用扩散解码器而非自回归解码器。该模型通过一个约 42M 参数的适配器将音频输入到 Google 的冻结 DiffusionGemma 模型中，单个适配器即可处理六种语言。转录成本由去噪步数决定，而非转录长度。在 LibriSpeech 测试集上词错误率为 6.6%，领先其他扩散 ASR 模型。

首个开源的多语言扩散 ASR 模型，基于 DiffusionGemma 的并行去噪解码器。
仅需一个约 42M 参数的适配器即可处理六种语言（英语、德语、法语、西班牙语、印地语、普通话）。

RAG-Anything 教程：在 Colab 中构建文本、表格、公式和图像的多模态检索管道

2026-07-03 05:38 UTC+8

本教程详细介绍了如何在 Google Colab 中使用 RAG-Anything 构建一个支持文本、表格、公式和图像的多模态检索管道。从环境配置、OpenAI API 密钥安全输入开始，到生成合成多模态报告、构建 content_list、插入检索系统，最后测试多种检索模式（naive、local、global、hybrid）。全面演示了 RAG-Anything 处理多模态文档的能力。

逐步指导在 Colab 中安装和配置 RAG-Anything 及其依赖项。
创建包含文本、表格、图表和 PDF 的合成多模态报告，用于测试。