AI News HubLIVE

今日必读

模型

谷歌DeepMind的Gemma 4 12B将多模态AI压缩到仅需16GB RAM的笔记本电脑上

谷歌DeepMind发布开源模型Gemma 4 12B,原生处理文本、图像和音频,可在仅16GB RAM的笔记本电脑上运行。其性能几乎与两倍大小的26B模型相当,并采用Apache 2.0许可证,可用于商业用途。

  • Gemma 4 12B是开源多模态模型,支持文本、图像和音频。
  • 仅需16GB RAM即可在笔记本电脑上运行。
站内正文

Google DeepMind 发布 Gemma 4 12B:无需编码器的多模态模型,原生音频支持,可在 16GB 笔记本电脑上运行

Google DeepMind 发布 Gemma 4 12B,这是一款 120 亿参数的密集多模态模型,采用无编码器设计,直接将视觉和音频输入 LLM 主干。该模型可在 16GB RAM 的消费级笔记本电脑上本地运行,并采用 Apache 2.0 许可证。它原生支持文本、图像、音频和视频,是首个具备原生音频功能的中型 Gemma 模型。

  • 无编码器架构:取消独立的视觉(5.5亿参数)和音频(3亿参数)编码器,使用轻量级视觉嵌入器(3500万参数)和直接音频波形投影。
  • 性能接近 26B MoE 模型,但内存占用不到一半,可在 16GB 设备上运行。
站内正文

Ideogram 4.0 以开源权重模型发布,原生支持2K分辨率,文本渲染能力提升

Ideogram 发布4.0版本文本生成图像模型,作为开源权重模型,提供原生2K分辨率、边界框控制和改进的文本渲染。在DesignArena排行榜中,该模型在所有开源模型中排名第一;只有OpenAI和Google的闭源系统得分更高。商业使用需要付费许可。

  • 开源权重模型,原生支持2K分辨率
  • 支持边界框控制,文本渲染增强
站内正文
工具

谷歌允许网站退出AI搜索结果,但大多数网站别无选择

谷歌首次在Search Console中为网站运营商提供退出AI搜索功能(如AI概览和AI模式)的开关,这些功能已覆盖超过35亿月活跃用户。新性能报告单独展示展示次数。此举是由英国竞争与市场管理局(CMA)推动的,该机构认为网站运营商处于严重劣势。

  • 谷歌在Search Console中新增退出AI搜索功能的开关,适用于AI概览和AI模式。
  • 这些AI搜索功能已覆盖超过35亿月活跃用户。
站内正文

英国工党议员起诉埃隆·马斯克的AI公司,称其生成虚假色情图片

英国工党议员杰斯·阿萨托对埃隆·马斯克的AI公司提起诉讼,指控其Grok工具被用来生成她的虚假性化图片。这些图片在今年早些时候大量出现在X平台上,阿萨托称看到自己被AI以不雅形象呈现感到“被侵犯”。

  • 工党议员杰斯·阿萨托起诉马斯克的AI公司,因Grok工具生成其虚假性感图片。
  • 阿萨托此前曾批评此类未经同意的图片生成行为。
站内正文
Agent

如何使用iii通过Workers、Functions和Cron Triggers构建文档智能后端

本教程展示了如何使用iii引擎构建文档智能工作流,包括安装引擎、注册模块化函数、组合分析管道,并通过直接调用、HTTP端点、即发即弃执行和定时cron触发器复用相同逻辑。

  • 安装iii引擎和Python SDK,启动后台进程并连接worker。
  • 注册文本归一化、分词、情感分析、关键词提取等独立函数。
站内正文

我的团队应该使用多少人工智能?管理者框架

本文提出了“AI领结”框架,帮助管理者决定团队工作流中何时使用AI,避免过度依赖或完全回避的极端。框架包括五个阶段:研究探索、综合提炼、独立思考(无AI)、计划准备、执行实施。

  • 在探索阶段应大量使用AI来生成多种可能性。
  • 在思考阶段完全禁用AI,确保核心决策由人类做出。
站内正文

AI即计算

本文认为,人工智能(尤其是大语言模型)应被理解为一种计算形式,而非人造智能体。文章探讨了循环、组合性和代理框架在实现计算中的作用,引入了“Verplankalkül”作为非正式编程语言的概念,并分析了将计算结构整合到训练中的未来方向。

  • LLMs通过非正式语言规则执行计算,不仅仅是函数逼近。
  • 计算的力量源于无限循环,在AI中由代理框架提供。
站内正文

为何CPU在AI代理时代依然重要

尽管AI基础设施的讨论常聚焦于GPU和TPU,但CPU在AI从聊天机器人转向自主代理的过程中扮演着关键角色,作为“空中交通管制员”协调任务,并支持沙盒环境以确保安全。ARM和Google的专家解释了CPU在处理工具调用、内存管理和轻量级模型运行中的优势。

  • CPU在AI代理中充当协调工具调用和内存管理的核心角色。
  • Google的gVisor沙盒技术可快速启动多达300个沙盒/秒,保障代理运行安全。
站内正文

AI导致认知疲劳,如何高效利用而不耗费精力

研究表明,使用AI可能增加工作量而非减少,导致认知疲劳。专家建议聚焦工具、遵循准则和优化输出,以平衡效率与质量。

  • 使用AI可能导致更多任务而非减少。
  • 应谨慎选择工具并明确目的。
站内正文
其余更新(21 条)
Agent

随着AI变得更好,它揭示了一个空洞的承诺

本文批评了谷歌Gemini Spark等AI生产力工具,指出它们解决了科技公司自己制造的问题,而忽视了工资停滞、工作不安全感等系统性经济问题。作者认为,AI提升的生产力并未惠及工人,反而可能加剧不平等,且缺乏社会保障。

  • 谷歌Gemini AI代理Spark能访问个人信息,引发隐私担忧。
  • AI生产力工具旨在解决科技公司制造的工作与生活界限模糊问题。
站内正文

精益推理:将精益制造原则应用于人工智能

本文将精益制造原则应用于AI推理,识别了LLM推理中的七大浪费,并提出了即时上下文、标准化工作、节拍时间和提示缓存等核心原则,通过一个仓库分析代理的案例展示了13倍成本降低和3.3倍延迟改进。

  • AI工程中过度使用前沿模型、RAG上下文膨胀、顺序阻塞、输出缺陷等是常见的推理浪费。
  • 精益推理原则包括即时上下文、标准化工作、节拍时间预算和提示缓存。
站内正文

将AI集成到SaaS应用中的五个层次

本文提出了一个从简单SaaS到AI原生平台的实用框架,描述了五个层次的AI集成:从提供个人访问令牌和MCP服务器,到嵌入AI聊天窗口,再到对话历史、自定义UI生成,最终实现自主代理框架。作者分享了自己的实践经验,并强调了每个层次的关键考虑因素。

  • 第一层:通过MCP服务器暴露API端点,无需改动UI。
  • 第二层:在SaaS中嵌入AI聊天窗口,降低使用门槛。
站内正文

如何构建自定义代理脚手架

本文介绍了使用LangChain的create_agent和中间件构建自定义代理脚手架的方法。代理由模型和脚手架组成,脚手架负责将模型连接到真实世界。通过中间件,可以在代理循环的各个阶段插入自定义逻辑、工具、状态管理等,从而实现高度定制化的代理。

  • 代理 = 模型 + 脚手架,脚手架决定代理的实用性。
  • create_agent提供核心代理循环,中间件允许在循环各阶段定制。
站内正文

我用真实病历测试了微软Copilot Health——这是我的结论

微软Copilot Health预览版允许用户分享病历以获得个性化的AI健康建议。作者测试后发现结果好坏参半,存在技术故障,同时提及隐私保护措施,并警告不要依赖AI做出医疗决策。

  • 微软Copilot Health利用个人病历提供定制健康建议。
  • 隐私保护措施包括加密、不用于训练和医生监督。
站内正文

微软AI不再只是副驾驶,它想掌控方向盘

微软推出名为“Autopilot”的新型自主AI代理,首发代理“Scout”将全天候监控用户操作并自动执行任务,旨在简化工作流程。然而,该代理基于OpenClaw构建,存在安全隐患,且可能被恶意操纵。目前仅限部分客户预览,并需订阅GitHub Copilot。

  • 微软发布Autopilot代理类别,首个代理Scout可自主运行并持续监控用户活动。
  • Scout能自动安排会议、标记截止日期、识别风险,充当“工作保姆”。
站内正文

Meta追赶AI的幕后努力

Meta内部团队TBD在Wang的带领下,推行专注专有模型和初创文化,但面临公司裁员、员工抗议追踪软件等挑战。其AI模型Muse Spark在视觉理解上获好评,但编程能力落后竞争对手。

  • Wang主张Meta应更重视专有模型,而非长期坚持的开源模式
  • 内部团队TBD通过非层级化初创文化和奶茶欢聚增强凝聚力
站内正文

GitLab裁员14%以扩展平台支持AI工作负载

GitLab裁减约14%员工(约350人),作为上个月宣布的重组计划的一部分。公司退出22个国家,精简管理层,投资基础设施以扩展平台,应对AI工作流带来的流量增长,并聚焦研发。

  • GitLab裁员约14%,约350名员工受影响。
  • 重组包括退出22个国家、精简管理层。
站内正文

Harmonic 如何利用 Deep Agents 和 LangSmith 重建 Scout 并实现 4 倍留存

Harmonic 使用 Deep Agents 和 LangSmith 重建了其 AI Scout,将用户留存率提高了 4 倍,并将工具从僵化的搜索界面转变为能够处理复杂投资查询的可信赖顾问。

  • Scout V1 是僵化的 LangGraph 管线,需要大量评估;V2 使用单一前沿模型和两类工具,简化了架构。
  • 新用户体验允许用户自然交互,生成可视化和搜索结果,代理可以引用这些结果,创建共享真实源。
站内正文

一个机器人向你冲来:你希望它运行Claude还是Grok?

本文通过一场2D大逃杀游戏实验,比较了11个大型语言模型的表现。结果显示,Grok 4.1 Fast以最低成本赢得最多比赛,而Claude Sonnet 4.6则因过度合作而表现不佳。实验揭示了校准税对模型性能的影响,以及传统基准测试无法预测实际任务表现的问题。

  • Grok 4.1 Fast以每胜0.97美元的成本赢得了30场比赛中的13场。
  • Claude Sonnet 4.6因倾向于合作和分享信息,仅赢得5场,每胜成本高达26.78美元。
站内正文

Cursor Enterprise 推出组织功能

Cursor Enterprise 推出组织功能,允许企业统一管理多个团队,每个团队可独立设置预算、安全和功能控制。该功能包括沙盒测试、模型访问分段和统一分析,并支持在组织级别管理身份和成员资格。

  • 组织功能允许从单一仪表板管理多个Cursor团队。
  • 功能包括沙盒测试、分段访问和统一分析。
站内正文
模型

免费vLLM课程:推理、压缩与基准测试

DeepLearning.AI与Red Hat合作推出免费中级课程《使用vLLM实现快速高效的LLM推理》,由Red Hat高级开发者倡导者Cedric Clyburn授课。课程涵盖量化、vLLM服务部署及基准测试,时长1小时38分钟,包含9个视频课程、3个代码示例和1个评分作业。

  • 学习使用量化技术缩小模型内存占用并评估精度权衡
  • 使用vLLM服务模型,掌握连续批处理、PagedAttention和前缀缓存技术
站内正文

LangSmith、Langfuse 和 Arize 的智能体可观测性对比实践

本文对比了三种常用的智能体可观测性工具:LangSmith、Langfuse 和 Arize。通过设置一个基于 LangChain 的测试智能体,展示了各工具的集成方式、追踪能力和评估工作流。LangSmith 与 LangChain 原生集成,提供完整的执行树视图和提示调试功能;Langfuse 是开源且框架无关的,支持会话分组和事后评分;Arize 专注于生产级 ML 监控,使用 OpenInference 标准。文章帮助读者根据需求选择合适的工具。

  • 智能体可观测性需要捕获完整的执行图,包括每一步、决策、LLM 输入输出、工具调用、令牌使用和延迟。
  • LangSmith 通过环境变量与 LangChain 无缝集成,提供深入的追踪和提示调试功能。
站内正文

Trilogy 借助 Fireworks AI 验证开源权重模型在企业工作负载中的表现

Trilogy 的 AI 卓越中心评估了 Fireworks AI 作为推理基础设施,以标准化开源权重模型的使用,降低了成本并实现了十亿级 token 的代理工作流。

  • Trilogy 采用 Fireworks AI 作为企业级开源权重模型的推理层。
  • 成本降至专有系统的约五分之一,避免了速率限制问题。
站内正文
政策

特朗普新行政令要求AI公司自愿提交模型供政府安全审查

白宫发布行政令,要求五角大楼和CISA等机构在30天内利用AI工具加强网络防御。AI开发者可自愿提交模型进行安全测试,但命令明确排除强制批准。鉴于近期政府对AI公司的压力,这种合作的自愿性仍存疑问。

  • 行政令要求国防部和CISA等机构30天内使用AI强化网络安全。
  • AI公司可自愿提交模型供政府测试,但非强制。
站内正文

英国监管机构针对谷歌AI搜索结果新规对出版商意味着什么?

英国竞争与市场管理局(CMA)命令谷歌改变其AI搜索结果中使用出版商内容的方式,赋予新闻网站屏蔽其内容用于AI摘要的权力,此举将产生全球影响。

  • CMA利用新权力为具有“战略市场地位”的科技巨头制定定制规则。
  • 新规要求谷歌允许出版商选择退出AI摘要功能。
站内正文

将人工智能引入经济、社会和治理核心的风险 | 读者来信

读者回应Nesrine Malik关于信任机器而非人类的文章,指出AI对写作和证据的影响,担忧伪造引文和不可靠研究对真相和公众信任的威胁。

  • AI不仅文风空洞,更关键的是它模糊了事实与虚构的界限。
  • 被假引文坑害的作家并非故意欺骗,而是误信AI作为研究工具。
站内正文
工具

Impermeabiliza 在瓦伦西亚利用人工智能实现防水现代化

Impermeabiliza 是瓦伦西亚的一家防水专家,通过集成人工智能来提升诊断、规划和执行水平,确保住宅、工业和商业结构的耐久性,防止渗漏、湿气和霉菌。

  • Impermeabiliza 是瓦伦西亚地区的防水解决方案提供商。
  • 公司使用先进系统预防渗漏、湿气和霉菌。
站内正文

在不断变化的AI市场中保障SaaS成功

在AI市场不断变化的背景下,SaaS企业不仅需要适应AI,更要主动构建上下文并将这些技术整合到自身产品中,这是生存的关键。

  • SaaS企业必须主动构建AI上下文并整合技术
  • 适应AI是基础,但主动整合才是关键
站内正文
芯片

欧盟拟阻止外国供应商使用“关闭开关”破坏欧洲关键科技服务

欧盟委员会提出技术主权提案,旨在减少对美中等外国供应商在云计算、人工智能和半导体生产领域的依赖,确保外国政府或公司无法通过“关闭开关”中断欧洲关键科技服务。

  • 欧盟寻求消除外国对欧洲关键科技服务的“关闭开关”风险
  • 提案聚焦云计算、AI和半导体生产的自主化
站内正文

使用DLAMI和DLC上的SOCI索引减少容器冷启动时间

AWS Deep Learning AMI和Deep Learning Containers现已支持SOCI快照器和索引,通过选择性文件下载(延迟加载)和并行拉取模式,显著缩短容器启动时间。本文介绍了SOCI的工作原理、适用场景以及性能基准测试结果。

  • SOCI(Seekable OCI)通过层索引实现懒加载,容器仅需下载必要文件即可启动,冷启动时间从6分59秒降至21秒。
  • AWS DLAMI和DLC提供标准Docker拉取、SOCI并行拉取和SOCI懒加载三种模式,用户可根据实例规格和网络带宽选择。