谷歌DeepMind的Gemma 4 12B将多模态AI压缩到仅需16GB RAM的笔记本电脑上
谷歌DeepMind发布开源模型Gemma 4 12B,原生处理文本、图像和音频,可在仅16GB RAM的笔记本电脑上运行。其性能几乎与两倍大小的26B模型相当,并采用Apache 2.0许可证,可用于商业用途。
- Gemma 4 12B是开源多模态模型,支持文本、图像和音频。
- 仅需16GB RAM即可在笔记本电脑上运行。
日报
2026-06-04 精选 10 条,按主题聚合。其余新闻折叠归档。
谷歌DeepMind发布开源模型Gemma 4 12B,原生处理文本、图像和音频,可在仅16GB RAM的笔记本电脑上运行。其性能几乎与两倍大小的26B模型相当,并采用Apache 2.0许可证,可用于商业用途。
Google DeepMind 发布 Gemma 4 12B,这是一款 120 亿参数的密集多模态模型,采用无编码器设计,直接将视觉和音频输入 LLM 主干。该模型可在 16GB RAM 的消费级笔记本电脑上本地运行,并采用 Apache 2.0 许可证。它原生支持文本、图像、音频和视频,是首个具备原生音频功能的中型 Gemma 模型。
Ideogram 发布4.0版本文本生成图像模型,作为开源权重模型,提供原生2K分辨率、边界框控制和改进的文本渲染。在DesignArena排行榜中,该模型在所有开源模型中排名第一;只有OpenAI和Google的闭源系统得分更高。商业使用需要付费许可。
谷歌首次在Search Console中为网站运营商提供退出AI搜索功能(如AI概览和AI模式)的开关,这些功能已覆盖超过35亿月活跃用户。新性能报告单独展示展示次数。此举是由英国竞争与市场管理局(CMA)推动的,该机构认为网站运营商处于严重劣势。
英国工党议员杰斯·阿萨托对埃隆·马斯克的AI公司提起诉讼,指控其Grok工具被用来生成她的虚假性化图片。这些图片在今年早些时候大量出现在X平台上,阿萨托称看到自己被AI以不雅形象呈现感到“被侵犯”。
本教程展示了如何使用iii引擎构建文档智能工作流,包括安装引擎、注册模块化函数、组合分析管道,并通过直接调用、HTTP端点、即发即弃执行和定时cron触发器复用相同逻辑。
本文提出了“AI领结”框架,帮助管理者决定团队工作流中何时使用AI,避免过度依赖或完全回避的极端。框架包括五个阶段:研究探索、综合提炼、独立思考(无AI)、计划准备、执行实施。
本文认为,人工智能(尤其是大语言模型)应被理解为一种计算形式,而非人造智能体。文章探讨了循环、组合性和代理框架在实现计算中的作用,引入了“Verplankalkül”作为非正式编程语言的概念,并分析了将计算结构整合到训练中的未来方向。
尽管AI基础设施的讨论常聚焦于GPU和TPU,但CPU在AI从聊天机器人转向自主代理的过程中扮演着关键角色,作为“空中交通管制员”协调任务,并支持沙盒环境以确保安全。ARM和Google的专家解释了CPU在处理工具调用、内存管理和轻量级模型运行中的优势。
研究表明,使用AI可能增加工作量而非减少,导致认知疲劳。专家建议聚焦工具、遵循准则和优化输出,以平衡效率与质量。
本文批评了谷歌Gemini Spark等AI生产力工具,指出它们解决了科技公司自己制造的问题,而忽视了工资停滞、工作不安全感等系统性经济问题。作者认为,AI提升的生产力并未惠及工人,反而可能加剧不平等,且缺乏社会保障。
本文将精益制造原则应用于AI推理,识别了LLM推理中的七大浪费,并提出了即时上下文、标准化工作、节拍时间和提示缓存等核心原则,通过一个仓库分析代理的案例展示了13倍成本降低和3.3倍延迟改进。
本文提出了一个从简单SaaS到AI原生平台的实用框架,描述了五个层次的AI集成:从提供个人访问令牌和MCP服务器,到嵌入AI聊天窗口,再到对话历史、自定义UI生成,最终实现自主代理框架。作者分享了自己的实践经验,并强调了每个层次的关键考虑因素。
本文介绍了使用LangChain的create_agent和中间件构建自定义代理脚手架的方法。代理由模型和脚手架组成,脚手架负责将模型连接到真实世界。通过中间件,可以在代理循环的各个阶段插入自定义逻辑、工具、状态管理等,从而实现高度定制化的代理。
微软Copilot Health预览版允许用户分享病历以获得个性化的AI健康建议。作者测试后发现结果好坏参半,存在技术故障,同时提及隐私保护措施,并警告不要依赖AI做出医疗决策。
微软推出名为“Autopilot”的新型自主AI代理,首发代理“Scout”将全天候监控用户操作并自动执行任务,旨在简化工作流程。然而,该代理基于OpenClaw构建,存在安全隐患,且可能被恶意操纵。目前仅限部分客户预览,并需订阅GitHub Copilot。
Meta内部团队TBD在Wang的带领下,推行专注专有模型和初创文化,但面临公司裁员、员工抗议追踪软件等挑战。其AI模型Muse Spark在视觉理解上获好评,但编程能力落后竞争对手。
GitLab裁减约14%员工(约350人),作为上个月宣布的重组计划的一部分。公司退出22个国家,精简管理层,投资基础设施以扩展平台,应对AI工作流带来的流量增长,并聚焦研发。
Harmonic 使用 Deep Agents 和 LangSmith 重建了其 AI Scout,将用户留存率提高了 4 倍,并将工具从僵化的搜索界面转变为能够处理复杂投资查询的可信赖顾问。
本文通过一场2D大逃杀游戏实验,比较了11个大型语言模型的表现。结果显示,Grok 4.1 Fast以最低成本赢得最多比赛,而Claude Sonnet 4.6则因过度合作而表现不佳。实验揭示了校准税对模型性能的影响,以及传统基准测试无法预测实际任务表现的问题。
Cursor Enterprise 推出组织功能,允许企业统一管理多个团队,每个团队可独立设置预算、安全和功能控制。该功能包括沙盒测试、模型访问分段和统一分析,并支持在组织级别管理身份和成员资格。
DeepLearning.AI与Red Hat合作推出免费中级课程《使用vLLM实现快速高效的LLM推理》,由Red Hat高级开发者倡导者Cedric Clyburn授课。课程涵盖量化、vLLM服务部署及基准测试,时长1小时38分钟,包含9个视频课程、3个代码示例和1个评分作业。
本文对比了三种常用的智能体可观测性工具:LangSmith、Langfuse 和 Arize。通过设置一个基于 LangChain 的测试智能体,展示了各工具的集成方式、追踪能力和评估工作流。LangSmith 与 LangChain 原生集成,提供完整的执行树视图和提示调试功能;Langfuse 是开源且框架无关的,支持会话分组和事后评分;Arize 专注于生产级 ML 监控,使用 OpenInference 标准。文章帮助读者根据需求选择合适的工具。
Trilogy 的 AI 卓越中心评估了 Fireworks AI 作为推理基础设施,以标准化开源权重模型的使用,降低了成本并实现了十亿级 token 的代理工作流。
白宫发布行政令,要求五角大楼和CISA等机构在30天内利用AI工具加强网络防御。AI开发者可自愿提交模型进行安全测试,但命令明确排除强制批准。鉴于近期政府对AI公司的压力,这种合作的自愿性仍存疑问。
英国竞争与市场管理局(CMA)命令谷歌改变其AI搜索结果中使用出版商内容的方式,赋予新闻网站屏蔽其内容用于AI摘要的权力,此举将产生全球影响。
读者回应Nesrine Malik关于信任机器而非人类的文章,指出AI对写作和证据的影响,担忧伪造引文和不可靠研究对真相和公众信任的威胁。
Impermeabiliza 是瓦伦西亚的一家防水专家,通过集成人工智能来提升诊断、规划和执行水平,确保住宅、工业和商业结构的耐久性,防止渗漏、湿气和霉菌。
在AI市场不断变化的背景下,SaaS企业不仅需要适应AI,更要主动构建上下文并将这些技术整合到自身产品中,这是生存的关键。
欧盟委员会提出技术主权提案,旨在减少对美中等外国供应商在云计算、人工智能和半导体生产领域的依赖,确保外国政府或公司无法通过“关闭开关”中断欧洲关键科技服务。
AWS Deep Learning AMI和Deep Learning Containers现已支持SOCI快照器和索引,通过选择性文件下载(延迟加载)和并行拉取模式,显著缩短容器启动时间。本文介绍了SOCI的工作原理、适用场景以及性能基准测试结果。