通过全球合作与开放资源催化科学影响力
Google Research 秉持开放科学原则,通过开源软件和开放数据集,与全球科研社区合作,推动基因组学、神经科学、气候、生物多样性、医疗等领域的突破性发现。文章详细介绍了多个工具(如DeepVariant、Neuroglancer、Open Buildings、SpeciesNet、HAI-DEF)及其实际应用案例,展示了开放科学如何赋能全球研究人员并产生积极社会影响。
2026年5月1日,Google Research 科学团队发布了一篇关于开放科学的博客文章,阐述了其通过全球合作伙伴关系和开放资源推动科学影响的理念与实践。文章指出,一项科学突破只有当他人都能复制和扩展时,才能发挥最大潜力。Google Research 认识到开源软件和开放数据集是现代科学的驱动因素,并致力于以负责任的方式创建这些资源,通过与全球科学社区的合作来维护它们,体现协作精神。
在合作伙伴与生态系统方面,Google Research 与加州大学圣克鲁兹分校基因组学研究所、Janelia研究园区、奥地利科学技术研究所、人口基因组学中心、澳大利亚联邦科学与工业研究组织(CSIRO)、全印度医学科学研究所(AIIMS)等众多专业机构合作。此外,他们还支持人类泛基因组研究联盟、地球生物基因组计划、美国国立卫生研究院脑计划等大型科学联盟。Google Research 还将开放科学理念扩展到更广泛的生态系统,投资建设开发者社区,从印度、韩国、日本和澳大利亚开始。
在开源工具和数据方面,Google Research 在过去十年中开发并维护了多项关键技术。基因组学领域:DeepVariant、DeepConsensus和DeepPolisher等深度学习工具改进了DNA分析,全球社区已利用这些方法处理了250万人的外显子和全基因组数据。神经科学领域:洪水填充网络、Neuroglancer和TensorStore等工具使科学家能够无缝分割、导航和分析PB级高分辨率脑组织重建数据,包括H01(人类脑组织样本,访问次数超过20万次)和MICrONS(小鼠视觉皮层最大连接图谱)。地球与大气建模:Open Buildings数据集包含18亿栋建筑检测,覆盖面积5800万平方公里;Caravan数据集用于大样本水文学;Groundsource数据集包含260万历史洪水事件;NeuralGCM是一种全微分混合大气模型。生物多样性:SpeciesNet模型可对2498种动物进行分类。医疗健康:Health AI Developer Foundations(HAI-DEF)提供一系列开放权重基础模型,包括MedGemma,下载量超过480万次;Open Health Stack(OHS)是一套开源工具,已在10多个国家部署,惠及超过6500万人。
文章强调,开放科学真正的衡量标准是合作伙伴和最终用户实现的现实世界影响。例如,与UCSC基因组学研究所合作,将泛基因组参考中的遗传变异识别错误减少50%。芝加哥大学利用NeuralGCM提前一个月预测印度季风,并向3800万农民发送短信。联合国难民署利用Open Buildings数据集优化流离失所人口的灾害响应调查。约翰霍普金斯大学利用H01数据集发现了一种新的神经元通信形式。Stanford和UCSC合作实现了不到8小时的全基因组测序遗传诊断,创下吉尼斯世界纪录。DeepSomatic用于更准确地发现癌症变异,Children's Mercy Hospital已部署。HAI-DEF在赞比亚通过MedSigLP构建了AI驱动的宫颈癌教育筛查工具。OHS帮助开发者在低资源环境中构建数字健康解决方案。AIIMS使用MedGemma进行门诊分诊和皮肤科筛查,马来西亚卫生部通过MedGemma驱动Ask CPG,方便医护人员查阅临床指南。
在生物多样性与保护方面,Snapshot Serengeti项目使用SpeciesNet在数天内分析了1100万张野生动物图像。奥塔哥大学利用DeepVariant为濒危鸮鹦鹉创建遗传图谱,帮助其种群从51只增加到252只。CSIRO利用Google Earth模型和基因组工具支持大角藻恢复。脊椎动物基因组计划和地球生物基因组计划使用开源基因组学工具,已为13种标志性濒危物种提供完整基因组。
展望未来,Google Research 相信生成式AI和代理工作流将深刻改变研究方式,使科学家能够将知识编码为专业技能,将方法转化为可访问、可扩展的工具。开源软件和开放数据集仍将是这一生态系统的基石。Google Research 将继续构建支持新发现时代的工具和基础设施,期待全球科学社区取得更多成就。