2026-06-02 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Planktonzilla：用于理解浮游生态系统的多模态数据集与模型

研究人员发布了Planktonzilla-17M，这是迄今最大最全面的浮游生物图像数据集，包含1740万张图像，涵盖13种成像系统、602个分类类别。他们发现，使用分类学谱系作为文本的监督分类器在性能上匹配或超越CLIP式训练，而现有生物基础模型（如BioCLIP）在浮游生物识别上表现不佳。

来源arXiv Computer Vision作者: Alan Gerson Contreras Montanares, Luis Valenzuela, Luis Mart\'i, Nayat Sanchez-Pi

海洋浮游生物是水生食物网的基础，并在全球二氧化碳封存中发挥关键作用。它们通过光合作用吸收大量大气中的二氧化碳，并将其转移至深海，对气候调节意义重大。然而，准确识别浮游生物物种是理解海洋健康和气候变化反馈的关键，但这一任务面临诸多挑战。

现有的分类模型在单一数据集上表现良好，但由于训练数据孤立且标签不一致，它们难以在跨仪器和跨环境进行泛化。不同的成像系统（如显微镜、水下相机等）产生的图像差异巨大，加上缺乏统一的标准，使得模型的实际应用受到限制。

为解决这一问题，研究团队推出了Planktonzilla-17M，这是一个统一的数据集，整合了来自13种成像系统的公开浮游生物图像集合。数据集包含1740万张图像，均附有标准化的分类学和地理环境元数据。其中，374万张浮游生物图像跨越602个分类类别，201个达到物种级别。这使得Planktonzilla-17M成为目前最大、最全面的浮游生物图像数据集，为研究者提供了宝贵的资源。

基于这一大规模数据集，研究团队在共享的ViT骨干网络上对监督学习和CLIP式图像-文本训练进行了受控比较。实验结果令人关注：当使用分类学谱系作为文本描述时，传统的监督分类器在性能上匹配甚至超越了CLIP式训练方法。这表明，在特定领域任务中，精细的标签结构可能比大规模弱监督预训练更为有效。

此外，研究者还评估了现有的生物基础模型，如BioCLIP和BioCLIP2。他们发现，这些模型在零样本和少样本设置下对浮游生物图像的识别表现不佳，远远无法满足实际应用需求。这揭示了当前生物基础模型在海洋成像领域的局限性，暗示了领域特异性预训练的必要性。

Planktonzilla-17M的引入显著提升了浮游生物分类性能，为海洋生态监测和气候变化研究提供了更可靠的技术支持。该研究发表在arXiv预印本平台上，涉及计算机视觉、人工智能、机器学习等多个领域。研究者表示，他们将继续扩展数据集，并探索更高效的模型架构，以推动海洋生态系统研究的自动化进程。