NAVI-Orbital:零样本视觉语言模型首次在轨自主地球观测演示
本文介绍了NAVI-Orbital,一个部署在低地球轨道航天器上的软件系统。2026年4月16日,它实现了首次在轨视觉语言模型自主多模态推理,使用Gemma 3模型对捕获场景进行分类、描述,并通过自然语言对话响应操作员。该系统通过纯英语提示重新任务,由基于图的状态机(LangGraph)协调。地面基准测试准确率88.16%,并在轨验证了可行性,旨在通过语义压缩反转传统带宽模式。
随着对地观测卫星数量的增加和传感器分辨率的提升,每天产生的遥感数据量呈指数级增长。然而,星地之间的下行链路带宽有限,加上人工判读效率低下,导致大量宝贵数据无法及时转化为可行动的地面情报。针对这一瓶颈,研究人员提出了NAVI-Orbital系统,这是一个部署在低地球轨道航天器上的创新软件解决方案。2026年4月16日,该系统成功实现了据作者所知首次在轨的视觉语言模型自主多模态推理演示,所有推理任务完全在星载计算机上实时执行。
NAVI-Orbital的核心是一个本地运行的视觉语言模型Gemma 3。该模型能够对每个捕获的遥感场景进行零样本分类,自动生成包含场景内容及特征之间关系的详细文本描述,并且能够通过自然语言对话与操作员交互,回答后续问题。与传统的卫星指令序列不同,NAVI-Orbital可以通过简单的英语提示重新分配任务,大大简化了操作流程。系统的行为由一个基于图的状态机LangGraph统一协调,它管理着两个专门代理:检测代理负责图像分析,对话代理负责与地面操作员的交流。
研究团队对NAVI-Orbital进行了全面的性能评估。在地面基准测试中,该系统在包含7,960张图像的AID数据集上达到了88.16%的分类准确率。经过Flatsat地面验证后,系统成功在轨处理了实时捕获的、此前从未见过的新地球图像,包括未进行辐射校正的原始YAM-9图像。值得注意的是,所有在轨推理均在星载计算机的GPU上通过硬件加速完成,并且模型未针对飞行仪器进行任何微调,展现了强大的泛化能力。
这些成果具有重要的里程碑意义。它首次证明了在卫星级的边缘计算机上运行大型基础模型的可行性,并且能够利用星载语义压缩技术,将传统的“先采集再全部下行”的带宽消耗模式反转,只传输关键语义信息。NAVI-Orbital的成功为未来自主智能卫星系统的发展奠定了技术基础,有望大幅提升地球观测任务的数据利用效率和响应速度。