遥感基础模型全景图谱:从视觉到多模态的技术演进
遥感基础模型正处于快速发展阶段,从早期的单模态自监督学习,到现在的多模态大语言模型,技术路线日趋成熟。随着**SkySense++**在Nature Machine Intelligence上的发表,以及众多CVPR 2025论文的涌现,该领域已经从"探索"走向"成熟"。✨ 更统一的多模态架构✨ 更强的泛化与迁移能力✨ 更广泛的实际应用落地。
本文系统梳理了遥感基础模型(Remote Sensing Foundation Models, RSFMs)领域的最新研究进展,涵盖论文、数据集、基准测试、代码和预训练权重等资源。
📑 目录
- 引言:遥感基础模型的时代
- 一、遥感视觉基础模型
- 二、遥感视觉-语言基础模型
- 三、遥感生成式基础模型
- 四、遥感视觉-位置基础模型
- 五、遥感任务专用基础模型
- 六、遥感智能体
- 七、数据集与基准测试
- 八、前沿研究方向与展望
- 参考资源
引言:遥感基础模型的时代
随着深度学习技术的飞速发展,基础模型(Foundation Models)正在彻底改变遥感影像解译领域。这些模型通过在大规模数据上进行预训练,能够学习到通用的特征表示,并在多种下游任务中展现出卓越的性能。
遥感基础模型的核心优势在于:
- ✅ 泛化能力强:一次预训练,多任务迁移
- ✅ 数据效率高:减少对标注数据的依赖
- ✅ 多模态融合:整合光学、SAR、高光谱等多源数据
- ✅ 语义理解深:结合自然语言实现智能解译
截至2025年8月,该领域已涌现出**100+**个代表性模型,形成了从纯视觉模型到多模态大语言模型的完整技术谱系。
一、遥感视觉基础模型
1.1 早期探索(2021-2022)
这一阶段的研究主要聚焦于自监督学习范式的探索,代表性工作包括:
🔹 SeCo (ICCV 2021)
- 核心思想:利用季节对比学习从未标注的遥感数据中学习特征
- 技术亮点:通过时间序列的季节变化构建正负样本对
- GitHub:ServiceNow/seasonal-contrast
🔹 GASSL (ICCV 2021)
- 核心思想:将地理位置信息作为监督信号进行自监督学习
- 创新点:首次系统性地将地理空间先验知识引入表示学习
🔹 SatMAE (NeurIPS 2022)
- 核心思想:面向多光谱、多时相卫星影像的掩码自编码器
- 技术特点:专门设计的时空编码机制
- 代码:sustainlab-group/SatMAE
1.2 Transformer时代(2022-2023)
Vision Transformer 的引入为遥感基础模型带来了新的突破:
🔹 RingMo (TGRS 2022)
- 首个基于MAE范式的遥感基础模型
- 在大规模未标注遥感数据上预训练
🔹 RVSA (TGRS 2022)
- 引入旋转变化敏感注意力机制
- 专门针对遥感影像的旋转不变性设计
- 代码:ViTAE-Transformer/Remote-Sensing-RVSA
🔹 Scale-MAE (ICCV 2023)
- 多尺度感知的掩码自编码器
- 解决遥感影像中的尺度变化问题
- 论文:Scale-MAE
1.3 多模态融合时期(2023-2024)
这一阶段的研究开始关注多传感器数据融合:
🔹 CROMA (NeurIPS 2023)
- 对比学习框架融合光学与SAR数据
- 通过跨模态掩码自编码器学习联合表示
- 代码:antofuller/CROMA
🔹 DeCUR (ECCV 2024)
- 解耦多模态数据的共性与特性表示
- 平衡模态共享与模态特有信息
- 代码:zhu-xlab/DeCUR
🔹 SkySense (CVPR 2024) ⭐
- 突破性工作:面向地球观测的多模态遥感基础模型
- 技术亮点:
- 支持光学、SAR、红外等多种传感器
- 统一的特征提取与任务解译框架
- 在7大类下游任务上达到SOTA
- 后续工作:SkySense++ 发表于 Nature Machine Intelligence 2025
- 代码:Jack-bo1220/SkySense
1.4 高光谱专用模型(2024-2025)
🔹 SpectralGPT (TPAMI 2024)
- 专为高光谱遥感设计的基础模型
- 利用3D卷积捕获光谱-空间特征
- 代码:danfenghong/IEEE_TPAMI_SpectralGPT
🔹 HyperSIGMA (IEEE TPAMI 2025)
- 高光谱智能理解基础模型
- 整合光谱特征提取与语义理解
- 代码:WHU-Sigma/HyperSIGMA
1.5 最新进展(2025)
🔹 Panopticon (CVPR 2025)
- 全景式多传感器地球观测基础模型
- 支持任意传感器数据的统一处理
- 代码:Panopticon-FM/panopticon
🔹 AnySat (CVPR 2025)
- 面向任意分辨率、尺度、模态的地球观测模型
- 动态架构自适应不同输入特性
- 代码:gastruc/AnySat
二、遥感视觉-语言基础模型
2.1 发展脉络
遥感视觉-语言模型的发展经历了三个阶段:
graph LR
A[对比学习阶段] --> B[指令微调阶段]
B --> C[多模态大模型阶段]
2.2 代表性工作
🔹 RemoteCLIP (IEEE TGRS 2024)
- 首个遥感领域的CLIP模型
- 在大规模图文对上进行对比学习
- 代码:ChenDelong1999/RemoteCLIP
🔹 GeoRSCLIP (IEEE TGRS 2024)
- 配套RS5M大规模数据集(500万图文对)
- 地理空间感知的视觉-语言预训练
- 数据集:om-ai-lab/RS5M
🔹 GeoChat (CVPR 2024)
- 首个遥感多模态对话模型
- 支持区域级视觉定位与问答
- 代码:mbzuai-oryx/GeoChat
🔹 SkySenseGPT (2024)
- 细粒度指令微调数据集
- 专注于遥感影像的细节理解
- 代码:Luo-Z13/SkySenseGPT
🔹 LHRS-Bot (ECCV 2024) 与 LHRS-Bot-Nova (2024)
- 整合志愿者地理信息(VGI)增强理解
- 多轮对话能力
- 代码:NJU-LHRS/LHRS-Bot
🔹 EarthDial (CVPR 2025)
- 多传感器地球观测交互对话系统
- 支持时序分析与变化检测问答
- 代码:hiyamdebary/EarthDial
🔹 SkySense-O (CVPR 2025)
- 开放世界遥感解译
- 视觉中心的视觉-语言建模
- 代码:zqcrafts/SkySense-O
2.3 像素级理解模型
🔹 GeoPix (IEEE GRSM 2025)
- 像素级多模态理解
- 精细分割与描述
- 代码:Norman-Ou/GeoPix
🔹 GeoPixel (ICML 2025)
- 像素定位大模型
- 结合视觉与语言的精确定位
- 代码:mbzuai-oryx/GeoPixel
三、遥感生成式基础模型
3.1 技术路线
生成式模型在遥感领域的应用主要包括:
- 🎨 图像生成:从文本/地图生成遥感影像
- 🔄 图像翻译:跨模态数据转换
- 🌍 场景合成:全球尺度影像生成
3.2 代表性工作
🔹 DiffusionSat (ICLR 2024)
- 基于扩散模型的卫星影像生成
- 可控生成框架
- 代码:samar-khanna/DiffusionSat
🔹 MetaEarth (2024)
- 全球尺度遥感影像生成基础模型
- 地理条件可控生成
- 项目主页:jiupinjia.github.io/metaearth
🔹 Text2Earth (2025)
- 文本驱动的遥感影像生成
- 配套全球尺度数据集
- 项目主页:chen-yang-liu.github.io/Text2Earth
四、遥感视觉-位置基础模型
4.1 研究意义
地理位置信息是遥感数据的重要属性,视觉-位置基础模型旨在学习空间感知的表示。
4.2 代表性工作
🔹 GeoCLIP (NeurIPS 2023)
- 图像与地理位置的对比学习
- 全球地理定位能力
- 项目主页:vicentevivan.github.io/GeoCLIP
🔹 SatCLIP (2023)
- 微软开源的位置嵌入模型
- 通用地理位置编码器
- 代码:microsoft/satclip
🔹 RANGE (CVPR 2025)
- 检索增强的多分辨率地理嵌入
- 神经辐射场技术应用
五、遥感任务专用基础模型
5.1 分割与检测
🔹 RSPrompter (TGRS 2024)
- 基于视觉基础模型的实例分割
- 提示学习范式
- 代码:KyanChen/RSPrompter
5.2 变化检测
🔹 TTP (2023)
- 时间旅行像素:双时相特征融合
- 代码:KyanChen/TTP
🔹 BAN (TGRS 2024)
- 基于基础模型的变化检测新范式
- 代码:likyoo/BAN
5.3 SAR目标识别
🔹 SARATR-X (IEEE TIP 2025)
- SAR目标识别基础模型
- 代码:waterdisappear/SARATR-X
六、遥感智能体
6.1 发展趋势
遥感智能体(RS Agents)代表了自主遥感解译的未来方向,特点包括:
- 🤖 工具调用能力
- 🔍 多步推理能力
- 📊 自动化分析流程
6.2 代表性工作
🔹 RS-Agent (2024)
- 通过智能体自动化遥感任务
- 任务规划与工具选择
🔹 Change-Agent (TGRS 2024)
- 交互式综合遥感变化解译
- 代码:Chen-Yang-Liu/Change-Agent
🔹 ThinkGeo (2025)
- 评估工具增强智能体的遥感任务能力
- 代码:mbzuai-oryx/ThinkGeo
七、数据集与基准测试
7.1 大规模预训练数据集
| 数据集 | 规模 | 模态 | 发布时间 |
|---|---|---|---|
| fMoW | 100万+ | 光学 | 2018 |
| SSL4EO-S12 | 250万 | Sentinel-1/2 | 2023 |
| SatlasPretrain | 3.02亿 | 多模态 | 2023 |
| RS5M | 500万图文对 | 图像-文本 | 2023 |
| RS-4M | 400万 | 光学 | 2024 |
7.2 评估基准
🔹 GEO-Bench (2023)
- 面向地球监测的基础模型基准
- 包含分类与分割任务
- 代码:ServiceNow/geo-bench
🔹 SkySense Benchmark (CVPR 2024)
- 7大类下游任务
- 多模态评估体系
🔹 VRSBench (NeurIPS 2024)
- 多功能视觉-语言基准
- 图像描述、目标引用、视觉问答
- 项目主页:vrsbench.github.io
🔹 PANGAEA (2024)
- 全球性、包容性基准
- 分割、变化检测、回归任务
- 代码:yurujaja/pangaea-bench
🔹 Copernicus-Bench (2025)
- 统一的哥白尼卫星数据基准
- 代码:zhu-xlab/Copernicus-FM
八、前沿研究方向与展望
8.1 当前挑战
-
数据质量与多样性
- 标注成本高
- 全球覆盖不均
- 模态缺失问题
-
模型泛化能力
- 跨区域泛化
- 跨传感器泛化
- 跨任务泛化
-
计算资源需求
- 大规模模型训练成本高
- 推理效率待提升
8.2 未来方向
🚀 方向一:统一多模态架构
- 设计能处理任意传感器数据的通用架构
- 动态模态融合机制
- 代表工作:AnySat, Panopticon
🚀 方向二:少样本与零样本学习
- 减少对标注数据的依赖
- 利用自然语言进行知识迁移
- 代表工作:SkySense-O, GRAFT
🚀 方向三:时空建模增强
- 长时序遥感数据分析
- 时空动态捕获
- 代表工作:TiMo, RingMo-Sense
🚀 方向四:可解释性与可信AI
- 模型决策透明化
- 不确定性量化
- 符合科学规律的约束
🚀 方向五:边缘部署与实时处理
- 模型压缩与加速
- 星上智能处理
- 轻量化基础模型
8.3 应用前景
遥感基础模型正在赋能多个领域:
| 应用领域 | 典型任务 | 代表工作 |
|---|---|---|
| 🌾 精准农业 | 作物分类、产量预测 | Presto, FoMo |
| 🏙️ 城市规划 | 建筑提取、变化检测 | RSBuilding, UrbanLLaVA |
| 🌲 生态监测 | 森林监测、碳汇评估 | FoMo-Bench |
| 🌊 海洋研究 | 海岸线变化、海洋污染 | Hydro |
| 🚨 灾害响应 | 灾害评估、应急响应 | Change-Agent |
参考资源
📚 综述论文(精选)
- Vision-Language Models in Remote Sensing: Current Progress and Future Trends (IEEE GRSM 2024)
- Foundation Models for Remote Sensing and Earth Observation: A Survey (2024)
- AI Foundation Models in Remote Sensing: A Survey (2024)
- Vision Foundation Models in Remote Sensing: A survey (IEEE GRSM 2025)
🔗 重要项目
- RSFMs Playground: synativ/RSFMs - 评估与微调平台
- GeoFM: xiong-zhitong/GeoFM - 基础模型评估工具
- PANGAEA: yurujaja/pangaea-bench - 全球基准测试
📖 中文文献
- 《遥感大模型:进展与前瞻》(武汉大学学报 2023)
- 《遥感基础模型发展综述与未来设想》(遥感学报 2023)
- 《多模态遥感基础大模型:研究现状与未来展望》(测绘学报 2024)
💡 结语
遥感基础模型正处于快速发展阶段,从早期的单模态自监督学习,到现在的多模态大语言模型,技术路线日趋成熟。随着**SkySense++**在Nature Machine Intelligence上的发表,以及众多CVPR 2025论文的涌现,该领域已经从"探索"走向"成熟"。
未来,我们期待看到:
- ✨ 更统一的多模态架构
- ✨ 更强的泛化与迁移能力
- ✨ 更广泛的实际应用落地
🌟 致谢
本文内容基于GitHub开源项目 Awesome-Remote-Sensing-Foundation-Models 整理而成,感谢开源社区的贡献!
如果本文对您有帮助,欢迎:
- ⭐ Star 原始仓库
- 📝 引用相关论文
- 💬 参与讨论交流
📋 引用格式
@inproceedings{guo2024skysense,
title={Skysense: A multi-modal remote sensing foundation model towards universal interpretation for earth observation imagery},
author={Guo, Xin and Lao, Jiangwei and Dang, Bo and Zhang, Yingying and Yu, Lei and Ru, Lixiang and Zhong, Liheng and Huang, Ziyuan and Wu, Kang and Hu, Dingxiang and others},
booktitle={CVPR},
year={2024}
}
@article{wu2025semantic,
title={A semantic-enhanced multi-modal remote sensing foundation model for Earth observation},
author={Wu, Kang and Zhang, Yingying and others},
journal={Nature Machine Intelligence},
year={2025}
}
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)