本文系统梳理了遥感基础模型(Remote Sensing Foundation Models, RSFMs)领域的最新研究进展,涵盖论文、数据集、基准测试、代码和预训练权重等资源。


📑 目录


引言:遥感基础模型的时代

随着深度学习技术的飞速发展,基础模型(Foundation Models)正在彻底改变遥感影像解译领域。这些模型通过在大规模数据上进行预训练,能够学习到通用的特征表示,并在多种下游任务中展现出卓越的性能。

遥感基础模型的核心优势在于:

  • 泛化能力强:一次预训练,多任务迁移
  • 数据效率高:减少对标注数据的依赖
  • 多模态融合:整合光学、SAR、高光谱等多源数据
  • 语义理解深:结合自然语言实现智能解译

截至2025年8月,该领域已涌现出**100+**个代表性模型,形成了从纯视觉模型到多模态大语言模型的完整技术谱系。


一、遥感视觉基础模型

1.1 早期探索(2021-2022)

这一阶段的研究主要聚焦于自监督学习范式的探索,代表性工作包括:

🔹 SeCo (ICCV 2021)
  • 核心思想:利用季节对比学习从未标注的遥感数据中学习特征
  • 技术亮点:通过时间序列的季节变化构建正负样本对
  • GitHubServiceNow/seasonal-contrast
🔹 GASSL (ICCV 2021)
  • 核心思想:将地理位置信息作为监督信号进行自监督学习
  • 创新点:首次系统性地将地理空间先验知识引入表示学习
🔹 SatMAE (NeurIPS 2022)
  • 核心思想:面向多光谱、多时相卫星影像的掩码自编码器
  • 技术特点:专门设计的时空编码机制
  • 代码sustainlab-group/SatMAE

1.2 Transformer时代(2022-2023)

Vision Transformer 的引入为遥感基础模型带来了新的突破:

🔹 RingMo (TGRS 2022)
  • 首个基于MAE范式的遥感基础模型
  • 在大规模未标注遥感数据上预训练
🔹 RVSA (TGRS 2022)
🔹 Scale-MAE (ICCV 2023)
  • 多尺度感知的掩码自编码器
  • 解决遥感影像中的尺度变化问题
  • 论文Scale-MAE

1.3 多模态融合时期(2023-2024)

这一阶段的研究开始关注多传感器数据融合

🔹 CROMA (NeurIPS 2023)
  • 对比学习框架融合光学与SAR数据
  • 通过跨模态掩码自编码器学习联合表示
  • 代码antofuller/CROMA
🔹 DeCUR (ECCV 2024)
  • 解耦多模态数据的共性与特性表示
  • 平衡模态共享与模态特有信息
  • 代码zhu-xlab/DeCUR
🔹 SkySense (CVPR 2024) ⭐
  • 突破性工作:面向地球观测的多模态遥感基础模型
  • 技术亮点
    • 支持光学、SAR、红外等多种传感器
    • 统一的特征提取与任务解译框架
    • 在7大类下游任务上达到SOTA
  • 后续工作:SkySense++ 发表于 Nature Machine Intelligence 2025
  • 代码Jack-bo1220/SkySense

1.4 高光谱专用模型(2024-2025)

🔹 SpectralGPT (TPAMI 2024)
🔹 HyperSIGMA (IEEE TPAMI 2025)
  • 高光谱智能理解基础模型
  • 整合光谱特征提取与语义理解
  • 代码WHU-Sigma/HyperSIGMA

1.5 最新进展(2025)

🔹 Panopticon (CVPR 2025)
  • 全景式多传感器地球观测基础模型
  • 支持任意传感器数据的统一处理
  • 代码Panopticon-FM/panopticon
🔹 AnySat (CVPR 2025)
  • 面向任意分辨率、尺度、模态的地球观测模型
  • 动态架构自适应不同输入特性
  • 代码gastruc/AnySat

二、遥感视觉-语言基础模型

2.1 发展脉络

遥感视觉-语言模型的发展经历了三个阶段:

graph LR
A[对比学习阶段] --> B[指令微调阶段]
B --> C[多模态大模型阶段]

2.2 代表性工作

🔹 RemoteCLIP (IEEE TGRS 2024)
🔹 GeoRSCLIP (IEEE TGRS 2024)
  • 配套RS5M大规模数据集(500万图文对)
  • 地理空间感知的视觉-语言预训练
  • 数据集om-ai-lab/RS5M
🔹 GeoChat (CVPR 2024)
  • 首个遥感多模态对话模型
  • 支持区域级视觉定位与问答
  • 代码mbzuai-oryx/GeoChat
🔹 SkySenseGPT (2024)
  • 细粒度指令微调数据集
  • 专注于遥感影像的细节理解
  • 代码Luo-Z13/SkySenseGPT
🔹 LHRS-Bot (ECCV 2024) 与 LHRS-Bot-Nova (2024)
  • 整合志愿者地理信息(VGI)增强理解
  • 多轮对话能力
  • 代码NJU-LHRS/LHRS-Bot
🔹 EarthDial (CVPR 2025)
  • 多传感器地球观测交互对话系统
  • 支持时序分析与变化检测问答
  • 代码hiyamdebary/EarthDial
🔹 SkySense-O (CVPR 2025)

2.3 像素级理解模型

🔹 GeoPix (IEEE GRSM 2025)
🔹 GeoPixel (ICML 2025)

三、遥感生成式基础模型

3.1 技术路线

生成式模型在遥感领域的应用主要包括:

  • 🎨 图像生成:从文本/地图生成遥感影像
  • 🔄 图像翻译:跨模态数据转换
  • 🌍 场景合成:全球尺度影像生成

3.2 代表性工作

🔹 DiffusionSat (ICLR 2024)
🔹 MetaEarth (2024)
🔹 Text2Earth (2025)

四、遥感视觉-位置基础模型

4.1 研究意义

地理位置信息是遥感数据的重要属性,视觉-位置基础模型旨在学习空间感知的表示

4.2 代表性工作

🔹 GeoCLIP (NeurIPS 2023)
🔹 SatCLIP (2023)
  • 微软开源的位置嵌入模型
  • 通用地理位置编码器
  • 代码microsoft/satclip
🔹 RANGE (CVPR 2025)
  • 检索增强的多分辨率地理嵌入
  • 神经辐射场技术应用

五、遥感任务专用基础模型

5.1 分割与检测

🔹 RSPrompter (TGRS 2024)

5.2 变化检测

🔹 TTP (2023)
  • 时间旅行像素:双时相特征融合
  • 代码KyanChen/TTP
🔹 BAN (TGRS 2024)
  • 基于基础模型的变化检测新范式
  • 代码likyoo/BAN

5.3 SAR目标识别

🔹 SARATR-X (IEEE TIP 2025)

六、遥感智能体

6.1 发展趋势

遥感智能体(RS Agents)代表了自主遥感解译的未来方向,特点包括:

  • 🤖 工具调用能力
  • 🔍 多步推理能力
  • 📊 自动化分析流程

6.2 代表性工作

🔹 RS-Agent (2024)
  • 通过智能体自动化遥感任务
  • 任务规划与工具选择
🔹 Change-Agent (TGRS 2024)
🔹 ThinkGeo (2025)

七、数据集与基准测试

7.1 大规模预训练数据集

数据集 规模 模态 发布时间
fMoW 100万+ 光学 2018
SSL4EO-S12 250万 Sentinel-1/2 2023
SatlasPretrain 3.02亿 多模态 2023
RS5M 500万图文对 图像-文本 2023
RS-4M 400万 光学 2024

7.2 评估基准

🔹 GEO-Bench (2023)
🔹 SkySense Benchmark (CVPR 2024)
  • 7大类下游任务
  • 多模态评估体系
🔹 VRSBench (NeurIPS 2024)
  • 多功能视觉-语言基准
  • 图像描述、目标引用、视觉问答
  • 项目主页vrsbench.github.io
🔹 PANGAEA (2024)
🔹 Copernicus-Bench (2025)

八、前沿研究方向与展望

8.1 当前挑战

  1. 数据质量与多样性

    • 标注成本高
    • 全球覆盖不均
    • 模态缺失问题
  2. 模型泛化能力

    • 跨区域泛化
    • 跨传感器泛化
    • 跨任务泛化
  3. 计算资源需求

    • 大规模模型训练成本高
    • 推理效率待提升

8.2 未来方向

🚀 方向一:统一多模态架构
  • 设计能处理任意传感器数据的通用架构
  • 动态模态融合机制
  • 代表工作:AnySat, Panopticon
🚀 方向二:少样本与零样本学习
  • 减少对标注数据的依赖
  • 利用自然语言进行知识迁移
  • 代表工作:SkySense-O, GRAFT
🚀 方向三:时空建模增强
  • 长时序遥感数据分析
  • 时空动态捕获
  • 代表工作:TiMo, RingMo-Sense
🚀 方向四:可解释性与可信AI
  • 模型决策透明化
  • 不确定性量化
  • 符合科学规律的约束
🚀 方向五:边缘部署与实时处理
  • 模型压缩与加速
  • 星上智能处理
  • 轻量化基础模型

8.3 应用前景

遥感基础模型正在赋能多个领域:

应用领域 典型任务 代表工作
🌾 精准农业 作物分类、产量预测 Presto, FoMo
🏙️ 城市规划 建筑提取、变化检测 RSBuilding, UrbanLLaVA
🌲 生态监测 森林监测、碳汇评估 FoMo-Bench
🌊 海洋研究 海岸线变化、海洋污染 Hydro
🚨 灾害响应 灾害评估、应急响应 Change-Agent

参考资源

📚 综述论文(精选)

  1. Vision-Language Models in Remote Sensing: Current Progress and Future Trends (IEEE GRSM 2024)
  2. Foundation Models for Remote Sensing and Earth Observation: A Survey (2024)
  3. AI Foundation Models in Remote Sensing: A Survey (2024)
  4. Vision Foundation Models in Remote Sensing: A survey (IEEE GRSM 2025)

🔗 重要项目

📖 中文文献

  • 《遥感大模型:进展与前瞻》(武汉大学学报 2023)
  • 《遥感基础模型发展综述与未来设想》(遥感学报 2023)
  • 《多模态遥感基础大模型:研究现状与未来展望》(测绘学报 2024)

💡 结语

遥感基础模型正处于快速发展阶段,从早期的单模态自监督学习,到现在的多模态大语言模型,技术路线日趋成熟。随着**SkySense++**在Nature Machine Intelligence上的发表,以及众多CVPR 2025论文的涌现,该领域已经从"探索"走向"成熟"。

未来,我们期待看到:

  • ✨ 更统一的多模态架构
  • ✨ 更强的泛化与迁移能力
  • ✨ 更广泛的实际应用落地

🌟 致谢

本文内容基于GitHub开源项目 Awesome-Remote-Sensing-Foundation-Models 整理而成,感谢开源社区的贡献!

如果本文对您有帮助,欢迎:

  • ⭐ Star 原始仓库
  • 📝 引用相关论文
  • 💬 参与讨论交流

📋 引用格式

@inproceedings{guo2024skysense,
  title={Skysense: A multi-modal remote sensing foundation model towards universal interpretation for earth observation imagery},
  author={Guo, Xin and Lao, Jiangwei and Dang, Bo and Zhang, Yingying and Yu, Lei and Ru, Lixiang and Zhong, Liheng and Huang, Ziyuan and Wu, Kang and Hu, Dingxiang and others},
  booktitle={CVPR},
  year={2024}
}

@article{wu2025semantic,
  title={A semantic-enhanced multi-modal remote sensing foundation model for Earth observation},
  author={Wu, Kang and Zhang, Yingying and others},
  journal={Nature Machine Intelligence},
  year={2025}
}

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐