遥感基础模型全景图谱：从视觉到多模态的技术演进

遥感基础模型正处于快速发展阶段，从早期的单模态自监督学习，到现在的多模态大语言模型，技术路线日趋成熟。随着**SkySense++**在Nature Machine Intelligence上的发表，以及众多CVPR 2025论文的涌现，该领域已经从"探索"走向"成熟"。✨ 更统一的多模态架构✨ 更强的泛化与迁移能力✨ 更广泛的实际应用落地。

高玉鹏的呀

1170人浏览 · 2025-10-14 02:42:11

高玉鹏的呀 · 2025-10-14 02:42:11 发布

本文系统梳理了遥感基础模型（Remote Sensing Foundation Models, RSFMs）领域的最新研究进展，涵盖论文、数据集、基准测试、代码和预训练权重等资源。

📑 目录

引言：遥感基础模型的时代

随着深度学习技术的飞速发展，基础模型（Foundation Models）正在彻底改变遥感影像解译领域。这些模型通过在大规模数据上进行预训练，能够学习到通用的特征表示，并在多种下游任务中展现出卓越的性能。

遥感基础模型的核心优势在于：

✅ 泛化能力强：一次预训练，多任务迁移
✅ 数据效率高：减少对标注数据的依赖
✅ 多模态融合：整合光学、SAR、高光谱等多源数据
✅ 语义理解深：结合自然语言实现智能解译

截至2025年8月，该领域已涌现出**100+**个代表性模型，形成了从纯视觉模型到多模态大语言模型的完整技术谱系。

一、遥感视觉基础模型

1.1 早期探索（2021-2022）

这一阶段的研究主要聚焦于自监督学习范式的探索，代表性工作包括：

🔹 SeCo (ICCV 2021)

核心思想：利用季节对比学习从未标注的遥感数据中学习特征
技术亮点：通过时间序列的季节变化构建正负样本对
GitHub：ServiceNow/seasonal-contrast

🔹 GASSL (ICCV 2021)

核心思想：将地理位置信息作为监督信号进行自监督学习
创新点：首次系统性地将地理空间先验知识引入表示学习

🔹 SatMAE (NeurIPS 2022)

核心思想：面向多光谱、多时相卫星影像的掩码自编码器
技术特点：专门设计的时空编码机制
代码：sustainlab-group/SatMAE

1.2 Transformer时代（2022-2023）

Vision Transformer 的引入为遥感基础模型带来了新的突破：

🔹 RingMo (TGRS 2022)

首个基于MAE范式的遥感基础模型
在大规模未标注遥感数据上预训练

🔹 RVSA (TGRS 2022)

引入旋转变化敏感注意力机制
专门针对遥感影像的旋转不变性设计
代码：ViTAE-Transformer/Remote-Sensing-RVSA

🔹 Scale-MAE (ICCV 2023)

多尺度感知的掩码自编码器
解决遥感影像中的尺度变化问题
论文：Scale-MAE

1.3 多模态融合时期（2023-2024）

这一阶段的研究开始关注多传感器数据融合：

🔹 CROMA (NeurIPS 2023)

对比学习框架融合光学与SAR数据
通过跨模态掩码自编码器学习联合表示
代码：antofuller/CROMA

🔹 DeCUR (ECCV 2024)

解耦多模态数据的共性与特性表示
平衡模态共享与模态特有信息
代码：zhu-xlab/DeCUR

🔹 SkySense (CVPR 2024) ⭐

突破性工作：面向地球观测的多模态遥感基础模型
技术亮点：
- 支持光学、SAR、红外等多种传感器
- 统一的特征提取与任务解译框架
- 在7大类下游任务上达到SOTA
后续工作：SkySense++ 发表于 Nature Machine Intelligence 2025
代码：Jack-bo1220/SkySense

1.4 高光谱专用模型（2024-2025）

🔹 SpectralGPT (TPAMI 2024)

专为高光谱遥感设计的基础模型
利用3D卷积捕获光谱-空间特征
代码：danfenghong/IEEE_TPAMI_SpectralGPT

🔹 HyperSIGMA (IEEE TPAMI 2025)

高光谱智能理解基础模型
整合光谱特征提取与语义理解
代码：WHU-Sigma/HyperSIGMA

1.5 最新进展（2025）

🔹 Panopticon (CVPR 2025)

全景式多传感器地球观测基础模型
支持任意传感器数据的统一处理
代码：Panopticon-FM/panopticon

🔹 AnySat (CVPR 2025)

面向任意分辨率、尺度、模态的地球观测模型
动态架构自适应不同输入特性
代码：gastruc/AnySat

二、遥感视觉-语言基础模型

2.1 发展脉络

遥感视觉-语言模型的发展经历了三个阶段：

graph LR
A[对比学习阶段] --> B[指令微调阶段]
B --> C[多模态大模型阶段]

2.2 代表性工作

🔹 RemoteCLIP (IEEE TGRS 2024)

首个遥感领域的CLIP模型
在大规模图文对上进行对比学习
代码：ChenDelong1999/RemoteCLIP

🔹 GeoRSCLIP (IEEE TGRS 2024)

配套RS5M大规模数据集（500万图文对）
地理空间感知的视觉-语言预训练
数据集：om-ai-lab/RS5M

🔹 GeoChat (CVPR 2024)

首个遥感多模态对话模型
支持区域级视觉定位与问答
代码：mbzuai-oryx/GeoChat

🔹 SkySenseGPT (2024)

细粒度指令微调数据集
专注于遥感影像的细节理解
代码：Luo-Z13/SkySenseGPT

🔹 LHRS-Bot (ECCV 2024) 与 LHRS-Bot-Nova (2024)

整合志愿者地理信息（VGI）增强理解
多轮对话能力
代码：NJU-LHRS/LHRS-Bot

🔹 EarthDial (CVPR 2025)

多传感器地球观测交互对话系统
支持时序分析与变化检测问答
代码：hiyamdebary/EarthDial

🔹 SkySense-O (CVPR 2025)

开放世界遥感解译
视觉中心的视觉-语言建模
代码：zqcrafts/SkySense-O

2.3 像素级理解模型

🔹 GeoPix (IEEE GRSM 2025)

像素级多模态理解
精细分割与描述
代码：Norman-Ou/GeoPix

🔹 GeoPixel (ICML 2025)

像素定位大模型
结合视觉与语言的精确定位
代码：mbzuai-oryx/GeoPixel

三、遥感生成式基础模型

3.1 技术路线

生成式模型在遥感领域的应用主要包括：

🎨 图像生成：从文本/地图生成遥感影像
🔄 图像翻译：跨模态数据转换
🌍 场景合成：全球尺度影像生成

3.2 代表性工作

🔹 DiffusionSat (ICLR 2024)

基于扩散模型的卫星影像生成
可控生成框架
代码：samar-khanna/DiffusionSat

🔹 MetaEarth (2024)

全球尺度遥感影像生成基础模型
地理条件可控生成
项目主页：jiupinjia.github.io/metaearth

🔹 Text2Earth (2025)

文本驱动的遥感影像生成
配套全球尺度数据集
项目主页：chen-yang-liu.github.io/Text2Earth

四、遥感视觉-位置基础模型

4.1 研究意义

地理位置信息是遥感数据的重要属性，视觉-位置基础模型旨在学习空间感知的表示。

4.2 代表性工作

🔹 GeoCLIP (NeurIPS 2023)

图像与地理位置的对比学习
全球地理定位能力
项目主页：vicentevivan.github.io/GeoCLIP

🔹 SatCLIP (2023)

微软开源的位置嵌入模型
通用地理位置编码器
代码：microsoft/satclip

🔹 RANGE (CVPR 2025)

检索增强的多分辨率地理嵌入
神经辐射场技术应用

五、遥感任务专用基础模型

5.1 分割与检测

🔹 RSPrompter (TGRS 2024)

基于视觉基础模型的实例分割
提示学习范式
代码：KyanChen/RSPrompter

5.2 变化检测

🔹 TTP (2023)

时间旅行像素：双时相特征融合
代码：KyanChen/TTP

🔹 BAN (TGRS 2024)

基于基础模型的变化检测新范式
代码：likyoo/BAN

5.3 SAR目标识别

🔹 SARATR-X (IEEE TIP 2025)

SAR目标识别基础模型
代码：waterdisappear/SARATR-X

六、遥感智能体

6.1 发展趋势

遥感智能体（RS Agents）代表了自主遥感解译的未来方向，特点包括：

🤖 工具调用能力
🔍 多步推理能力
📊 自动化分析流程

6.2 代表性工作

🔹 RS-Agent (2024)

通过智能体自动化遥感任务
任务规划与工具选择

🔹 Change-Agent (TGRS 2024)

交互式综合遥感变化解译
代码：Chen-Yang-Liu/Change-Agent

🔹 ThinkGeo (2025)

评估工具增强智能体的遥感任务能力
代码：mbzuai-oryx/ThinkGeo

七、数据集与基准测试

7.1 大规模预训练数据集

数据集	规模	模态	发布时间
fMoW	100万+	光学	2018
SSL4EO-S12	250万	Sentinel-1/2	2023
SatlasPretrain	3.02亿	多模态	2023
RS5M	500万图文对	图像-文本	2023
RS-4M	400万	光学	2024

7.2 评估基准

🔹 GEO-Bench (2023)

面向地球监测的基础模型基准
包含分类与分割任务
代码：ServiceNow/geo-bench

🔹 SkySense Benchmark (CVPR 2024)

7大类下游任务
多模态评估体系

🔹 VRSBench (NeurIPS 2024)

多功能视觉-语言基准
图像描述、目标引用、视觉问答
项目主页：vrsbench.github.io

🔹 PANGAEA (2024)

全球性、包容性基准
分割、变化检测、回归任务
代码：yurujaja/pangaea-bench

🔹 Copernicus-Bench (2025)

统一的哥白尼卫星数据基准
代码：zhu-xlab/Copernicus-FM

八、前沿研究方向与展望

8.1 当前挑战

数据质量与多样性
- 标注成本高
- 全球覆盖不均
- 模态缺失问题
模型泛化能力
- 跨区域泛化
- 跨传感器泛化
- 跨任务泛化
计算资源需求
- 大规模模型训练成本高
- 推理效率待提升

8.2 未来方向

🚀 方向一：统一多模态架构

设计能处理任意传感器数据的通用架构
动态模态融合机制
代表工作：AnySat, Panopticon

🚀 方向二：少样本与零样本学习

减少对标注数据的依赖
利用自然语言进行知识迁移
代表工作：SkySense-O, GRAFT

🚀 方向三：时空建模增强

长时序遥感数据分析
时空动态捕获
代表工作：TiMo, RingMo-Sense

🚀 方向四：可解释性与可信AI

模型决策透明化
不确定性量化
符合科学规律的约束

🚀 方向五：边缘部署与实时处理

模型压缩与加速
星上智能处理
轻量化基础模型

8.3 应用前景

遥感基础模型正在赋能多个领域：

应用领域	典型任务	代表工作
🌾 精准农业	作物分类、产量预测	Presto, FoMo
🏙️ 城市规划	建筑提取、变化检测	RSBuilding, UrbanLLaVA
🌲 生态监测	森林监测、碳汇评估	FoMo-Bench
🌊 海洋研究	海岸线变化、海洋污染	Hydro
🚨 灾害响应	灾害评估、应急响应	Change-Agent

参考资源

📚 综述论文（精选）

Vision-Language Models in Remote Sensing: Current Progress and Future Trends (IEEE GRSM 2024)
Foundation Models for Remote Sensing and Earth Observation: A Survey (2024)
AI Foundation Models in Remote Sensing: A Survey (2024)
Vision Foundation Models in Remote Sensing: A survey (IEEE GRSM 2025)

🔗 重要项目

RSFMs Playground: synativ/RSFMs - 评估与微调平台
GeoFM: xiong-zhitong/GeoFM - 基础模型评估工具
PANGAEA: yurujaja/pangaea-bench - 全球基准测试

📖 中文文献

《遥感大模型：进展与前瞻》（武汉大学学报 2023）
《遥感基础模型发展综述与未来设想》（遥感学报 2023）
《多模态遥感基础大模型：研究现状与未来展望》（测绘学报 2024）

💡 结语

遥感基础模型正处于快速发展阶段，从早期的单模态自监督学习，到现在的多模态大语言模型，技术路线日趋成熟。随着**SkySense++**在Nature Machine Intelligence上的发表，以及众多CVPR 2025论文的涌现，该领域已经从"探索"走向"成熟"。

未来，我们期待看到：

✨ 更统一的多模态架构
✨ 更强的泛化与迁移能力
✨ 更广泛的实际应用落地

🌟 致谢

本文内容基于GitHub开源项目 Awesome-Remote-Sensing-Foundation-Models 整理而成，感谢开源社区的贡献！

如果本文对您有帮助，欢迎：

⭐ Star 原始仓库
📝 引用相关论文
💬 参与讨论交流

📋 引用格式

@inproceedings{guo2024skysense,
  title={Skysense: A multi-modal remote sensing foundation model towards universal interpretation for earth observation imagery},
  author={Guo, Xin and Lao, Jiangwei and Dang, Bo and Zhang, Yingying and Yu, Lei and Ru, Lixiang and Zhong, Liheng and Huang, Ziyuan and Wu, Kang and Hu, Dingxiang and others},
  booktitle={CVPR},
  year={2024}
}

@article{wu2025semantic,
  title={A semantic-enhanced multi-modal remote sensing foundation model for Earth observation},
  author={Wu, Kang and Zhang, Yingying and others},
  journal={Nature Machine Intelligence},
  year={2025}
}

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla