深度学习模型分类全图谱

深度学习模型主要分为10大类：1)前馈神经网络(MLP)；2)卷积神经网络(CNN)，包括经典架构(ResNet)和轻量级模型(MobileNet)；3)循环神经网络(RNN/LSTM/GRU)，适用于时序任务；4)Transformer架构，主导NLP和视觉任务；5)生成模型(VAE/GAN/扩散模型)；6)图神经网络(GNN)；7)深度强化学习模型；8)自监督预训练模型；9)混合架构(CNN+

qq_53922490

452人浏览 · 2025-08-21 11:39:39

qq_53922490 · 2025-08-21 11:39:39 发布

深度学习模型分类树

深度学习 (Deep Learning)
├── 1. 前馈神经网络 (Feedforward Neural Networks)
│   ├── 1.1 多层感知机 (MLP, Multilayer Perceptron)
│   │   ├── 1.1.1 标准MLP
│   │   ├── 1.1.2 深度MLP（Deep MLP）
│   │   └── 1.1.3 变体：残差MLP（ResMLP）、注意力MLP（gMLP）
│   │
│   └── 1.2 全连接网络应用
│       ├── 1.2.1 分类/回归任务基础模型
│       └── 1.2.2 作为其他模型的头部（Head）

├── 2. 卷积神经网络 (CNN, Convolutional Neural Networks)
│   ├── 2.1 经典架构
│   │   ├── 2.1.1 LeNet-5（早期手写数字识别）
│   │   ├── 2.1.2 AlexNet（开启深度学习时代）
│   │   ├── 2.1.3 VGGNet（小卷积核堆叠）
│   │   ├── 2.1.4 GoogLeNet / Inception 系列
│   │   │   ├── Inception v1-v4
│   │   │   └── Inception-ResNet
│   │   ├── 2.1.5 ResNet（残差网络）
│   │   │   ├── ResNet-18/34/50/101/152
│   │   │   ├── ResNet-v2（预激活）
│   │   │   └── Wide ResNet
│   │   ├── 2.1.6 DenseNet（密集连接）
│   │   └── 2.1.7 SENet（Squeeze-and-Excitation Network）
│   │
│   ├── 2.2 轻量级CNN
│   │   ├── 2.2.1 MobileNet 系列
│   │   │   ├── MobileNetV1（深度可分离卷积）
│   │   │   ├── MobileNetV2（倒残差结构）
│   │   │   └── MobileNetV3（NAS + h-swish）
│   │   ├── 2.2.2 ShuffleNet 系列
│   │   │   ├── ShuffleNetV1（通道混洗）
│   │   │   └── ShuffleNetV2（更高效设计）
│   │   ├── 2.2.3 EfficientNet 系列
│   │   │   ├── EfficientNet-B0 to B7
│   │   │   └── EfficientNetV2（改进训练策略）
│   │   └── 2.2.4 GhostNet（特征图生成优化）
│   │
│   ├── 2.3 目标检测专用CNN
│   │   ├── 2.3.1 Two-stage 检测器主干
│   │   │   └── Faster R-CNN 使用 ResNet/FPN
│   │   ├── 2.3.2 One-stage 检测器主干
│   │   │   └── YOLO 系列（YOLOv3-v8 使用 CSPDarkNet）
│   │   └── 2.3.3 SSD 主干（VGG-based）
│   │
│   ├── 2.4 语义分割专用CNN
│   │   ├── 2.4.1 FCN（全卷积网络）
│   │   ├── 2.4.2 U-Net 及其变体
│   │   │   ├── U-Net（医学图像经典）
│   │   │   ├── U-Net++（嵌套跳跃连接）
│   │   │   ├── Attention U-Net
│   │   │   └── ResUNet
│   │   ├── 2.4.3 SegNet
│   │   ├── 2.4.4 DeepLab 系列
│   │   │   ├── DeepLabv1-v3+
│   │   │   └── ASPP（空洞空间金字塔池化）
│   │   └── 2.4.5 PSPNet（金字塔池化模块）
│   │
│   └── 2.5 视频理解CNN
│       ├── 2.5.1 3D CNN（C3D）
│       ├── 2.5.2 I3D（Inflated 3D ConvNet）
│       ├── 2.5.3 SlowFast（双路径架构）
│       └── 2.5.4 TSM（Temporal Shift Module）

├── 3. 循环神经网络 (RNN, Recurrent Neural Networks)
│   ├── 3.1 基础RNN
│   │   ├── 3.1.1 Simple RNN
│   │   └── 3.1.2 Elman Network / Jordan Network
│   │
│   ├── 3.2 长短期记忆网络 (LSTM)
│   │   ├── 3.2.1 标准LSTM
│   │   ├── 3.2.2 BiLSTM（双向LSTM）
│   │   └── 3.2.3 Stacked LSTM（多层堆叠）
│   │
│   ├── 3.3 门控循环单元 (GRU)
│   │   ├── 3.3.1 标准GRU
│   │   └── 3.3.2 BiGRU
│   │
│   └── 3.4 RNN 应用架构
│       ├── 3.4.1 Seq2Seq（序列到序列）
│       │   └── Encoder-Decoder 框架
│       ├── 3.4.2 加注意力机制的Seq2Seq
│       └── 3.4.3 语言模型（如 RNN-LM）

├── 4. 注意力机制与Transformer架构
│   ├── 4.1 注意力机制类型
│   │   ├── 4.1.1 加性注意力（Additive Attention）
│   │   ├── 4.1.2 缩放点积注意力（Scaled Dot-Product Attention）
│   │   ├── 4.1.3 自注意力（Self-Attention）
│   │   ├── 4.1.4 多头注意力（Multi-Head Attention）
│   │   └── 4.1.5 交叉注意力（Cross-Attention）
│   │
│   ├── 4.2 Transformer 基础架构
│   │   ├── 4.2.1 原始Transformer（Vaswani et al., 2017）
│   │   │   ├── Encoder-Decoder 结构
│   │   │   └── Positional Encoding
│   │   ├── 4.2.2 Transformer Encoder-only
│   │   │   └── BERT 系列
│   │   │       ├── BERT-Base/Large
│   │   │       ├── RoBERTa
│   │   │       ├── ALBERT（参数共享）
│   │   │       ├── ELECTRA
│   │   │       └── DeBERTa
│   │   ├── 4.2.3 Transformer Decoder-only
│   │   │   └── GPT 系列
│   │   │       ├── GPT-1/2/3/4
│   │   │       ├── LLaMA 系列
│   │   │       ├── ChatGLM
│   │   │       └── Falcon
│   │   └── 4.2.4 Prefix-LM / Encoder-Decoder
│   │       ├── T5（Text-to-Text Transfer Transformer）
│   │       └── BART（去噪自动编码器）
│   │
│   ├── 4.3 视觉Transformer (ViT)
│   │   ├── 4.3.1 Vision Transformer (ViT)
│   │   │   ├── ViT-Base/Small/Large
│   │   │   └── 数据依赖性强（需大规模预训练）
│   │   ├── 4.3.2 DeiT（Data-efficient Image Transformer）
│   │   ├── 4.3.3 Swin Transformer（移窗机制）
│   │   │   ├── Swin-Tiny/Small/Big
│   │   │   └── 层次化特征提取
│   │   ├── 4.3.4 PVT（Pyramid Vision Transformer）
│   │   └── 4.3.5 ConViT（卷积+Transformer混合）
│   │
│   └── 4.4 多模态Transformer
│       ├── 4.4.1 CLIP（图像-文本对比学习）
│       ├── 4.4.2 Flamingo（交错图文输入）
│       ├── 4.4.3 BLIP / BLIP-2（图文生成与理解）
│       └── 4.4.4 PaLM-E（具身AI，多模态+动作）

├── 5. 生成模型 (Generative Models)
│   ├── 5.1 变分自编码器 (VAE)
│   │   ├── 5.1.1 标准VAE
│   │   ├── 5.1.2 β-VAE（解耦表示）
│   │   └── 5.1.3 VQ-VAE（向量量化）
│   │
│   ├── 5.2 生成对抗网络 (GAN)
│   │   ├── 5.2.1 原始GAN
│   │   ├── 5.2.2 DCGAN（深度卷积GAN）
│   │   ├── 5.2.3 WGAN / WGAN-GP（Wasserstein距离）
│   │   ├── 5.2.4 CycleGAN（无配对图像转换）
│   │   ├── 5.2.5 StyleGAN 系列
│   │   │   ├── StyleGAN1/2/3
│   │   │   └── 人脸生成高质量
│   │   └── 5.2.6 BigGAN（大规模图像生成）
│   │
│   ├── 5.3 扩散模型 (Diffusion Models)
│   │   ├── 5.3.1 DDPM（去噪扩散概率模型）
│   │   ├── 5.3.2 Latent Diffusion（如 Stable Diffusion）
│   │   ├── 5.3.3 Score-Based Generative Models（得分匹配）
│   │   └── 5.3.4 DDIM（确定性采样加速）
│   │
│   └── 5.4 自回归生成模型
│       ├── 5.4.1 PixelRNN / PixelCNN（图像像素生成）
│       ├── 5.4.2 WaveNet（语音合成）
│       └── 5.4.3 Transformer-based（如 GPT 图像生成）

├── 6. 图神经网络 (GNN, Graph Neural Networks)
│   ├── 6.1 图卷积网络 (GCN)
│   │   ├── 6.1.1 GCN（Kipf & Welling）
│   │   └── 6.1.2 GraphSAGE（归纳式学习）
│   │
│   ├── 6.2 图注意力网络 (GAT)
│   │   ├── 6.2.1 GAT（多头注意力）
│   │   └── 6.2.2 GATv2（动态注意力）
│   │
│   ├── 6.3 图同构网络 (GIN)
│   │   └── 6.3.1 GIN（最强表达力）
│   │
│   ├── 6.4 时空图网络 (ST-GNN)
│   │   └── 6.4.1 ST-GCN（动作识别）
│   │
│   └── 6.5 应用方向
│       ├── 6.5.1 节点分类
│       ├── 6.5.2 链接预测
│       └── 6.5.3 图分类

├── 7. 强化学习中的深度模型 (Deep RL)
│   ├── 7.1 值函数方法
│   │   └── 7.1.1 DQN 及其变体（Double DQN, Dueling DQN）
│   │
│   ├── 7.2 策略梯度方法
│   │   ├── 7.2.1 REINFORCE
│   │   └── 7.2.2 PPO（Proximal Policy Optimization）
│   │
│   ├── 7.3 演员-评论家架构
│   │   ├── 7.3.1 A2C / A3C
│   │   ├── 7.3.2 DDPG（连续动作空间）
│   │   ├── 7.3.3 TD3（改进DDPG）
│   │   └── 7.3.4 SAC（Soft Actor-Critic）
│   │
│   └── 7.4 模型基础方法
│       └── 7.4.1 Dreamer（世界模型 + 规划）

├── 8. 自监督与预训练模型
│   ├── 8.1 对比学习 (Contrastive Learning)
│   │   ├── 8.1.1 SimCLR
│   │   ├── 8.1.2 MoCo（动量编码器）
│   │   ├── 8.1.3 BYOL（无负样本）
│   │   └── 8.1.4 SimSiam
│   │
│   ├── 8.2 掩码建模 (Masked Modeling)
│   │   ├── 8.2.1 BERT（文本）
│   │   ├── 8.2.2 MAE（Masked Autoencoder，图像）
│   │   └── 8.2.3 BEiT（图像到token）
│   │
│   └── 8.3 其他自监督任务
│       ├── 8.3.1 RotNet（旋转预测）
│       ├── 8.3.2 Jigsaw（拼图预测）
│       └── 8.3.3 CPC（对比预测编码）

├── 9. 混合架构与新兴方向
│   ├── 9.1 CNN + Transformer 混合
│   │   ├── 9.1.1 ConvNeXt（CNN结构现代化）
│   │   ├── 9.1.2 CoAtNet（卷积+注意力结合）
│   │   └── 9.1.3 MobileViT（轻量级视觉Transformer）
│   │
│   ├── 9.2 神经符号系统 (Neuro-Symbolic)
│   │   └── 结合符号逻辑与深度学习
│   │
│   ├── 9.3 脉冲神经网络 (SNN)
│   │   └── 事件驱动、低功耗
│   │
│   └── 9.4 状态空间模型 (SSM)
│       └── 9.4.1 Mamba（选择性SSM，替代Transformer）
│       └── 9.4.2 S4, S5

└── 10. 模型压缩与高效推理
    ├── 10.1 网络剪枝 (Pruning)
    │   └── 结构化/非结构化剪枝
    ├── 10.2 量化 (Quantization)
    │   ├── 8-bit / 4-bit 量化
    │   └── QAT（量化感知训练）
    ├── 10.3 知识蒸馏 (Knowledge Distillation)
    │   ├── Teacher-Student 框架
    │   └── DistilBERT, TinyBERT
    └── 10.4 轻量架构设计
        └── 如前所述：MobileNet, EfficientNet, ShuffleNet

分类说明与使用建议

类别	典型应用场景
CNN	图像分类、目标检测、语义分割
RNN/LSTM/GRU	时序建模、语音识别、NLP（逐渐被Transformer取代）
Transformer	NLP、视觉、多模态、生成任务
GAN / Diffusion	图像生成、风格迁移、数据增强
VAE	表示学习、异常检测、生成
GNN	社交网络、推荐系统、分子结构预测
Deep RL	游戏AI、机器人控制、自动交易
Self-supervised	大规模预训练、少标签场景
Hybrid Models	平衡效率与性能（如 MobileViT）

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla