深度学习模型分类树

深度学习 (Deep Learning)
├── 1. 前馈神经网络 (Feedforward Neural Networks)
│   ├── 1.1 多层感知机 (MLP, Multilayer Perceptron)
│   │   ├── 1.1.1 标准MLP
│   │   ├── 1.1.2 深度MLP(Deep MLP)
│   │   └── 1.1.3 变体:残差MLP(ResMLP)、注意力MLP(gMLP)
│   │
│   └── 1.2 全连接网络应用
│       ├── 1.2.1 分类/回归任务基础模型
│       └── 1.2.2 作为其他模型的头部(Head)

├── 2. 卷积神经网络 (CNN, Convolutional Neural Networks)
│   ├── 2.1 经典架构
│   │   ├── 2.1.1 LeNet-5(早期手写数字识别)
│   │   ├── 2.1.2 AlexNet(开启深度学习时代)
│   │   ├── 2.1.3 VGGNet(小卷积核堆叠)
│   │   ├── 2.1.4 GoogLeNet / Inception 系列
│   │   │   ├── Inception v1-v4
│   │   │   └── Inception-ResNet
│   │   ├── 2.1.5 ResNet(残差网络)
│   │   │   ├── ResNet-18/34/50/101/152
│   │   │   ├── ResNet-v2(预激活)
│   │   │   └── Wide ResNet
│   │   ├── 2.1.6 DenseNet(密集连接)
│   │   └── 2.1.7 SENet(Squeeze-and-Excitation Network)
│   │
│   ├── 2.2 轻量级CNN
│   │   ├── 2.2.1 MobileNet 系列
│   │   │   ├── MobileNetV1(深度可分离卷积)
│   │   │   ├── MobileNetV2(倒残差结构)
│   │   │   └── MobileNetV3(NAS + h-swish)
│   │   ├── 2.2.2 ShuffleNet 系列
│   │   │   ├── ShuffleNetV1(通道混洗)
│   │   │   └── ShuffleNetV2(更高效设计)
│   │   ├── 2.2.3 EfficientNet 系列
│   │   │   ├── EfficientNet-B0 to B7
│   │   │   └── EfficientNetV2(改进训练策略)
│   │   └── 2.2.4 GhostNet(特征图生成优化)
│   │
│   ├── 2.3 目标检测专用CNN
│   │   ├── 2.3.1 Two-stage 检测器主干
│   │   │   └── Faster R-CNN 使用 ResNet/FPN
│   │   ├── 2.3.2 One-stage 检测器主干
│   │   │   └── YOLO 系列(YOLOv3-v8 使用 CSPDarkNet)
│   │   └── 2.3.3 SSD 主干(VGG-based)
│   │
│   ├── 2.4 语义分割专用CNN
│   │   ├── 2.4.1 FCN(全卷积网络)
│   │   ├── 2.4.2 U-Net 及其变体
│   │   │   ├── U-Net(医学图像经典)
│   │   │   ├── U-Net++(嵌套跳跃连接)
│   │   │   ├── Attention U-Net
│   │   │   └── ResUNet
│   │   ├── 2.4.3 SegNet
│   │   ├── 2.4.4 DeepLab 系列
│   │   │   ├── DeepLabv1-v3+
│   │   │   └── ASPP(空洞空间金字塔池化)
│   │   └── 2.4.5 PSPNet(金字塔池化模块)
│   │
│   └── 2.5 视频理解CNN
│       ├── 2.5.1 3D CNN(C3D)
│       ├── 2.5.2 I3D(Inflated 3D ConvNet)
│       ├── 2.5.3 SlowFast(双路径架构)
│       └── 2.5.4 TSM(Temporal Shift Module)

├── 3. 循环神经网络 (RNN, Recurrent Neural Networks)
│   ├── 3.1 基础RNN
│   │   ├── 3.1.1 Simple RNN
│   │   └── 3.1.2 Elman Network / Jordan Network
│   │
│   ├── 3.2 长短期记忆网络 (LSTM)
│   │   ├── 3.2.1 标准LSTM
│   │   ├── 3.2.2 BiLSTM(双向LSTM)
│   │   └── 3.2.3 Stacked LSTM(多层堆叠)
│   │
│   ├── 3.3 门控循环单元 (GRU)
│   │   ├── 3.3.1 标准GRU
│   │   └── 3.3.2 BiGRU
│   │
│   └── 3.4 RNN 应用架构
│       ├── 3.4.1 Seq2Seq(序列到序列)
│       │   └── Encoder-Decoder 框架
│       ├── 3.4.2 加注意力机制的Seq2Seq
│       └── 3.4.3 语言模型(如 RNN-LM)

├── 4. 注意力机制与Transformer架构
│   ├── 4.1 注意力机制类型
│   │   ├── 4.1.1 加性注意力(Additive Attention)
│   │   ├── 4.1.2 缩放点积注意力(Scaled Dot-Product Attention)
│   │   ├── 4.1.3 自注意力(Self-Attention)
│   │   ├── 4.1.4 多头注意力(Multi-Head Attention)
│   │   └── 4.1.5 交叉注意力(Cross-Attention)
│   │
│   ├── 4.2 Transformer 基础架构
│   │   ├── 4.2.1 原始Transformer(Vaswani et al., 2017)
│   │   │   ├── Encoder-Decoder 结构
│   │   │   └── Positional Encoding
│   │   ├── 4.2.2 Transformer Encoder-only
│   │   │   └── BERT 系列
│   │   │       ├── BERT-Base/Large
│   │   │       ├── RoBERTa
│   │   │       ├── ALBERT(参数共享)
│   │   │       ├── ELECTRA
│   │   │       └── DeBERTa
│   │   ├── 4.2.3 Transformer Decoder-only
│   │   │   └── GPT 系列
│   │   │       ├── GPT-1/2/3/4
│   │   │       ├── LLaMA 系列
│   │   │       ├── ChatGLM
│   │   │       └── Falcon
│   │   └── 4.2.4 Prefix-LM / Encoder-Decoder
│   │       ├── T5(Text-to-Text Transfer Transformer)
│   │       └── BART(去噪自动编码器)
│   │
│   ├── 4.3 视觉Transformer (ViT)
│   │   ├── 4.3.1 Vision Transformer (ViT)
│   │   │   ├── ViT-Base/Small/Large
│   │   │   └── 数据依赖性强(需大规模预训练)
│   │   ├── 4.3.2 DeiT(Data-efficient Image Transformer)
│   │   ├── 4.3.3 Swin Transformer(移窗机制)
│   │   │   ├── Swin-Tiny/Small/Big
│   │   │   └── 层次化特征提取
│   │   ├── 4.3.4 PVT(Pyramid Vision Transformer)
│   │   └── 4.3.5 ConViT(卷积+Transformer混合)
│   │
│   └── 4.4 多模态Transformer
│       ├── 4.4.1 CLIP(图像-文本对比学习)
│       ├── 4.4.2 Flamingo(交错图文输入)
│       ├── 4.4.3 BLIP / BLIP-2(图文生成与理解)
│       └── 4.4.4 PaLM-E(具身AI,多模态+动作)

├── 5. 生成模型 (Generative Models)
│   ├── 5.1 变分自编码器 (VAE)
│   │   ├── 5.1.1 标准VAE
│   │   ├── 5.1.2 β-VAE(解耦表示)
│   │   └── 5.1.3 VQ-VAE(向量量化)
│   │
│   ├── 5.2 生成对抗网络 (GAN)
│   │   ├── 5.2.1 原始GAN
│   │   ├── 5.2.2 DCGAN(深度卷积GAN)
│   │   ├── 5.2.3 WGAN / WGAN-GP(Wasserstein距离)
│   │   ├── 5.2.4 CycleGAN(无配对图像转换)
│   │   ├── 5.2.5 StyleGAN 系列
│   │   │   ├── StyleGAN1/2/3
│   │   │   └── 人脸生成高质量
│   │   └── 5.2.6 BigGAN(大规模图像生成)
│   │
│   ├── 5.3 扩散模型 (Diffusion Models)
│   │   ├── 5.3.1 DDPM(去噪扩散概率模型)
│   │   ├── 5.3.2 Latent Diffusion(如 Stable Diffusion)
│   │   ├── 5.3.3 Score-Based Generative Models(得分匹配)
│   │   └── 5.3.4 DDIM(确定性采样加速)
│   │
│   └── 5.4 自回归生成模型
│       ├── 5.4.1 PixelRNN / PixelCNN(图像像素生成)
│       ├── 5.4.2 WaveNet(语音合成)
│       └── 5.4.3 Transformer-based(如 GPT 图像生成)

├── 6. 图神经网络 (GNN, Graph Neural Networks)
│   ├── 6.1 图卷积网络 (GCN)
│   │   ├── 6.1.1 GCN(Kipf & Welling)
│   │   └── 6.1.2 GraphSAGE(归纳式学习)
│   │
│   ├── 6.2 图注意力网络 (GAT)
│   │   ├── 6.2.1 GAT(多头注意力)
│   │   └── 6.2.2 GATv2(动态注意力)
│   │
│   ├── 6.3 图同构网络 (GIN)
│   │   └── 6.3.1 GIN(最强表达力)
│   │
│   ├── 6.4 时空图网络 (ST-GNN)
│   │   └── 6.4.1 ST-GCN(动作识别)
│   │
│   └── 6.5 应用方向
│       ├── 6.5.1 节点分类
│       ├── 6.5.2 链接预测
│       └── 6.5.3 图分类

├── 7. 强化学习中的深度模型 (Deep RL)
│   ├── 7.1 值函数方法
│   │   └── 7.1.1 DQN 及其变体(Double DQN, Dueling DQN)
│   │
│   ├── 7.2 策略梯度方法
│   │   ├── 7.2.1 REINFORCE
│   │   └── 7.2.2 PPO(Proximal Policy Optimization)
│   │
│   ├── 7.3 演员-评论家架构
│   │   ├── 7.3.1 A2C / A3C
│   │   ├── 7.3.2 DDPG(连续动作空间)
│   │   ├── 7.3.3 TD3(改进DDPG)
│   │   └── 7.3.4 SAC(Soft Actor-Critic)
│   │
│   └── 7.4 模型基础方法
│       └── 7.4.1 Dreamer(世界模型 + 规划)

├── 8. 自监督与预训练模型
│   ├── 8.1 对比学习 (Contrastive Learning)
│   │   ├── 8.1.1 SimCLR
│   │   ├── 8.1.2 MoCo(动量编码器)
│   │   ├── 8.1.3 BYOL(无负样本)
│   │   └── 8.1.4 SimSiam
│   │
│   ├── 8.2 掩码建模 (Masked Modeling)
│   │   ├── 8.2.1 BERT(文本)
│   │   ├── 8.2.2 MAE(Masked Autoencoder,图像)
│   │   └── 8.2.3 BEiT(图像到token)
│   │
│   └── 8.3 其他自监督任务
│       ├── 8.3.1 RotNet(旋转预测)
│       ├── 8.3.2 Jigsaw(拼图预测)
│       └── 8.3.3 CPC(对比预测编码)

├── 9. 混合架构与新兴方向
│   ├── 9.1 CNN + Transformer 混合
│   │   ├── 9.1.1 ConvNeXt(CNN结构现代化)
│   │   ├── 9.1.2 CoAtNet(卷积+注意力结合)
│   │   └── 9.1.3 MobileViT(轻量级视觉Transformer)
│   │
│   ├── 9.2 神经符号系统 (Neuro-Symbolic)
│   │   └── 结合符号逻辑与深度学习
│   │
│   ├── 9.3 脉冲神经网络 (SNN)
│   │   └── 事件驱动、低功耗
│   │
│   └── 9.4 状态空间模型 (SSM)
│       └── 9.4.1 Mamba(选择性SSM,替代Transformer)
│       └── 9.4.2 S4, S5

└── 10. 模型压缩与高效推理
    ├── 10.1 网络剪枝 (Pruning)
    │   └── 结构化/非结构化剪枝
    ├── 10.2 量化 (Quantization)
    │   ├── 8-bit / 4-bit 量化
    │   └── QAT(量化感知训练)
    ├── 10.3 知识蒸馏 (Knowledge Distillation)
    │   ├── Teacher-Student 框架
    │   └── DistilBERT, TinyBERT
    └── 10.4 轻量架构设计
        └── 如前所述:MobileNet, EfficientNet, ShuffleNet

分类说明与使用建议

类别 典型应用场景

CNN

图像分类、目标检测、语义分割

RNN/LSTM/GRU

时序建模、语音识别、NLP(逐渐被Transformer取代)

Transformer

NLP、视觉、多模态、生成任务

GAN / Diffusion

图像生成、风格迁移、数据增强

VAE

表示学习、异常检测、生成

GNN

社交网络、推荐系统、分子结构预测

Deep RL

游戏AI、机器人控制、自动交易

Self-supervised

大规模预训练、少标签场景

Hybrid Models

平衡效率与性能(如 MobileViT)

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐