深度学习模型分类全图谱
深度学习模型主要分为10大类:1)前馈神经网络(MLP);2)卷积神经网络(CNN),包括经典架构(ResNet)和轻量级模型(MobileNet);3)循环神经网络(RNN/LSTM/GRU),适用于时序任务;4)Transformer架构,主导NLP和视觉任务;5)生成模型(VAE/GAN/扩散模型);6)图神经网络(GNN);7)深度强化学习模型;8)自监督预训练模型;9)混合架构(CNN+
·
深度学习模型分类树
深度学习 (Deep Learning)
├── 1. 前馈神经网络 (Feedforward Neural Networks)
│ ├── 1.1 多层感知机 (MLP, Multilayer Perceptron)
│ │ ├── 1.1.1 标准MLP
│ │ ├── 1.1.2 深度MLP(Deep MLP)
│ │ └── 1.1.3 变体:残差MLP(ResMLP)、注意力MLP(gMLP)
│ │
│ └── 1.2 全连接网络应用
│ ├── 1.2.1 分类/回归任务基础模型
│ └── 1.2.2 作为其他模型的头部(Head)
├── 2. 卷积神经网络 (CNN, Convolutional Neural Networks)
│ ├── 2.1 经典架构
│ │ ├── 2.1.1 LeNet-5(早期手写数字识别)
│ │ ├── 2.1.2 AlexNet(开启深度学习时代)
│ │ ├── 2.1.3 VGGNet(小卷积核堆叠)
│ │ ├── 2.1.4 GoogLeNet / Inception 系列
│ │ │ ├── Inception v1-v4
│ │ │ └── Inception-ResNet
│ │ ├── 2.1.5 ResNet(残差网络)
│ │ │ ├── ResNet-18/34/50/101/152
│ │ │ ├── ResNet-v2(预激活)
│ │ │ └── Wide ResNet
│ │ ├── 2.1.6 DenseNet(密集连接)
│ │ └── 2.1.7 SENet(Squeeze-and-Excitation Network)
│ │
│ ├── 2.2 轻量级CNN
│ │ ├── 2.2.1 MobileNet 系列
│ │ │ ├── MobileNetV1(深度可分离卷积)
│ │ │ ├── MobileNetV2(倒残差结构)
│ │ │ └── MobileNetV3(NAS + h-swish)
│ │ ├── 2.2.2 ShuffleNet 系列
│ │ │ ├── ShuffleNetV1(通道混洗)
│ │ │ └── ShuffleNetV2(更高效设计)
│ │ ├── 2.2.3 EfficientNet 系列
│ │ │ ├── EfficientNet-B0 to B7
│ │ │ └── EfficientNetV2(改进训练策略)
│ │ └── 2.2.4 GhostNet(特征图生成优化)
│ │
│ ├── 2.3 目标检测专用CNN
│ │ ├── 2.3.1 Two-stage 检测器主干
│ │ │ └── Faster R-CNN 使用 ResNet/FPN
│ │ ├── 2.3.2 One-stage 检测器主干
│ │ │ └── YOLO 系列(YOLOv3-v8 使用 CSPDarkNet)
│ │ └── 2.3.3 SSD 主干(VGG-based)
│ │
│ ├── 2.4 语义分割专用CNN
│ │ ├── 2.4.1 FCN(全卷积网络)
│ │ ├── 2.4.2 U-Net 及其变体
│ │ │ ├── U-Net(医学图像经典)
│ │ │ ├── U-Net++(嵌套跳跃连接)
│ │ │ ├── Attention U-Net
│ │ │ └── ResUNet
│ │ ├── 2.4.3 SegNet
│ │ ├── 2.4.4 DeepLab 系列
│ │ │ ├── DeepLabv1-v3+
│ │ │ └── ASPP(空洞空间金字塔池化)
│ │ └── 2.4.5 PSPNet(金字塔池化模块)
│ │
│ └── 2.5 视频理解CNN
│ ├── 2.5.1 3D CNN(C3D)
│ ├── 2.5.2 I3D(Inflated 3D ConvNet)
│ ├── 2.5.3 SlowFast(双路径架构)
│ └── 2.5.4 TSM(Temporal Shift Module)
├── 3. 循环神经网络 (RNN, Recurrent Neural Networks)
│ ├── 3.1 基础RNN
│ │ ├── 3.1.1 Simple RNN
│ │ └── 3.1.2 Elman Network / Jordan Network
│ │
│ ├── 3.2 长短期记忆网络 (LSTM)
│ │ ├── 3.2.1 标准LSTM
│ │ ├── 3.2.2 BiLSTM(双向LSTM)
│ │ └── 3.2.3 Stacked LSTM(多层堆叠)
│ │
│ ├── 3.3 门控循环单元 (GRU)
│ │ ├── 3.3.1 标准GRU
│ │ └── 3.3.2 BiGRU
│ │
│ └── 3.4 RNN 应用架构
│ ├── 3.4.1 Seq2Seq(序列到序列)
│ │ └── Encoder-Decoder 框架
│ ├── 3.4.2 加注意力机制的Seq2Seq
│ └── 3.4.3 语言模型(如 RNN-LM)
├── 4. 注意力机制与Transformer架构
│ ├── 4.1 注意力机制类型
│ │ ├── 4.1.1 加性注意力(Additive Attention)
│ │ ├── 4.1.2 缩放点积注意力(Scaled Dot-Product Attention)
│ │ ├── 4.1.3 自注意力(Self-Attention)
│ │ ├── 4.1.4 多头注意力(Multi-Head Attention)
│ │ └── 4.1.5 交叉注意力(Cross-Attention)
│ │
│ ├── 4.2 Transformer 基础架构
│ │ ├── 4.2.1 原始Transformer(Vaswani et al., 2017)
│ │ │ ├── Encoder-Decoder 结构
│ │ │ └── Positional Encoding
│ │ ├── 4.2.2 Transformer Encoder-only
│ │ │ └── BERT 系列
│ │ │ ├── BERT-Base/Large
│ │ │ ├── RoBERTa
│ │ │ ├── ALBERT(参数共享)
│ │ │ ├── ELECTRA
│ │ │ └── DeBERTa
│ │ ├── 4.2.3 Transformer Decoder-only
│ │ │ └── GPT 系列
│ │ │ ├── GPT-1/2/3/4
│ │ │ ├── LLaMA 系列
│ │ │ ├── ChatGLM
│ │ │ └── Falcon
│ │ └── 4.2.4 Prefix-LM / Encoder-Decoder
│ │ ├── T5(Text-to-Text Transfer Transformer)
│ │ └── BART(去噪自动编码器)
│ │
│ ├── 4.3 视觉Transformer (ViT)
│ │ ├── 4.3.1 Vision Transformer (ViT)
│ │ │ ├── ViT-Base/Small/Large
│ │ │ └── 数据依赖性强(需大规模预训练)
│ │ ├── 4.3.2 DeiT(Data-efficient Image Transformer)
│ │ ├── 4.3.3 Swin Transformer(移窗机制)
│ │ │ ├── Swin-Tiny/Small/Big
│ │ │ └── 层次化特征提取
│ │ ├── 4.3.4 PVT(Pyramid Vision Transformer)
│ │ └── 4.3.5 ConViT(卷积+Transformer混合)
│ │
│ └── 4.4 多模态Transformer
│ ├── 4.4.1 CLIP(图像-文本对比学习)
│ ├── 4.4.2 Flamingo(交错图文输入)
│ ├── 4.4.3 BLIP / BLIP-2(图文生成与理解)
│ └── 4.4.4 PaLM-E(具身AI,多模态+动作)
├── 5. 生成模型 (Generative Models)
│ ├── 5.1 变分自编码器 (VAE)
│ │ ├── 5.1.1 标准VAE
│ │ ├── 5.1.2 β-VAE(解耦表示)
│ │ └── 5.1.3 VQ-VAE(向量量化)
│ │
│ ├── 5.2 生成对抗网络 (GAN)
│ │ ├── 5.2.1 原始GAN
│ │ ├── 5.2.2 DCGAN(深度卷积GAN)
│ │ ├── 5.2.3 WGAN / WGAN-GP(Wasserstein距离)
│ │ ├── 5.2.4 CycleGAN(无配对图像转换)
│ │ ├── 5.2.5 StyleGAN 系列
│ │ │ ├── StyleGAN1/2/3
│ │ │ └── 人脸生成高质量
│ │ └── 5.2.6 BigGAN(大规模图像生成)
│ │
│ ├── 5.3 扩散模型 (Diffusion Models)
│ │ ├── 5.3.1 DDPM(去噪扩散概率模型)
│ │ ├── 5.3.2 Latent Diffusion(如 Stable Diffusion)
│ │ ├── 5.3.3 Score-Based Generative Models(得分匹配)
│ │ └── 5.3.4 DDIM(确定性采样加速)
│ │
│ └── 5.4 自回归生成模型
│ ├── 5.4.1 PixelRNN / PixelCNN(图像像素生成)
│ ├── 5.4.2 WaveNet(语音合成)
│ └── 5.4.3 Transformer-based(如 GPT 图像生成)
├── 6. 图神经网络 (GNN, Graph Neural Networks)
│ ├── 6.1 图卷积网络 (GCN)
│ │ ├── 6.1.1 GCN(Kipf & Welling)
│ │ └── 6.1.2 GraphSAGE(归纳式学习)
│ │
│ ├── 6.2 图注意力网络 (GAT)
│ │ ├── 6.2.1 GAT(多头注意力)
│ │ └── 6.2.2 GATv2(动态注意力)
│ │
│ ├── 6.3 图同构网络 (GIN)
│ │ └── 6.3.1 GIN(最强表达力)
│ │
│ ├── 6.4 时空图网络 (ST-GNN)
│ │ └── 6.4.1 ST-GCN(动作识别)
│ │
│ └── 6.5 应用方向
│ ├── 6.5.1 节点分类
│ ├── 6.5.2 链接预测
│ └── 6.5.3 图分类
├── 7. 强化学习中的深度模型 (Deep RL)
│ ├── 7.1 值函数方法
│ │ └── 7.1.1 DQN 及其变体(Double DQN, Dueling DQN)
│ │
│ ├── 7.2 策略梯度方法
│ │ ├── 7.2.1 REINFORCE
│ │ └── 7.2.2 PPO(Proximal Policy Optimization)
│ │
│ ├── 7.3 演员-评论家架构
│ │ ├── 7.3.1 A2C / A3C
│ │ ├── 7.3.2 DDPG(连续动作空间)
│ │ ├── 7.3.3 TD3(改进DDPG)
│ │ └── 7.3.4 SAC(Soft Actor-Critic)
│ │
│ └── 7.4 模型基础方法
│ └── 7.4.1 Dreamer(世界模型 + 规划)
├── 8. 自监督与预训练模型
│ ├── 8.1 对比学习 (Contrastive Learning)
│ │ ├── 8.1.1 SimCLR
│ │ ├── 8.1.2 MoCo(动量编码器)
│ │ ├── 8.1.3 BYOL(无负样本)
│ │ └── 8.1.4 SimSiam
│ │
│ ├── 8.2 掩码建模 (Masked Modeling)
│ │ ├── 8.2.1 BERT(文本)
│ │ ├── 8.2.2 MAE(Masked Autoencoder,图像)
│ │ └── 8.2.3 BEiT(图像到token)
│ │
│ └── 8.3 其他自监督任务
│ ├── 8.3.1 RotNet(旋转预测)
│ ├── 8.3.2 Jigsaw(拼图预测)
│ └── 8.3.3 CPC(对比预测编码)
├── 9. 混合架构与新兴方向
│ ├── 9.1 CNN + Transformer 混合
│ │ ├── 9.1.1 ConvNeXt(CNN结构现代化)
│ │ ├── 9.1.2 CoAtNet(卷积+注意力结合)
│ │ └── 9.1.3 MobileViT(轻量级视觉Transformer)
│ │
│ ├── 9.2 神经符号系统 (Neuro-Symbolic)
│ │ └── 结合符号逻辑与深度学习
│ │
│ ├── 9.3 脉冲神经网络 (SNN)
│ │ └── 事件驱动、低功耗
│ │
│ └── 9.4 状态空间模型 (SSM)
│ └── 9.4.1 Mamba(选择性SSM,替代Transformer)
│ └── 9.4.2 S4, S5
└── 10. 模型压缩与高效推理
├── 10.1 网络剪枝 (Pruning)
│ └── 结构化/非结构化剪枝
├── 10.2 量化 (Quantization)
│ ├── 8-bit / 4-bit 量化
│ └── QAT(量化感知训练)
├── 10.3 知识蒸馏 (Knowledge Distillation)
│ ├── Teacher-Student 框架
│ └── DistilBERT, TinyBERT
└── 10.4 轻量架构设计
└── 如前所述:MobileNet, EfficientNet, ShuffleNet
分类说明与使用建议
| 类别 | 典型应用场景 |
|---|---|
|
CNN |
图像分类、目标检测、语义分割 |
|
RNN/LSTM/GRU |
时序建模、语音识别、NLP(逐渐被Transformer取代) |
|
Transformer |
NLP、视觉、多模态、生成任务 |
|
GAN / Diffusion |
图像生成、风格迁移、数据增强 |
|
VAE |
表示学习、异常检测、生成 |
|
GNN |
社交网络、推荐系统、分子结构预测 |
|
Deep RL |
游戏AI、机器人控制、自动交易 |
|
Self-supervised |
大规模预训练、少标签场景 |
|
Hybrid Models |
平衡效率与性能(如 MobileViT) |
更多推荐
所有评论(0)