大模型面试必问知识：Transformer、BERT、GPT

是时候准备面试和实习了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。今天来聊一聊BERT和GPT的架构，从而了解大模型的第三步：Transformer。Transformer作为现代大语言模型的基石，其编码器-解码器架构为BERT和GPT提供了截然不

大模型与计算机视觉

1099人浏览 · 2025-05-24 14:13:56

大模型与计算机视觉 · 2025-05-24 14:13:56 发布

是时候准备面试和实习了。

不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。

最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

《大模型面试宝典》(2025版) 正式发布！

喜欢本文记得收藏、关注、点赞。

在这里插入图片描述

今天来聊一聊BERT和GPT的架构，从而了解大模型的第三步：Transformer。

Transformer作为现代大语言模型的基石，其编码器-解码器架构为BERT和GPT提供了截然不同的技术路径。BERT是Encoder-only架构，通过双向编码器捕捉上下文信息，适合需要深度理解的任务；而GPT是Decoder-only架构，通过自回归生成机制，逐步生成文本，适合生成式任务。

BERT vs GPT

一、BERT（Encoder-only）

BERT的架构：双向理解的编码器

一、Transformer编码器（Encoder）：

Transformer编码器（Encoder）由 N 个相同层堆叠而成（通常 N=6 或 12），每个层包含两个核心子层：多头自注意力子层（Multi-Head Self-Attention）和前馈神经网络子层（Feed-Forward Network, FFN）。

每个子层均通过残差连接（Residual Connection）与层归一化（Layer Normalization）优化训练稳定性。

Transformer Architecture Part -1. In recent years, transformers have… | by Sachinsoni | Towards AI

（1）多头自注意力（Multi-Head Self-Attention）

输入向量通过线性变换生成查询（Q）、键（K）、值（V）向量；每个注意力头通过缩放点积（Scaled Dot-Product）独立计算词与词之间的注意力权重；多个注意力头的输出拼接后通过线性层融合。

（2）前馈神经网络（Feed-Forward Network, FFN）

多头自注意力层后，每个位置独立通过前馈神经网络（FFN）进行非线性变换；FFN是一个多层感知机，由两层全连接层组成，中间使用 ReLU 激活函数。

（3）残差连接（Residual Connection）

残差连接由何凯明团队在ResNet中首次提出，将子层输入直接叠加到输出，避免多层叠加后性能反而下降，解决模型在训练过程中的梯度消失和网络退化问题。

（4）层归一化（Layer Normalization）

残差连接后接层归一化（LayerNorm），标准化输出分布，加速收敛并稳定训练。

二、BERT架构：

BERT仅使用Transformer的编码器部分，通过双向编码器全面理解上下文，适合需要深度语义理解的任务（如问答、文本分类）。其核心任务包括：

（1）掩码语言模型（MLM）

随机遮蔽输入序列中的部分单词，要求模型预测这些单词。

（2）下一句预测（NSP）

判断两个句子是否连续。

BERT: The Breakthrough in Bidirectional Language Understanding

三、专业术语：

忽略：掩码语言模型（MLM）、下一句预测（NSP）

关注：自注意力（Self-Attention）、多头自注意力（Multi-Head Self-Attention）

二、GPT（Decoder-only）

GPT的架构：自回归生成的解码器

The Rise of LLMs: From GPT to Modern Innovations | by LM Po | Medium

一、Transformer解码器（Decoder）：

Transformer解码器（Decoder）由 N 个相同层堆叠而成（通常 N=6 或 12），每层包含三个关键子层：掩码自注意力层（Masked Self-Attention）、编码器-解码器注意力层（Encoder-Decoder Attention）和前馈神经网络子层（Feed-Forward Network, FFN）。

每个子层也均通过残差连接（Residual Connection）与层归一化（Layer Normalization）优化训练稳定性。

Decoder-Only Transformers: The Workhorse of Generative LLMs

（1）掩码自注意力层（Masked Self-Attention）

通过掩码机制限制模型仅关注当前位置之前的词，这样在计算注意力权重时，将未来位置的权重设为负无穷（softmax后趋近于0），确保生成顺序正确性。例如生成第3个词时，仅允许关注前两个词。

（2）编码器-解码器注意力层（Encoder-Decoder Attention）

解码器的自注意力输出作为查询（Query），编码器的输出作为键（Key）和值（Value），通过注意力权重筛选关键信息。这样可以整合编码器的语义信息，指导解码器生成与源序列相关的输出。

（3）前馈神经网络（Feed-Forward Network, FFN）

多头自注意力层后，每个位置独立通过前馈神经网络（FFN）进行非线性变换；FFN是一个多层感知机，由两层全连接层组成，中间使用 ReLU 激活函数。

（4）残差连接（Residual Connection）

（5）层归一化（Layer Normalization）

残差连接后接层归一化（LayerNorm），标准化输出分布，加速收敛并稳定训练。

二、GPT架构：

GPT仅使用Transformer的解码器部分，只需要掩码自注意力层（Masked Self-Attention），不需要编码器-解码器注意力层（Encoder-Decoder Attention）。

GPT通过自回归方式从左到右生成文本，适合生成式任务（如对话生成、文章续写）。其核心任务是：语言建模：预测下一个词。

（1）逐词生成模式

GPT的生成过程严格遵循从左到右的顺序，每个新词仅基于已生成的历史内容预测。

这一过程模仿人类“边写边想”的思维逻辑，确保上下文的连贯性。

例如，生成句子“今天天气很热”时：输入初始Token序列“[今天]”，模型预测下一个词为“天气”；输入更新为“[今天, 天气]”，预测“很”；输入扩展为“[今天, 天气, 很]”，最终预测“热”并结束生成。

（2）掩码注意力机制

掩码自注意力通过屏蔽未来位置的Token（如生成第3个词时禁止访问第4个词），强制模型仅依赖历史信息生成当前词。这种设计防止模型“偷看”未来数据，维持生成过程的逻辑自洽。

（3）动态输入更新

生成过程中，模型每一步将新预测的Token加入输入序列，形成滚雪球式信息累积。

例如，GPT-3生成长文本时，输入序列从短句逐步扩展至完整段落，实现开放式内容创作。

GPT-3 An Overview · All things

三、专业术语：

忽略：编码器-解码器注意力层（Encoder-Decoder Attention）

关注：掩码自注意力层（Masked Self-Attention）

…(img-PEPnjdm1-1748067112157)]

三、专业术语：

忽略：编码器-解码器注意力层（Encoder-Decoder Attention）

关注：掩码自注意力层（Masked Self-Attention）

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大