AI一本通（从底层到上层）

AI大模型从底层到上层

无名之辈我是谁

1377人浏览 · 2025-03-03 16:10:56

无名之辈我是谁 · 2025-03-03 16:10:56 发布

一、服务器

（一）服务器历史

大型机时代：服务器都是专用系统，兼容性差，可运行的系统少，但其最大优点是稳定。

x86时代：x86计算机的出现将服务器从大型机时代带到了x86时代，此时服务器是通用品，成了普通的硬件盒子。产业链实现了分工，服务器主板、三大件、各种配件灵活搭配，成本一降再降，兼容性特别好，但是稳定差。【此时因为企业的业务丰富了，一两台大型机也搞不定业务需求，因此x86计算机的通用性非常符合当时的业务需要，此时x86一家独大。】

AI时代：x86通用服务器虽然通用性好，但必然会丧失性能和稳定性，于是英伟达公司在做芯片的情况下，走向了整机甚至整柜市场，一个做芯片的公司，把整机厂家的工作都给做了。有人戏称，大型机又回来了。

（二）服务器分类

按形态分类：

存储服务器

GPU服务器

从硬件配置的角度来看，GPU服务器和普通服务器有着本质的不同。普通服务器通常配备中央处理器（CPU）、内存、硬盘等基本组件，用于承载和运行各种应用程序和服务。这些服务器通常使用标准的x86架构，硬件配置具有一定的扩展性，可以根据需求扩展存储容量、内存和处理能力等。

GPU服务器则在此基础上增加了高性能的图形处理器（GPU）这一重要组件。GPU是一种专门用于处理图形和并行计算任务的处理器，具有大量的核心和并行计算能力。这使得GPU服务器能够在短时间内完成大量的计算任务，尤其是在处理大规模并行计算和数据处理任务时表现出色。

GPU服务器和普通服务器在应用场景方面也存在明显的差异。GPU服务器因其强大的计算能力而被广泛应用于科研和工程领域。例如，在气象预测、石油勘探、基因测序等领域，GPU服务器可以提供高性能的计算支持，帮助科研人员更快地获得准确的结果。此外，GPU服务器还适用于深度学习、人工智能、大规模数据分析、密码学、视频渲染等对计算性能要求较高的应用场景。

（三）服务器组成

基础硬件：这些东西是服务器整机厂商提供的，包括主板、电源、风扇和机箱。

三大件等扩展配件：三大件指的CPU、内存和硬盘，这三件是服务器最贵的三个部件，现在GPU也是重要的部件了，其他还包括网卡、Raid卡等其他部件。

二、处理器

处理器与服务器的区别与联系：

1、服务器是一种计算机设备，用于管理、存储和处理数据，并为其他设备或用户提供网络服务；处理器是计算机的核心组件，负责执行程序指令和进行数据处理。

2、服务器通常包含一个或多个高性能处理器作为其核心计算单元。

3、处理器的性能和配置直接影响服务器的整体性能和服务质量。

芯片和CPU处理器的关系：
1、芯片：也称为集成电路（Integrated Circuit, IC），是一种将大量晶体管、电阻器、电容器等微型电子元件封装在一个微小的硅片上的技术。

2、芯片类型：根据功能和结构的不同，芯片可以分为处理器芯片、存储芯片、信号处理芯片等。

3、CPU处理器：CPU处理器属于处理器芯片的一种，本质上是一种特殊的芯片。它集成了大量的逻辑门、寄存器和控制电路，用于执行指令和处理数据。

4、芯片和CPU处理器的关系：芯片是一个广泛的概念，包括了CPU在内的各种功能芯片。

广义上来说，芯片有处理器芯片，处理器芯片又包含CPU处理器，并且CPU处理器是芯片的核心成员。

5、芯片之间的联系：CPU负责执行操作系统和应用程序的指令，而其他类型的芯片（如内存芯片、显卡芯片等）则提供必要的支持和辅助功能。CPU通过总线与其他芯片进行通信，协调各个部件的工作，确保整个系统的正常运行。

【注：此处以说的处理器仅指CPU处理器，但处理器并不只有CPU，只是处理器从CPU发展，随着大数据AI的崛起，近年来才发展出来GPU、NPU、DPU、LPU等】

（一）处理器分类

前文已经讲过，处理器和芯片的关系，可以粗泛的认为处理器芯片就是处理器。接下来以CPU、GPU、NPU、DPU、TPU、IPU、LPU、MCU、MPU 这9大主流处理器芯片展开论述。

芯片	架构设计	功能侧重	应用场景
CPU	（中央处理器）：采用复杂指令集（CISC）或精简指令集（RISC）架构，注重通用性和顺序执行能力，具备丰富的运算逻辑单元和复杂的控制单元，以应对复杂的任务调度和多样化的计算需求。	作为计算机的核心，负责整体的系统控制和复杂逻辑运算，能处理各种类型的任务，包括操作系统管理、应用程序运行、数据处理等。	广泛应用于各种通用计算机，如个人电脑、服务器、大型机等，是计算机系统不可或缺的核心组件。
GPU	（图形处理器）：拥有大量的计算核心，采用并行计算架构，适合处理大规模的图形数据和并行计算任务，如 3D 渲染、科学计算等。	主要用于图形处理，如生成、渲染和显示图像，在 3D 游戏、动画制作、虚拟现实（VR）、增强现实（AR）等领域发挥关键作用，也可用于通用并行计算（GPGPU）。	在游戏主机、图形工作站、数据中心的深度学习训练、科学计算等领域应用广泛，是实现高质量图形渲染和大规模并行计算的关键。
NPU	（神经网络处理器）：专为神经网络算法设计，采用独特的架构，包含大量的乘累加单元（MAC）和存储单元，能够高效地执行深度学习算法中的矩阵运算和卷积运算。	专注于神经网络计算，能够快速处理深度学习算法中的数据，广泛应用于图像识别、语音识别、自然语言处理等人工智能领域。	主要应用于人工智能领域，如智能安防摄像头、智能语音助手、自动驾驶汽车等，实现对图像、语音、文本等数据的智能处理。
DPU	（数据处理器）：强调对数据的快速处理和转发，具备硬件加速引擎，可对网络数据进行高效的解析、过滤和转发，以减轻 CPU 的负担。	专注于数据处理，尤其是网络数据的处理，负责网络数据包的解析、过滤、转发等，提高数据传输和处理的效率，常用于数据中心和网络设备中。	主要应用于数据中心、网络设备等，用于加速网络数据处理和存储访问，提高数据中心的性能和效率。
TPU	（张量处理器）：为加速深度学习中的张量运算而设计，采用脉动阵列（Systolic Array）架构，能够高效地执行大规模的矩阵乘法和卷积运算，大幅提高深度学习的计算效率。	专为深度学习中的张量计算而设计，在训练和推理过程中，能够提供比 CPU 和 GPU 更高的计算效率，加速深度学习模型的运行。	主要应用于谷歌的深度学习框架和相关人工智能应用中，为深度学习模型的训练和推理提供高效的计算支持。
IPU	（智能处理器）：基于 MIMD（多指令多数据）架构，拥有独特的环型网络结构和大量的处理单元，能够实现高效的并行计算和数据处理。	旨在为人工智能应用提供高效的计算支持，能够同时处理多个任务，在机器学习、数据分析等领域表现出色。	适用于各种需要高效处理人工智能任务的场景，如数据分析、机器学习、智能安防等。
LPU	（学习处理器）：架构设计侧重于对学习算法的优化，具备可重构的计算单元和存储结构，能够根据不同的学习任务进行灵活调整。	主要用于执行学习算法，如机器学习、深度学习算法，能够根据数据进行学习和优化，适用于智能设备和自主学习系统。	常用于智能设备和自主学习系统，如智能家居设备、智能机器人等，实现设备的自主学习和智能控制。
MCU	（微控制器）：通常采用哈佛架构或冯・诺依曼架构，集成了处理器内核、存储器、输入输出接口等功能模块，结构相对简单，注重低功耗和低成本。	主要用于控制和监测，集成了微处理器、存储器、输入输出接口等，广泛应用于各种嵌入式系统，如智能家居、工业控制、汽车电子等。	广泛应用于各类嵌入式系统，如智能家居设备、工业自动化控制系统、汽车电子系统、医疗设备等，负责设备的控制和监测。
MPU	（微处理器）：基于通用的处理器架构，如 ARM 架构等，具备较强的处理能力和丰富的接口，可运行复杂的操作系统和应用程序。	强调数据处理能力，可运行复杂的操作系统和应用程序，常用于智能设备、平板电脑、工业计算机等。	常用于智能设备、平板电脑、工业计算机、网络设备等，作为核心处理器运行复杂的操作系统和应用程序。

（二）CPU处理器

1、CPU十大品牌

CPU十大品牌来源： 2025CPU十大品牌 10大CPU品牌→Maigoo品牌网

2、CPU分类

来源： https://zhuanlan.zhihu.com/p/663771560

3、CPU主要结构

寄存器：是中央处理器内的组成部分。它们可以用来暂存指令、数据和地址。可以将其看作内存的一种。根据种类的不同，一个CPU内部会有20-100个寄存器。

控制器：负责内存上的指令、数据读入寄存器，并根据指令的结果控制计算器。

运算器：负责运算从内存中读入寄存器的数据。

时钟：负责发送CPU开始计时的时钟信号。

4、CPU架构

（1）CPU指令集架构

一是以Intel、AMD为代表的复杂指令集（CISC），采用X86架构；

二是ARM、IBM代表的精简指令集（RISC），ARM公司采用ARM架构，IBM采用POWER架构。

（2）CPU主流计算架构

主流的计算架构主要有X86、ARM和POWER三种：

X86架构：属于封闭的硬件架构，Intel和AMD对外基本不授权，在技术演进方向、节奏、供应等方面均由个别公司主导和把控，但生态应用已经非常完备。

ARM架构：是开放的硬件架构，ARM公司采取积极的商业策略，向众多合作伙伴授权开发，共同营造ARM端到端生态，这个产业链也趋于完善。

POWER架构：由IBM主导，应用领域主要集中在超算和认知计算领域，存在应用开发者少、生态弱和可持续发展能力不足的短板。

原文链接：https://blog.csdn.net/weixin_42463871/article/details/105268449

【更多CPU知识可参考：计算机组成原理——CPU的结构和功能_cpu结构图-CSDN博客】

【指令集和架构的参考知识：指令集，架构，都是什么意思？ - o蹲蹲o - 博客园】

（三）GPU处理器

GPU与显卡的区别：

显卡：也被称为显示卡，是计算机中至关重要的组件之一，其主要职责是负责处理和输出显示图形任务。其工作原理涉及对由CPU提供的指令和数据进行相应处理，将其转换成显示器能够接受并展示的文字或图像。【显卡知识补充：百度安全验证】

GPU：即图形处理器，是显卡的核心芯片，专门用于处理图形数据和进行图形运算。GPU 在处理图形渲染、图像视频解码等方面具有强大的并行计算能力，能够快速处理大量的图形数据，生成高质量的图像和视频内容。

显卡不但包含GPU，同时还包含显存、供电电路、散热系统等多个组件的硬件设备，而 GPU 是显卡的核心部件。

显卡和芯片的区别：
显卡包含GPU芯片，但又不包含全部的芯片，所以他俩的关系应该是数学中 ∩ 的关系。

协同工作‌：芯片和显卡在计算机中是协同工作的。CPU负责处理大部分的计算任务，而GPU则专注于图形处理。当需要处理复杂的图形数据时，CPU会将任务分配给GPU，GPU完成处理后再将结果返回给CPU。

‌性能互补‌：芯片和显卡的性能是相互补充的。一个高性能的CPU可以更快地处理数据并发送给GPU，而一个高性能的GPU则可以更快地渲染图像。因此，在选择计算机配置时，需要根据使用需求来平衡CPU和GPU的性能。

集成与独立‌：值得注意的是，有些计算机中的显卡是集成在芯片上的（如集成显卡），这种设计可以降低成本和功耗，但性能可能不如独立显卡。独立显卡则拥有自己独立的GPU和显存，可以提供更好的图形处理性能。

【补充知识：芯片、GPU、CPU、显卡、显存、x86、ARM、AMD等基础知识】

1、GPU十大品牌

GPU十大品牌来源： 2025GPU十大品牌 10大GPU品牌→Maigoo品牌网

2、显卡的分类

不同用途的显卡性能区别：

显存带宽；

显存容量；

显卡计算核心数量；

显卡计算核心频率；

显卡高精度计算能力(float64)；

显卡低精度计算能力（float32/float16/int8）；

显卡的多卡互联能力；

训练卡和推理卡的区别：

明白了神经网络训练和推理时的差别，就知道对GPU的需求的差别了

神经网络训练：通常使用随机梯度下降算法，显存中除了加载模型参数，还需要保存中间状态，主要是梯度信息，相比推理，显存需求要增加几倍，显存要够大才能跑起来；要训练好的模型，需要使用大量数据，大量数据要读入显存，显存带宽要够大；另外对于当前的大数据量，单卡已经无法满足要求，要用多卡集群训练；集群训练要在多机间通信，要交换大量数据，要支持更高的通信带宽；接口一般用NVLINK，通常还要GPU支持RDMA特性，能够直接在显存和通信卡内存间搬数据。

训练卡：要求显存大，显存带宽大，和外部通信接口带宽大，算力就不说了，都不是主要考虑问题了，训练卡目前主要是NVIDIA的A100和V100。

推理卡：算力和显存平衡就可了，模型能装的进去，把算力跑起来，推理卡英伟达的T4便宜，算力也够强。

训练卡 ：侧重于高精度、大显存、强算力，满足复杂模型的训练需求。

推理卡 ：侧重于低精度、小显存、低延迟，满足高效部署和实时响应的需求。

3、常见显存(GPU)系列

训练卡：

英伟达（NVIDIA）的 H100/H800/A100/A800几种为主，目前国内价格在10-30 万元每张居多。

华为的昇腾910B

推理卡：

英伟达的有 4060/4090/3060/3080/3090 等型号，价格在几千到两万左右不等。

华为的Atlas 300 系列

总的来说：推理可以用训练卡，训练不可以用推理卡。

三、大模型

（一）大模型架构

1、核心基础架构

（1）Transformer架构‌

采用自注意力机制替代传统RNN/LSTM结构，支持并行计算且擅长捕捉长距离依赖关系，是当前大模型的主流基础架构，典型代表包括GPT系列和BERT‌3。
关键组件包含：多头注意力机制（增强模型表示能力）、位置编码（弥补序列顺序信息缺失）

‌（2）BERT（双向编码器）‌

基于Transformer的双向预训练模型，通过遮蔽语言模型任务捕捉上下文语义关系，同时考虑左侧和右侧的上下文，增强了理解能力。适用于文本分类、问答等任务‌。

优缺点‍：

优点：双向编码器能够更好的理解上下文，尤其适合理解复杂的语言现象

缺点：生成能力较弱，主要适用于理解认为；模型计算成本较高‍‍

‌（3）GPT（生成式预训练模型）‌

GPT是一种基于Transformer的自回归模型，通过自回归生成方式处理文本生成类任务，典型代表如GPT-3/4系列模型‌3。与BERT不同，GPT是单向的，采用单向Transformer解码器结构，即只使用过去的上下文来预测当前的单词。

‌（4）T5（统一文本转换框架）‌

将各类NLP任务统一为文本到文本的转换模式，通过前缀标识区分任务类型，实现多任务统一建模‌。可以将所有任务都转换为文本生成任务；例如翻译任务中的输入是原文，输出是译文；文本分类任务中的输入是句子，输出是类别标签‍‍‍‍‍‍‍‍‍。

优缺点：

优点：统一框架便于跨任务的知识迁移，模型更具有通用性‍

缺点：对生成任务过于依赖，可能不适合一些特定的理解任务‍‍

【参考：大模型技术学习之——大模型常用架构以及技术难点】

2、应用架构模式

（1）路由分发架构‌

通过控制中心对用户查询进行分类，将简单任务路由至小模型处理，复杂任务由大模型处理，平衡成本与性能‌。

‌（2）大模型代理架构‌

大模型作为主代理协调多个专业小模型，分别处理子任务后整合结果，适用于复杂问题拆解场景‌。

‌（3）多任务微调架构‌

对单一模型进行多任务联合微调，增强模型泛化能力，适用于虚拟助手等需多领域处理的应用‌。

‌（4）知识蒸馏架构‌

将大模型知识迁移至轻量小模型，降低部署成本，常用于边缘计算场景‌。

‌（5）知识图谱融合架构‌

结合知识图谱增强大模型的事实准确性，输出内容兼具生成能力与事实依据，适用于医疗、金融等领域‌。

‌（6）五层技术架构（系统级设计）‌

包含应用层（智能文档审核等）、服务开发层（API接口）、推理部署层、模型层（算法优化）及基础设施层（硬件支持），形成端到端技术生态‌。

【另一种分类：大模型应用架构选择指南：六大模式深度解析】

（二）DeepSeek

参考学习文档：

DeepSeek系统架构的逐层分类拆解分析，从底层基础设施到用户端分发全链路

DeepSeek技术深度解析：从不同技术角度的全面探讨

参考引用：

[1] 链接：https://www.zhihu.com/question/21440463/answer/61043728896

[2] 链接：https://zhuanlan.zhihu.com/p/24732116109

[3] 链接：https://zhuanlan.zhihu.com/p/663771560

[4] 链接：https://blog.csdn.net/m0_73384617/article/details/139887883

[5] 链接：https://blog.csdn.net/weixin_42463871/article/details/105268449

[6] 链接：https://www.cnblogs.com/liqi175/p/17903419.html

[7] 链接：https://blog.csdn.net/hao_wujing/article/details/144820794

[8] 链接：https://www.cnblogs.com/xyz/p/18002495

[9] 链接：https://developer.aliyun.com/article/1259910

[10] 链接：https://zhuanlan.zhihu.com/p/660105712

[11] 链接：https://blog.csdn.net/timonium/article/details/145709918

[12] 链接：https://blog.csdn.net/2401_82505179/article/details/145424651

[13] 链接：https://blog.csdn.net/2401_85373691/article/details/141668748

[14] 链接：https://blog.csdn.net/2401_85325726/article/details/141900154

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla