Hugging Face 生态使用指南，大模型微调、预训练必备技能

Hugging Face 是一家提供开源 AI 工具和平台的公司，致力于简化预训练模型的使用，加速机器学习项目的开发与落地。

AI-智能

1207人浏览 · 2025-11-29 15:10:54

AI-智能 · 2025-11-29 15:10:54 发布

1、Hugging Face 生态概览

原文：

https://www.yuque.com/lhyyh/ai/huggingface

1.1 简介

Hugging Face 是一家提供开源 AI 工具和平台的公司，致力于简化预训练模型的使用，加速机器学习项目的开发与落地。

最初以Transformers 库闻名，该库极大地降低了使用 BERT、GPT、T5 等模型的门槛。如今，Hugging Face 已发展成为一个完整的 AI 开发生态系统，支持自然语言处理、计算机视觉、语音处理、多模态任务等多个领域。

Hugging Face 的生态系统主要由两个核心部分组成：

1.1.1 Hugging Face Hub

Hugging Face提供了一个集中式的开源平台，用于托管和分享模型、数据集和应用。

官网地址为：

https://huggingface.co/
国内镜像地址为：

https://hf-mirror.com/

1.1.2 工具链（Libraries）

Hugging Face 提供了一套围绕预训练模型构建的工具库。这些组件彼此独立，又可以协同工作，覆盖了从数据处理到模型训练与推理的完整流程。

各组件具体功能如下：

Datasets

Datasets 是用于加载和处理数据集的工具库。支持从在线仓库或本地文件（如 CSV、JSON）加载文本数据，并支持清洗、编码、切分等预处理操作。处理后的数据可直接用于模型训练，是连接原始数据与模型输入的重要桥梁。

Tokenizers

Tokenizers 是用于将文本转换为模型输入的工具。它支持文本分词、编码为 token ID，同时自动处理特殊符号、填充（padding）、attention mask 和句子对标记（token type ID）。分词器通常与模型配套使用，可通过统一接口加载。

Transformers

Transformers 是 Hugging Face 最核心的库，用于加载、使用和微调各种预训练模型。该库统一了模型接口，支持数百种模型结构，如 BERT、GPT 等，用户可以通过一行代码 from_pretrained()直接加载公开模型，快速用于推理或训练。

2、预训练模型的加载与使用

2.1 模型加载详解

2.1.1 AutoModel类

在使用 Hugging Face 生态中的预训练模型时，第一步往往是从 Hub 上选择一个合适的模型，然后将其加载到本地进行微调或推理。为了简化这一流程，Transformers 库提供了统一的模型加载接口—— AutoModel，用于自动下载和加载模型。

具体代码如下：

from transformers import AutoModel# 加载模型model = AutoModel.from_pretrained("google-bert/bert-base-chinese")

上述代码执行的操作如下：

**1）**下载模型所需资源

AutoModel 会根据提供的模型名称，从 Hugging Face Hub 上下载所需的模型资源，包括模型权重和配置文件。

这些文件会自动缓存到本地，默认路径是：~/.cache/huggingface/hub/。下次加载相同模型时会直接读取缓存，不再联网下载。

注意：如需使用国内镜像站，需配置如下环境变量

HF_ENDPOINT=https://hf-mirror.com

**2）**根据配置文件创建模型

配置文件（config.json）定义了模型的结构信息，Transformers 会据此识别模型类型（如 BERT），并自动实例化对应的模型类（如 BertModel）。这些模型类均继承自 PyTorch 的 nn.Module，因此构建出的对象本质上是一个标准的神经网络模型。

上述代码得到的model类型为BertModel。

**3）**加载模型权重

将下载的权重文件加载到模型实例中，至此模型准备完毕，可直接用于推理或微调。

除了在线加载模型之外，from_pretrained()也支持从本地路径加载模型，要求目录中包含模型权重和配置文件，代码如下

from transformers import AutoModel# 加载模型model = AutoModel.from_pretrained("./pretrained/bert-base-chinese")

2.1.2 AutoModelForXXX类

AutoModel 只加载预训练模型的主干结构，不包含任何任务相关的输出层，适用于特征提取或自定义模型结构的场景。

除此之外，Transformers 还提供了用于具体任务的专用模型类：AutoModelForXXX，这些类在模型主干的基础上，自动添加了适配任务的输出层（通常称为“任务头”或 Task Head），使模型能够直接用于分类、命名实体识别、问答等标准 NLP 任务的训练与推理，无需手动修改结构。

常用的任务模型类有：

上述AutoModelForXXX类的用法与AutoModel类一致，例如现在需要一个基于bert-base-chinese的文本分类模型，便可直接通过以下代码进行加载：

# 加载模型from transformers import AutoModelForSequenceClassificationmodel = AutoModelForSequenceClassification.from_pretrained("google-bert/bert-base-chinese")

上述代码得到的model的类型为BertForSequenceClassification。模型结构包括：

BERT 编码器主干；
一个线性层（任务头），用于输出每个类别的得分。

此外，对于特定任务的模型，我们还可以在from_pretrained() 中设置一些参数用于控制任务头的行为，例如：

model = AutoModelForSequenceClassification.from_pretrained(    "google-bert/bert-base-chinese",    num_labels=3)

参数说明：


参数名	说明
num_labels	指定分类任务的类别数，默认值为 2。用于构建分类头的输出维度

2.2 模型输入输出详解

在使用Hugging Face 的 Transformers 模型时，理解其输入格式与输出结构，是正确使用模型的前提。

由于通过AutoModel 或 AutoModelForXXX 加载的模型，本质上是 PyTorch 的 nn.Module 子类，其前向传播过程通过 forward() 方法实现，所以要了解某个模型支持哪些输入参数、返回哪些输出字段，最直接、最权威的方式就是查看其 forward() 方法定义。

各模型forward方法的定义，可查看Transformers库的API文档：

例如：

BertModel的forward方法定义可参考如下链接

官方网站
镜像网站

BertForSequenceClassification的forward方法定义可参考如下链接

官方网站
镜像网站

3、Tokenizer的加载与使用

3.1 概述

在 Hugging Face 的 Transformers 库中，每一个预训练模型都配套绑定有一个专用的 Tokenizer，它负责将原始文本转换为模型可以理解的输入格式（如 input_ids、attention_mask 等），是连接原始文本与模型计算之间的关键环节。

这些Tokenizer 通常集成了从文本到张量的全流程处理能力，主要包括以下几个方面：

子词切分（subword tokenization）：将输入文本拆分为子词单元；
编码映射：将每个子词转换为对应的整数ID，即 input_ids；
添加特殊Token：自动插入如 [CLS]、[SEP] 等任务相关的特殊符号；
截断与补齐（truncation & padding）：统一输入序列长度，构造批量输入；
生成辅助输入：根据模型需求生成attention_mask、token_type_ids 等附加字段；

3.2 加载Tokenizer

在Transformers库中，AutoTokenizer用于加载与指定模型配套的分词器。它会根据模型名称自动选择并实例化正确的分词器类型（如 BertTokenizer、GPT2Tokenizer、T5Tokenizer 等）。

AutoTokenizer的用法与AutoModel相似，具体用法如下：

from transformers import AutoTokenizer# 加载分词tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-chinese")

上述代码执行的操作如下：

AutoTokenizer 会根据提供的模型名称，从 Hugging Face Hub 上下载所需的文件资源，包括配置文件词表。这些文件会自动缓存到本地，默认路径是：~/.cache/huggingface/hub/。下次加载相同模型时会直接读取缓存，不再联网下载。

注意：如需使用国内镜像站，需配置如下环境变量

HF_ENDPOINT=https://hf-mirror.com

之后AutoTokenizer便会根据配置文件和词表实例化一个Tokenizer对象。

除了在线加载模型之外，from_pretrained()也支持从本地路径加载模型，要求目录中包含词表和配置文件，代码如下

from transformers import AutoTokenizer# 加载模型tokenizer = AutoTokenizer.from_pretrained("./pretrained/bert-base-chinese")

3.3 使用Tokenizer

3.3.1 概述

前文提到过，Transformers库中的Tokenizer包括如下功能：

子词切分
编码映射
添加特殊Toke
截断与补齐
生成辅助输入

下面逐一进行演示：

3.3.2 常用API

**1）**分词（tokenize）

from transformers import AutoTokenizer# 加载分词器和模型tokenizer = AutoTokenizer.from_pretrained("./pretrained/bert-base-chinese")tokens = tokenizer.tokenize("我爱自然语言处理")print(tokens)

输出内容如下

['我', '爱', '自', '然', '语', '言', '处', '理']

2）token转ID（convert_tokens_to_ids）

from transformers import AutoTokenizer# 加载分词器和模型tokenizer = AutoTokenizer.from_pretrained("./pretrained/bert-base-chinese")tokens = tokenizer.tokenize("我爱自然语言处理")ids = tokenizer.convert_tokens_to_ids(tokens)print(ids)

输出内容如下

[2769, 4263, 5632, 4197, 6427, 6241, 1905, 4415]

3）ID转token（convert_ids_to_tokens）

from transformers import AutoTokenizer# 加载分词器和模型tokenizer = AutoTokenizer.from_pretrained("./pretrained/bert-base-chinese")ids = [2769, 4263, 5632, 4197, 6427, 6241, 1905, 4415]tokens = tokenizer.convert_ids_to_tokens(ids)print(tokens)

输出内容如下

['我', '爱', '自', '然', '语', '言', '处', '理']

**4）**编码（encode）

编码是将 tokenize + convert_tokens_to_ids 合并后的结果，通常还会自动添加特殊符号（如 [CLS] 和 [SEP]），除此之外，还支持padding、truncate等功能。

from transformers import AutoTokenizer# 加载分词器和模型tokenizer = AutoTokenizer.from_pretrained("./pretrained/bert-base-chinese")ids = tokenizer.encode("我爱自然语言处理")print(ids)

输出内容如下

[101, 2769, 4263, 5632, 4197, 6427, 6241, 1905, 4415, 102]

注：可通过add_special_tokens=False参数禁止添加特殊符号

**5）**解码（decode）

解码会将一个 token ID 序列还原为对应的原始文本（或接近的文本）。

from transformers import AutoTokenizer# 加载分词器和模型tokenizer = AutoTokenizer.from_pretrained("./pretrained/bert-base-chinese")ids = [101, 2769, 4263, 5632, 4197, 6427, 6241, 1905, 4415, 102]string = tokenizer.decode(ids)print(string)

输出内容如下：

[CLS] 我 爱 自 然 语 言 处 理 [SEP]

注：可通过skip_special_tokens=True参数跳过特殊符号

6）tokenizer()方法（即__call__）

这是最推荐的接口，用于直接构造模型所需的输入，其基本用法如下

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("./pretrained/bert-base-chinese")text = "我爱自然语言处理"# 编码文本为模型输入格式inputs = tokenizer(text)print(inputs)

输出内容如下：

{  'input_ids': [101, 2769, 4263, 5632, 4197, 6427, 6241, 1905, 4415, 102],   'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],   'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

除去text，tokenizer还提供了多个重要参数：

inputs = tokenizer(  text,  padding=True,  truncation=True,  max_length=128,  return_tensors="pt")

各参数含义如下请参考官方文档。

此外，tokenizer()方法还支持直接对多个文本组成的列表进行批量处理，非常适合用于模型训练或推理。

from transformers import AutoTokenizer# 加载分词器和模型tokenizer = AutoTokenizer.from_pretrained("./pretrained/bert-base-chinese")texts = ["我爱自然语言处理", "我爱人工智能", "我们一起学习"]inputs = tokenizer(texts,padding="max_length",  # 自动补齐truncation=True,  # 自动截断max_length=10,  # 统一最大长度return_tensors="pt"  # 返回 PyTorch 张量格式)print(inputs)

输出内容是一个包含三个字段的字典，每个字段是形状为(batch_size, seq_len) 的张量：

{  'input_ids': tensor([[ 101, 2769, 4263, 5632, 4197, 6427, 6241, 1905, 4415,  102],  [ 101, 2769, 4263,  782, 2339, 3255, 5543,  102,    0,    0],  [ 101, 2769,  812,  671, 6629, 2110,  739,  102,    0,    0]]),   'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]),   'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],  [1, 1, 1, 1, 1, 1, 1, 1, 0, 0],  [1, 1, 1, 1, 1, 1, 1, 1, 0, 0]])}

3.4 与预训练模型配合使用

从文本输入到模型输出的完整流程如下：

from transformers import AutoTokenizer, AutoModelimport torch# 1. 加载模型和分词器model_name = "bert-base-chinese"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModel.from_pretrained(model_name)# 2. 准备批量文本texts = ["我爱自然语言处理", "我爱人工智能", "我们一起学习"]# 3. 编码文本为模型输入格式encoded = tokenizer(texts,padding="max_length",truncation=True,max_length=10,return_tensors="pt")# 5. 模型推理（不计算梯度）with torch.no_grad():outputs = model(input_ids=encoded["input_ids"],attention_mask=encoded["attention_mask"],token_type_ids=encoded["token_type_ids"])# 6. 查看输出张量结构print(outputs.keys())print("last_hidden_state:", outputs.last_hidden_state.shape)print("pooler_output:", outputs.pooler_output.shape)输出内容如下：odict_keys(['last_hidden_state', 'pooler_output'])last_hidden_state: torch.Size([3, 10, 768])pooler_output: torch.Size([3, 768])

4、Datasets库

4.1 概述

datasets是 Hugging Face 提供的一个轻量级数据处理库，专为自然语言处理任务设计，能够高效地支持模型训练流程中的数据加载与预处理操作。

主要特点包括：

加载方便：支持读取本地文件（如CSV、JSON），也支持加载在线公开数据集；
结构清晰：数据集的内部结构类似表格，每条样本由若干字段组成；
无缝协作：与tokenizer 等 Hugging Face 模块高度集成，可直接构造模型输入；
功能丰富：支持常见的数据处理操作，如批量映射（.map()）、字段筛选、训练/验证集划分（.train_test_split()）等。

datasets库的安装命令如下：

pip install datasets

4.2 加载数据集

datasets库提供了统一的接口 load_dataset()，既支持从本地文件加载数据，也支持从 Hugging Face Hub 加载在线开源数据集。

4.2.1 加载本地数据

load_dataset()支持多种本地文件格式，如 CSV、JSON、Parquet，并允许一次加载一个或多个文件。其基本语法如下：

from datasets import load_datasetdataset = load_dataset(format, data_files=路径或字典)

参数说明如下：


参数	类型	说明
format	str	文件格式，常用的包括 “csv”、“json”、“parquet” 等
data_files	str 或 dict	文件路径。可传入字符串（加载单个文件）或字典（加载多个文件，如训练数据/测试数据）

具体用法如下：

**1）**加载多个文件

from datasets import load_datasetdataset_dict = load_dataset('csv', data_files={'train': './data/train.csv','test': './data/test.csv'})此时返回的是一个包含两个Dataset的 DatasetDict，其中每个Dataset称为一个split。from datasets import load_datasetdataset_dict = load_dataset('csv', data_files={'train': './data/train.csv','test': './data/test.csv'})print(dataset_dict)# DatasetDict({#     train: Dataset(...),#     test: Dataset(...)# })

**2）**加载单个文件

from datasets import load_datasetdataset_dict = load_dataset('csv', data_files='./data/dataset.csv')

此时返回的也是一个 DatasetDict，其中只包含默认命名为 “train” 的一个Dataset。

print(dataset_dict)# DatasetDict({#     train: Dataset(...)# })

4.2.2 查看数据集

本节以情感分析案例中的评论数据集为例，演示如何使用datasets 的常用 API 查看数据内容：

1）获取Dataset

load_dataset()返回的是一个 DatasetDict对象，可以像字典一样通过键名（如 “train”）访问split。

from datasets import load_datasetdataset_dict = load_dataset('csv', data_files='data/raw/online_shopping_10_cats.csv')dataset = dataset_dict["train"]

此时dataset是一个 Dataset 对象，表示训练集。

**2）**访问样本

Dataset支持索引和切片操作来访问样本：

print(dataset[0])       # 单条样本print(dataset[:3])      # 多条样本（注意返回结构）

返回结构说明：


访问方式	返回示例
dataset[0]	{‘review’: ‘很喜欢的一本书’, ‘label’: 1, ‘cat’: ‘书籍’}
dataset[:3]	{‘review’: [‘很喜欢的一本书’, ‘内容丰富’, ‘讲解清晰’], ‘label’: [1, 1, 1], ‘cat’: [‘书籍’,‘书籍’,‘书籍’]}

**3）**访问某个字段值

可以进一步通过字段名访问某个字段的值：

print(dataset[0]['review'])        # 第一条样本的 review 字段print(dataset[:3]['review'])       # 前三条样本的 review 字段列表

4.2.3 加载在线数据

Hugging Face Hub 提供了大量开源数据集，涵盖文本分类、问答、翻译、摘要等任务，可以在官网浏览与搜索：

每个数据集页面都会提供示例代码，方便直接复制使用。

具体代码如下图所示：

执行上述代码时，数据集会自动从Hugging Face Hub 下载，并缓存至本地用户目录，默认路径为：~/.cache/huggingface/datasets/
后续再次使用时将自动从本地加载，无需联网或重复下载。
加载完成后，返回一个DatasetDict对象，结构和使用方式与本地数据完全一致。

4.3 预处理数据集

除了加载数据，datasets库还支持常见的数据预处理操作，如编码文本、删除列、过滤样本、划分子集和设置张量格式。本节将逐步介绍这些功能。

4.3.1 删除列

可通过 .remove_columns() 删除不再需要的字段

dataset = dataset.remove_columns(["cat"])

4.3.2 过滤行

可使用.filter() 筛选符合条件的样本

dataset = dataset.filter(lambda x: x["review"] is not None and x["review"].strip() != "" and x["label"] in [0, 1])

4.3.3 划分数据集

可使用.train_test_split() 将单一数据集划分为训练集和验证集：

dataset_dict = dataset.train_test_split(test_size=0.2)train_dataset = dataset_dict["train"]test_dataset = dataset_dict["test"]

4.3.4 编码数据

可使用.map()方法与tokenizer配合，将原始文本批量编码为模型可用的输入格式（如 input_ids、attention_mask、token_type_ids等）。

.map()是 datasets 中的核心方法之一，支持对整个数据集中的每一条样本或每一批样本进行统一处理，常用于文本编码（tokenizer）和数据字段换。.map() 方法基本语法如下：

dataset = dataset.map(function, batched=False, remove_columns=None)

参数说明如下：


参数	说明
function	要应用到每条样本上的函数（或每批样本上的函数）
batched	是否以“批”为单位处理样本；若为 True，则每次接收一个样本列表
remove_columns	是否删除原始列，常用于清理不再需要的字段

以中文 BERT 模型为例，编码流程如下：

tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")def tokenize(example):encoded =  tokenizer(  example["review"],  padding="max_length",  truncation=True,  max_length=128)example['input_ids'] = encoded['input_ids']example['attention_mask'] = encoded['attention_mask']return exampletrain_dataset = train_dataset.map(tokenize, batched=True)test_dataset = test_dataset.map(tokenize, batched=True)

编码后，数据集中将新增字段如 input_ids 和 attention_mask，可直接用于模型训练。

4.4 保存数据集

处理后的数据可保存到本地，供后续训练或复用，避免重复预处理。Datasets提供了多种保存方式，适用于不同场景：


数据格式	保存方法	适用对象
Arrow	save_to_disk()	Dataset 或 DatasetDict
CSV	to_csv()	仅限 Dataset
JSON	to_json()	仅限 Dataset

4.4.1 Arrow格式

Arrow 格式是 Hugging Face 官方推荐的数据持久化方式，既支持单个 Dataset 也支持多个子集的DatasetDict。

保存

dataset_dict.save_to_disk("./data/processed")

保存后的目录结构示例：

processed/├─ dataset_dict.json├─ test/│   ├─ data-00000-of-00001.arrow│   ├─ dataset_info.json│   └─ state.json└─ train/├─ data-00000-of-00001.arrow├─ dataset_info.json└─ state.json

每个split（如 train、test）都会单独保存一个 Arrow 文件和相应的元数据。

加载

from datasets import load_from_diskdataset_dict = load_from_disk("./data/processed")

4.4.2 CSV和JSON格式

如果希望将数据导出为通用格式（如用于可视化或非Hugging Face 工具使用），可以使用 .to_csv() 或 .to_json()方法。但需注意，这些方法仅适用于单个 Dataset，不支持 DatasetDict。

保存

# csvtrain_dataset.to_csv("./data/processed/train.csv")# jsontrain_dataset.to_json("./data/processed/train.json")

加载

使用load_dataset()，指定格式和路径即可重新加载：

from datasets import load_dataset# 加载 CSV 文件dataset_dict = load_dataset("csv", data_files="./data/processed/train.csv")# 加载 JSON 文件dataset_dict = load_dataset("json", data_files="./data/processed/train.json")

加载后返回一个结构完整的DatasetDict，可直接用于训练、评估等任务。

4.5 集成Dataloader

经过预处理的datasets.Dataset对象可以直接与PyTorch的DataLoader集成使用。虽然它并非继承自torch.utils.data.Dataset类，但由于实现了__len__()和__getitem__()这两个核心接口，因此能够被DataLoader正确识别并进行批量迭代。

在使用前，需要通过.set_format()方法将指定字段转换为张量格式以适配模型输入。典型配置如下：

train_dataset.set_format(  type="torch",  # 指定输出为PyTorch张量  columns=["input_ids", "attention_mask", "label"]  # 需要转换的字段)

需要注意的是：

该方法仅改变通过__getitem__()（即dataset[i]）访问样本时的返回格式，不会修改底层数据存储
通过columns指定的字段会在访问时自动转换为torch.Tensor类型
未通过columns指定的字段在访问时将被自动过滤

完成格式设置后，即可创建标准的DataLoader实例：

from torch.utils.data import DataLoader# 训练集DataLoadertrain_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)

更多推荐

知识库原文：

https://www.yuque.com/lhyyh/ai/huggingface
工信部 · AIGC证书

https://www.yuque.com/lhyyh/ai/ins6gx3o7hck7shb
AI 工具集导航：

https://tools.lhagi.com/
AI 大模型全栈 50 万字知识库：

https://www.yuque.com/lhyyh/ai

3 年打磨，全是精华，从普通职场人士到大模型算法，应有尽有！

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla

火山引擎 ADG 社区

所有评论(0)

查看更多评论

AI-智能

@2401_82469710

已为社区贡献470条内容

Hugging Face 生态使用指南，大模型微调、预训练必备技能

AI-智能

1、Hugging Face 生态概览

1.1 简介

1.1.1 Hugging Face Hub

1.1.2 工具链（Libraries）

2、预训练模型的加载与使用

2.1 模型加载详解

2.1.1 AutoModel类

2.1.2 AutoModelForXXX类

2.2 模型输入输出详解

3、Tokenizer的加载与使用

3.1 概述

3.2 加载Tokenizer

3.3 使用Tokenizer

3.3.1 概述

3.3.2 常用API

3.4 与预训练模型配合使用

4、Datasets库

4.1 概述

4.2 加载数据集

4.2.1 加载本地数据

4.2.2 查看数据集

4.2.3 加载在线数据

4.3 预处理数据集

4.3.1 删除列

4.3.2 过滤行

4.3.3 划分数据集

4.3.4 编码数据

4.4 保存数据集

4.4.1 Arrow格式

4.4.2 CSV和JSON格式

4.5 集成Dataloader

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

3. 600+套技术大会 PPT：听行业大咖讲实战

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

2. 102 道 AI 大模型真题：直击大模型核心考点

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L2阶段：攻坚篇丨RAG开发实战工坊

L3阶段：跃迁篇丨Agent智能体架构设计

L4阶段：精进篇丨模型微调与私有化部署

L5阶段：专题集丨特训篇 【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

所有评论(0)

温馨提示：您尚未绑定手机号

AI-智能

L5阶段：专题集丨特训篇【录播课】