Python+spaCy 实战：NLP 文本分类与实体识别

文本分类：使用训练自定义分类器，适用于情感分析、主题分类等。确保数据集平衡。实体识别：利用预训练 NER 快速提取实体，或通过微调适应新领域。最佳实践使用 GPU 加速训练（安装评估模型：spaCy 提供命令行工具。真实应用：结合其他库如 scikit-learn 或 transformers 增强性能。资源扩展：访问 spaCy 官方文档（https://spacy.io）获取更多教程和预训练模

2501_93894276

421人浏览 · 2025-11-01 21:41:40

2501_93894276 · 2025-11-01 21:41:40 发布

Python+spaCy 实战：NLP 文本分类与实体识别

spaCy 是一个强大的 Python 自然语言处理（NLP）库，广泛用于文本分类（如情感分析）和实体识别（如提取人名、地名）。本指南将逐步引导你完成实战操作，包括安装、代码实现和关键概念。整个过程基于 spaCy v3.x（当前最新版本），确保代码真实可靠。我们将分两部分进行：文本分类和实体识别。

准备工作：安装 spaCy 和下载模型

在开始前，确保安装 spaCy 并下载预训练模型。spaCy 的模型提供预训练权重，能加速任务执行。使用 pip 安装：

pip install spacy
python -m spacy download en_core_web_sm  # 下载英文小模型（适用于基础任务）

如果处理中文文本，下载中文模型：

python -m spacy download zh_core_web_sm  # 下载中文小模型

现在，导入 spaCy 并加载模型：

import spacy

# 加载英文模型（文本分类和实体识别示例）
nlp = spacy.load("en_core_web_sm")
# 或加载中文模型：nlp = spacy.load("zh_core_web_sm")

第一部分：文本分类实战

文本分类是将文本分配到预定义类别（如正面/负面情感）。spaCy 使用 TextCategorizer 组件，基于神经网络实现。这里，我们以情感分析为例：将句子分类为 "POSITIVE" 或 "NEGATIVE"。

步骤：

准备训练数据：需要带标签的数据集。spaCy 支持自定义训练，但为简化，我们使用一个示例数据集。
训练模型：使用 spaCy 的 pipeline 添加分类器。
预测新文本：应用模型进行推理。

代码示例：训练和预测文本分类

import spacy
from spacy.training import Example
import random

# 创建空白模型（英文）
nlp = spacy.blank("en")

# 添加文本分类器组件
text_cat = nlp.add_pipe("textcat")

# 定义类别（本例为二分类：POSITIVE 和 NEGATIVE）
text_cat.add_label("POSITIVE")
text_cat.add_label("NEGATIVE")

# 准备训练数据（示例数据，实际应用中需更大数据集）
train_data = [
    ("I love this movie!", {"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}),
    ("This is a terrible film.", {"cats": {"POSITIVE": 0.0, "NEGATIVE": 1.0}}),
    ("Awesome experience!", {"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}),
    ("I hate it.", {"cats": {"POSITIVE": 0.0, "NEGATIVE": 1.0}})
]

# 转换训练数据为 spaCy Example 对象
examples = []
for text, annotations in train_data:
    doc = nlp.make_doc(text)
    examples.append(Example.from_dict(doc, annotations))

# 训练模型（简化版：实际需更多迭代和验证）
optimizer = nlp.initialize()
for epoch in range(10):  # 训练10个epoch
    random.shuffle(examples)
    for example in examples:
        nlp.update([example], sgd=optimizer)

# 保存模型（可选）
nlp.to_disk("textcat_model")

# 预测新文本
test_text = "This product is amazing!"
doc = nlp(test_text)
print(f"文本: '{test_text}'")
print(f"分类结果: POSITIVE: {doc.cats['POSITIVE']:.2f}, NEGATIVE: {doc.cats['NEGATIVE']:.2f}")
# 输出示例：POSITIVE: 0.95, NEGATIVE: 0.05（表示正面情感）

关键点：

训练数据不足时，模型可能过拟合；建议使用真实数据集（如 IMDb 影评）。
spaCy 使用神经网络分类器，其损失函数可表示为交叉熵损失：$$L = -\sum y \log(\hat{y})$$，其中 $y$ 是真实标签，$\hat{y}$ 是预测概率。
对于中文文本，只需改用中文模型，并确保数据为中文。

第二部分：实体识别实战

实体识别（NER）用于识别文本中的命名实体（如人名、组织、地点）。spaCy 内置了预训练 NER 模型，能直接使用或进一步微调。

步骤：

加载模型并处理文本：spaCy 的 pipeline 自动包含 NER 组件。
提取实体：遍历文档中的实体。
自定义训练（可选）：如果需要识别新实体类型（如产品名），可微调模型。

代码示例：使用预训练模型进行实体识别

import spacy

# 加载预训练模型（英文）
nlp = spacy.load("en_core_web_sm")

# 处理文本
text = "Apple is looking to buy a U.K. startup for $1 billion. Steve Jobs was a co-founder."
doc = nlp(text)

# 提取并打印实体
print(f"文本: '{text}'")
for ent in doc.ents:
    print(f"实体: {ent.text}, 类型: {ent.label_}, 起始位置: {ent.start_char}, 结束位置: {ent.end_char}")

# 输出示例：
# 实体: Apple, 类型: ORG, 起始位置: 0, 结束位置: 5
# 实体: U.K., 类型: GPE, 起始位置: 30, 结束位置: 34
# 实体: $1 billion, 类型: MONEY, 起始位置: 44, 结束位置: 53
# 实体: Steve Jobs, 类型: PERSON, 起始位置: 55, 结束位置: 65

自定义训练 NER 模型（进阶） 如果需要识别新实体（如 "PRODUCT"），可微调模型：

import spacy
from spacy.training import Example
import random

# 加载预训练模型
nlp = spacy.load("en_core_web_sm")

# 添加或修改 NER 组件（如果已有）
if "ner" not in nlp.pipe_names:
    ner = nlp.add_pipe("ner")
else:
    ner = nlp.get_pipe("ner")

# 添加新实体标签（如 "PRODUCT"）
ner.add_label("PRODUCT")

# 准备训练数据（示例）
train_data = [
    ("I bought an iPhone 13 last week.", {"entities": [(12, 21, "PRODUCT")]}),
    ("Samsung Galaxy is popular.", {"entities": [(0, 14, "PRODUCT")]})
]

# 转换数据并训练
examples = []
for text, annotations in train_data:
    doc = nlp.make_doc(text)
    examples.append(Example.from_dict(doc, annotations))

optimizer = nlp.initialize()
for epoch in range(10):
    random.shuffle(examples)
    for example in examples:
        nlp.update([example], sgd=optimizer)

# 测试新模型
test_text = "The new Tesla Model S is expensive."
doc = nlp(test_text)
for ent in doc.ents:
    print(f"实体: {ent.text}, 类型: {ent.label_}")
# 输出示例：实体: Tesla Model S, 类型: PRODUCT

关键点：

预训练模型支持常见实体类型（如 PERSON、ORG、GPE）。自定义训练时，确保数据标注准确。
NER 基于序列标注，常用算法如条件随机场（CRF），其概率模型可表示为：$$P(y|x) \propto \exp\left(\sum_i \theta_i f_i(y,x)\right)$$，其中 $y$ 是标签序列，$x$ 是输入文本。
对于中文 NER，使用中文模型（如 zh_core_web_sm），并处理分词挑战。

总结

文本分类：使用 TextCategorizer 训练自定义分类器，适用于情感分析、主题分类等。确保数据集平衡。
实体识别：利用预训练 NER 快速提取实体，或通过微调适应新领域。
最佳实践：
- 使用 GPU 加速训练（安装 spacy[cuda]）。
- 评估模型：spaCy 提供 spacy evaluate 命令行工具。
- 真实应用：结合其他库如 scikit-learn 或 transformers 增强性能。
资源扩展：访问 spaCy 官方文档（https://spacy.io）获取更多教程和预训练模型。

通过本实战，你已掌握 spaCy 的核心功能。如有疑问，可提供具体文本示例，我帮你调试代码！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla