Token是“拆解“，Embedding是“转换“

Token是"拆解"，Embedding是"转换"，两者是上下游关系，共同完成从文本到数值向量的转变。

netserv

574人浏览 · 2025-12-08 22:15:00

netserv · 2025-12-08 22:15:00 发布

核心概念区分

1. Token（令牌/分词）

是什么：将文本拆分成最小处理单元的过程
形式：离散的符号/标记（如单词、子词、字符）
目的：让计算机能理解文本结构

示例：

文本："I love AI"
Token化结果：["I", "love", "AI"]

2. Embedding（嵌入/向量化）

是什么：将离散token转换为连续数值向量的过程
形式：高维空间中的浮点数数组
目的：捕获语义含义，使相似含义的token有相似向量

示例：

Token: "king" → 向量: [0.2, -0.1, 0.8, ...]
Token: "queen" → 向量: [0.19, -0.12, 0.79, ...] # 与"king"向量相似

标准处理流程

文本数据流程：

原始文本 → Token化 → Token序列 → Embedding → 向量表示

具体步骤：

原始文本："人工智能正在改变世界"
Token化：["人工", "智能", "正在", "改变", "世界"]（以中文分词为例）
Embedding：每个token转换为向量
- "人工" → [0.12, -0.34, 0.56, ...]
- "智能" → [0.10, -0.32, 0.58, ...]
- …
组合向量：通过池化（如平均）或特殊token得到整个文本的向量

现代模型的实际情况：

# 以BERT为例的简化流程
text = "Hello, world!"

# 1. Tokenization
tokens = tokenizer.tokenize(text)  # ["hello", ",", "world", "!"]
token_ids = tokenizer.convert_tokens_to_ids(tokens)  # [7592, 1010, 2088, 999]

# 2. Embedding查找（在模型内部）
# embedding层将每个token_id映射为向量
# token_id 7592 → 查找embedding表 → 得到向量[0.1, -0.2, 0.3, ...]

# 3. 最终得到整个序列的向量表示

常见疑问澄清

Q：每个token都有一个向量吗？

A：是的，在大多数模型中，每个token都会被转换为一个独立的向量。但最终我们通常需要整个文本的一个向量，常见做法：

取[CLS]特殊token的向量（BERT）
所有token向量的平均值
最后一个隐藏层的池化输出

Q：直接文本→向量可能吗？

A：是的，有些专门模型（如sentence-transformers）可以直接从文本生成向量，内部仍然经过tokenization和embedding步骤，但对用户透明。

Q：非文本数据（如图片）呢？

A：

图像：直接通过CNN/ViT等模型提取特征向量，无需tokenization
音频：通过声学特征提取后embedding
多模态：各自处理后再融合

在向量数据库上下文中的完整流程

原始数据 → 预处理 → Token化 → Embedding模型 → 向量 → 存入向量数据库
   ↓
 文本/图片/音频           Token序列     每个token向量  整个数据的向量表示

实用示例：使用OpenAI API

import openai

# 用户只需提供文本，API内部完成所有步骤
response = openai.Embedding.create(
    input="人工智能的未来",  # 原始文本
    model="text-embedding-ada-002"
)

vector = response['data'][0]['embedding']  # 直接得到1536维向量
# 内部隐含：tokenization → embedding → 池化 → 输出向量

关键总结

Token化是文本的"分词"，将连续文本拆分为离散单元
Embedding是"向量化"，将离散单元映射到连续向量空间
流程顺序：必须先Token化，再Embedding，因为embedding模型需要token作为输入
最终目标：获得整个数据片段的单一向量，用于相似性检索

简单记忆：Token是"拆解"，Embedding是"转换"，两者是上下游关系，共同完成从文本到数值向量的转变。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla