中文之所以将 Embeddings 称为 词向量/词嵌入,是因为“嵌入”这个动作的结果,在数学上和计算机科学上,就是向量

我来为您详细解释“嵌入”(Embed)和“向量”(Vector)之间的关系。


🔍 “嵌入” (Embed) 与 “向量” (Vector) 的关系

1. 嵌入 (Embed):动作和过程

“嵌入”是一个动作(Process),它指的是将一种复杂的、高维度的、离散的对象(比如一个词、一个图结构、一个用户ID)映射到一个更简单、低维度的连续空间中的过程。

  • 起点: 离散符号(如词语“香蕉”)。
  • 终点: 低维空间中的一个点。

2. 向量 (Vector):结果和形式

向量(Vector) 是实现“嵌入”这个动作的数学工具和最终结果(Form)

在数学和计算机中,一个NNN 维空间中的位置,就是用一个包含 NNN 个数字的向量来表示的。

  • 实现: 计算机用一个浮点数数组或列表来表示这个点的位置,这个数组/列表就是向量
    v香蕉=[0.91,−0.45,0.12,… ]\mathbf{v}_{\text{香蕉}} = [0.91, -0.45, 0.12, \dots]v香蕉=[0.91,0.45,0.12,]
  • 意义: 向量中的每一个数字,都是这个词在某种潜在特征上的数值化表示

3. 关系总结:嵌入生成向量

概念 角色 动作 中文翻译
Embedding 过程/方法 将词语映射到向量空间。 嵌入(强调动作)
Word Vector 结果/载体 映射到低维空间中的数字表示 词向量(强调结果)

💡 为何中文常用“词向量”?

在中文 NLP 领域,“词向量”这个名称非常流行,甚至比“词嵌入”更常见,主要是因为:

  1. 直观性: “向量”这个词直接点明了这种表示形式的数学本质——它是一串数字,可以进行向量运算(加减法、余弦相似度),这比抽象的“嵌入”更直接地说明了它的功能。
  2. 技术演进: 在 Word2Vec 模型普及初期,其核心产物就是可用于计算的词向量

因此,当中文提到 Embeddings 时,通常会使用 “词向量” 来强调这种表示形式具有向量的数学属性;使用 “词嵌入” 来强调从高维空间映射到低维空间的那个“嵌入”过程。两者指的是同一个事物。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐