词嵌入(Word Embedding)
Word2Vec是谷歌的Tomas Mikolov 等人在 2013 年提出的一种将自然语言文本中的单词转换为向量表示的技术,被广泛应用于自然语言处理和深度学习领域。Word2Vec实际是一种浅层神经网络模型,拥有两种网络结构。
定义
在自然语言处理(NLP)领域,词是表义的基本单位,词嵌入(Word Embedding),亦被称为是词向量,是将文本映射到实数向量空间的技术,通俗来讲是因为普通的文本语言意思机器无法理解,将文字转化为向量让计算机能够识别处理文本。
常用的词嵌入方法
1.Word2Vec
1.1 介绍
Word2Vec是谷歌的Tomas Mikolov 等人在 2013 年提出的一种将自然语言文本中的单词转换为向量表示的技术,被广泛应用于自然语言处理和深度学习领域。
Word2Vec实际是一种浅层神经网络模型,拥有两种网络结构。
1.2 训练Word2vec模型 寻找相似词
Word2Vec 先通过特定模型将词语映射到向量空间,让语义相关的词在空间中距离相近,再利用余弦相似度等方法计算词向量间的相似程度,以此来寻找相似词。
Python 的gensim库来实现 示例代码:
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
# 把语料变成句子集合
sentence = LineSentence('train.txt')
# 训练word2vec模型
model = Word2Vec(sen, vector_size=100)
# 保存word2vec模型
model.save('word2vec.model')
# 加载保存的模型
model = Word2Vec.load('word2vec.model')
# 获取某个词语的向量
vector = model.wv['fox']
# 计算评论文本词语相关性
model.wv.similarity('美女', '帅哥')
# 找到最相似的词
model.wv.most_similar('美女')
1.3 两种网络结构
CBOW(Continuous Bag - of - Words)连续词袋:
通过获取中间词两边的上下文,去预测中间的词,将中间词当作y,把窗口中的其他词当做x输入,x输入是通过one-hot编码过,然后通过隐层求和操作,通过激活函数softmax,可以计算出每个单词的生成概率,训练神经网络的权重w,使得语料库中的所有单词的整体生成概率最大化,求得的权重矩阵就是文本表示向量词的结构。
Skip-gram
Skip-gram是通过当前词来预测窗口中上下文词出现的概率模型,把当前词当做x,把窗口中其它词当做y,依然是通过一个隐层接一个Softmax激活函数来预测其它词的概率。
1.4 Word2vec的优点
语意表示能力强:能够将词语映射到连续的向量空间中,使得语义相近的词语在向量空间中距离较近。
计算效率高:Word2vec 采用了神经网络模型,训练速度更快。它通过 CBOW 或 Skip - gram 模型进行训练,能够在大规模语料上高效地学习词向量。尤其是在处理大规模文本数据时,其计算效率的优势更为明显。
通用性好:Word2vec 训练得到的词向量可以应用于多种自然语言处理任务,具有很好的通用性。无论是文本分类、命名实体识别、机器翻译还是问答系统等任务,都可以使用预训练的 Word2vec 词向量作为输入特征,减少了在不同任务上从头训练的成本。
可解释性相对较好:词向量空间中的向量距离和方向具有一定的语义解释性。
1.5 Word2vec的缺点
缺少上下文信息:Word2vec 生成的词向量是静态的,每个词语只有一个固定的向量表示,不考虑词语在不同上下文中的语义变化。
数据稀疏问题:对于低频词,Word2vec 可能无法学习到准确的词向量表示。
对语料库的依赖:Word2vec 训练得到的词向量质量高度依赖于所使用的语料库。如果语料库的规模较小、领域狭窄或存在偏差,那么训练得到的词向量可能无法很好地泛化到其他领域或任务中。
缺乏句法信息:Word2vec 主要关注词语之间的语义关系,忽略了词语之间的句法结构信息。在自然语言处理中,句法结构对于理解句子的含义非常重要。例如,“狗咬人” 和 “人咬狗” 的词语相同,但由于句法结构不同,语义完全相反。Word2vec 无法捕捉到这种句法信息,可能会影响在需要句法分析的任务中的表现。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)