一、稀疏语义召回是一种结合了传统关键词检索现代语义检索优点的新型召回技术。

  • 我们可以把它和两种主流技术做个对比:

    • 一种是传统的稀疏召回,像BM25,它依赖精确的关键词匹配,对于专业术语很准,但无法理解“AI”和“人工智能”是同一个意思。

    • 另一种是稠密语义召回,像常规的向量搜索,它能很好地理解语义,但有时会忽略掉一些必须精确匹配的关键词。

  • 而“稀疏语义召回”的目标就是鱼与熊掌兼得。它生成的也是一个高维度的稀疏向量,但这个向量里的每个词的权重,是通过大模型学习得到的,而不仅是词频统计。这意味着它不仅能匹配关键词,还能理解上下文,甚至能**“脑补”出语义相关的词**。比如我搜“苹果手机”,它可能也会给“iPhone”这个词赋予权重,从而召回包含“iPhone”的文档。

二,BGE-M3是如何实现这一点的。

BGE-M3是一个非常先进的统一嵌入模型,它能同时支持稠密、稀疏等多种召回方式。它实现稀疏语义召回的核心在于它的模型结构:

  1. 首先,它和BERT一样,有一个强大的Transformer编码器,用于深度理解文本上下文,并为每个词(Token)生成一个富含语义的向量表示。

  2. 关键创新在于,它在编码器之上增加了一个专门的线性层

  3. 文本中每个词的向量表示会经过这个线性层,计算出一个**“重要性得分”**。这个得分就体现了这个词在当前语义环境下的重要程度。

  4. 最后,它通过一个ReLU激活函数,将所有得分小于等于0的词直接“砍掉”,只保留那些最重要的词和它们的得分。这样就自然形成了一个大部分值为0的“稀疏语义向量”。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐