教你使用bge-m3生成稀疏向量和稠密向量

本文介绍了RAG技术中语义检索的两种向量表示方法：稀疏向量（基于字词匹配）和稠密向量（基于语义）。通过BGEM3FlagModel库演示了如何生成这两种向量，并提供了处理向量格式的注意事项：稀疏向量需转换为{Long,Float}键值对，稠密向量需从np数组转为普通数组才能JSON化。代码示例展示了如何正确提取和处理这两种向量，为语义检索提供基础数据支持。

若石之上

1084人浏览 · 2025-07-17 21:12:23

若石之上 · 2025-07-17 21:12:23 发布

前言：

现在RAG这么火，对应的语义检索就是必不可少的工具，那么怎么来进行语义检索了?这里就有两个概念需要了解一下，一个是稀疏向量，类似于ES里面的根据字词来进行搜索的，另外一个就是稠密向量，根据语义来生成向量

代码：

from FlagEmbedding import BGEM3FlagModel
import json
model = BGEM3FlagModel('/data/dh/model/bge-m3',device=3)
string = "What is BGE M3?"
sentences_1 = [string]
output_1 = model.encode(sentences_1, return_dense=True, return_sparse=True, return_colbert_vecs=False)
dense_vecs = output_1['dense_vecs'].tolist()
lexical_weights = output_1['lexical_weights'][0]
regular_dict = {}
for key, value in lexical_weights.items():
    regular_dict[key] = float(value)
response_dict = {}
response_dict['dense_vecs'] = dense_vecs
response_dict['lexical_weights'] = regular_dict
print(json.dumps(response_dict))

注意事项：

1、稀疏向量是 <Long,Float>的键值对

2、稠密向量是<Float>的数组

3、bge-m3生成的稠密向量是np格式的，需要转换成普通的数组才能进行JSON化

4、bge-m3生成的稀疏向量也是不能直接进行JSON化的，需要做进一步的处理

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla