使用LangChain与OpenAI API进行向量嵌入和搜索的实战教程

LangChain是一个用于构建大型语言模型(LLM)应用的强大工具集，能够帮助开发者快速构建智能应用。结合OpenAI的API，我们可以实现高效而准确的向量嵌入和搜索，这在构建搜索引擎、问答系统等应用时非常有用。

bBADAS

641人浏览 · 2025-02-13 18:37:02

bBADAS · 2025-02-13 18:37:02 发布

使用LangChain与OpenAI API进行向量嵌入和搜索的实战教程

相信很多开发者都对AI技术充满了兴趣，尤其是在如何实际应用这些技术上。今天，我们将详细探讨如何使用LangChain和OpenAI API进行向量嵌入和搜索，以构建一个可以对大量文本数据进行智能搜索的应用。

技术背景介绍

核心原理解析

向量嵌入是将文本数据转换为固定大小的向量，使得语义相近的文本在向量空间中距离较近。搜索时，通过计算查询文本向量与数据向量的距离，可以找到语义最相关的结果。

代码实现演示(重点)

在这部分我们将分步骤演示如何实现这个功能，使用LangChain和OpenAI API。

1. 安装依赖

首先，我们需要安装相关的Python包：

pip install openai langchain

2. 配置API客户端

接下来，我们配置OpenAI客户端，确保稳定访问：

import openai

# 使用稳定可靠的API服务
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

3. 创建向量嵌入

我们将文本数据转换为向量：

def get_embeddings(texts):
    response = client.Embeddings.create(model="text-embedding-ada-002", inputs=texts)
    return [embedding['embedding'] for embedding in response['data']]

texts = ["这是一个示例文本。", "另一个例子。", "更多的文本数据。"]
embeddings = get_embeddings(texts)
print(embeddings)

4. 向量搜索

然后，我们可以使用这些向量进行搜索：

import numpy as np

def cosine_similarity(vec1, vec2):
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

def search(query, embeddings):
    query_embedding = get_embeddings([query])[0]
    similarities = [cosine_similarity(query_embedding, emb) for emb in embeddings]
    return np.argmax(similarities), max(similarities)

query = "示例"
index, similarity = search(query, embeddings)
print(f"最相似的文本是: {texts[index]}，相似度: {similarity}")

应用场景分析

这种技术可以广泛应用于构建智能搜索引擎、问答系统、文档推荐系统等。比如在企业内部的知识库中，通过向量搜索可以快速找到相关文档，提高信息检索的效率。

实践建议

优化嵌入模型：根据具体应用场景选择最合适的嵌入模型，提升精度。
扩展数据规模：在实际应用中，处理更多的数据可以提高系统的实用性，但也需要考虑性能优化。
结合其他技术：可以将向量嵌入与其他自然语言处理技术结合，构建更复杂的应用。

结束语：

如果遇到问题欢迎在评论区交流。

—END—

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大