使用LLMLingua进行文档压缩与查询

LLMLingua的核心在于通过一个小型但高效的语言模型来压缩输入文档，这样可以减轻大型语言模型在推理时的计算负担。通过结合文档检索技术，如FAISS和文本嵌入技术（如OpenAI的嵌入向量），可以实现快速、有效的文档查询和压缩。

scaFHIO

466人浏览 · 2025-03-12 10:56:36

scaFHIO · 2025-03-12 10:56:36 发布

使用LLMLingua进行文档压缩与查询

在大规模语言模型（LLM）的时代，如何高效地处理文本输入成为了一个重要课题。LLMLingua是一种利用精简语言模型（如GPT2-small, LLaMA-7B）对提示中的非必要token进行识别和删除以实现压缩的工具。这样可以在不显著影响性能的情况下，实现高达20倍的压缩，从而提高LLM的推理效率。本文将通过一个笔记本示例，展示如何使用LLMLingua作为文档压缩器。

技术背景介绍

核心原理解析

LLMLingua结合了语言模型的文本生成能力和信息检索技术。它通过一个压缩器来减少输入文本的冗余数据，然后使用上下文压缩检索器来从压缩后的文档中查询信息。

代码实现演示

import openai
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.retrievers import ContextualCompressionRetriever
from langchain_community.document_compressors import LLMLinguaCompressor
from langchain_openai import ChatOpenAI
from langchain.chains import RetrievalQA

# 使用稳定可靠的API服务
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

# 加载文档并进行预处理
documents = TextLoader("../../how_to/state_of_the_union.txt").load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

# 使用嵌入模型进行检索
embedding = OpenAIEmbeddings(model="text-embedding-ada-002")
retriever = FAISS.from_documents(texts, embedding).as_retriever(search_kwargs={"k": 20})

query = "What did the president say about Ketanji Brown Jackson"
docs = retriever.invoke(query)

# 压缩文档
llm = ChatOpenAI(temperature=0)
compressor = LLMLinguaCompressor(model_name="openai-community/gpt2", device_map="cpu")
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

# 获取压缩后的文档
compressed_docs = compression_retriever.invoke(query)

# 执行QA任务
chain = RetrievalQA.from_chain_type(llm=llm, retriever=compression_retriever)
result = chain.invoke({"query": query})

print("Query Result:", result['result'])

应用场景分析

高效信息检索：对于新闻摘要、报告等大文本量的数据，使用LLMLingua可以快速提取关键信息。
数据压缩：在存储和带宽有限的场景下，如移动设备或嵌入式系统，LLMLingua可以通过压缩降低存储和传输成本。
优化推理处理：对于实时性要求高的应用程序，如自动响应系统，文档压缩可以显著减少处理时间。

实践建议

在使用LLMLingua时，确保输入文本的格式化，以便获得最佳的压缩效果。
结合具体业务需求选择适合的压缩比例，避免过度压缩导致信息损失。
定期更新和训练模型，以适应新的数据和需求变化。

如果遇到问题欢迎在评论区交流。
—END—

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla