FlashInfer安装与配置完全指南

**FlashInfer** 是一个专为大型语言模型（LLMs）设计的内核库，致力于提供高性能的GPU内核实现，如FlashAttention、SparseAttention、PageAttention等。它专注于LLM的服务与推理，确保在各种场景下都能达到领先性能。本项目广泛支持PyTorch、TVM及C++（仅头文件）API，便于集成到现有系统中。主要使用的编程语言包括 **CUDA**, *

霍曙柏

605人浏览 · 2025-11-18 04:42:24

霍曙柏 · 2025-11-18 04:42:24 发布

FlashInfer安装与配置完全指南

【免费下载链接】flashinfer FlashInfer: Kernel Library for LLM Serving 项目地址: https://gitcode.com/gh_mirrors/fl/flashinfer

项目基础介绍与主要编程语言

FlashInfer 是一个专为大型语言模型（LLMs）设计的内核库，致力于提供高性能的GPU内核实现，如FlashAttention、SparseAttention、PageAttention等。它专注于LLM的服务与推理，确保在各种场景下都能达到领先性能。本项目广泛支持PyTorch、TVM及C++（仅头文件）API，便于集成到现有系统中。主要使用的编程语言包括 CUDA, Python, 和少量 C++。

关键技术和框架

FlashInfer的核心亮点在于其高效实现了全面的注意力机制，覆盖了单请求和批量处理中的Prefill、Decode和Append内核，并且能在不同格式的KV缓存上运行（填充张量、稀疏张量、页表）。此外，它通过优化共享前缀批处理解码，实现了显著的性能提升，特别是在大规模批次和长文本输入时。此库还特别针对压缩或量化KV缓存进行了加速处理。

安装与配置教程

准备工作

确保你的系统已安装以下软件：

NVIDIA CUDA: 至少版本12.4
PyTorch: 版本2.4
Git

步骤一：安装依赖环境

首先，安装必要的环境，确保你的系统已配置好CUDA环境和最新版本的PyTorch：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

步骤二：下载FlashInfer源代码

接下来，从GitCode克隆FlashInfer项目，并递归获取子模块：

git clone https://gitcode.com/gh_mirrors/fl/flashinfer.git --recursive

步骤三：安装FlashInfer

为了进行安装，进入项目目录并执行pip install命令：

默认安装

cd flashinfer
pip install .

开发模式安装

cd flashinfer
pip install --no-build-isolation -e . -v

步骤四：安装可选包（推荐）

为了获得更快的初始化和离线使用体验，安装预编译的内核二进制包：

# 进入cubin目录构建和安装
cd flashinfer-cubin
python -m build --no-isolation --wheel
pip install dist/*.whl

# 安装JIT缓存包（根据你的CUDA版本调整）
export FLASHINFER_CUDA_ARCH_LIST="7.5 8.0 8.9 10.0a 10.3a 11.0a 12.0f"
cd flashinfer-jit-cache
python -m build --no-isolation --wheel
pip install dist/*.whl

验证安装

安装完成后，验证FlashInfer是否正确安装：

flashinfer show-config

这个命令会显示：

FlashInfer版本和已安装的包
PyTorch和CUDA版本信息
环境变量和artifact路径
下载的cubin状态和模块编译状态

测试示例代码

创建一个简单的Python脚本来验证基本功能：

import torch
import flashinfer

# 准备测试数据
kv_len = 2048
num_kv_heads = 32
head_dim = 128
k = torch.randn(kv_len, num_kv_heads, head_dim).half().to('cuda')
v = torch.randn(kv_len, num_kv_heads, head_dim).half().to('cuda')

# 单请求解码操作测试
q = torch.randn(num_kv_heads, head_dim).half().to('cuda')
o = flashinfer.single_decode_with_kv_cache(q, k, v)
print("FlashInfer 操作成功执行")

高级配置与使用

FlashInfer支持多种高级功能，包括：

自定义注意力变体：从v0.2版本开始，用户可以通过附加参数自定义自己的注意力变体
CUDAGraph和torch.compile兼容性：内核可以被CUDAGraphs捕获并与torch.compile兼容
分层KV-Cache：通过Cascade Attention实现内存高效的分层KV缓存
低精度注意力：支持压缩KV缓存的高效内核

支持的GPU架构

FlashInfer目前支持NVIDIA SM架构75及更高版本，并对103、110、120和121架构提供beta支持。

项目特点

高效的稀疏/密集注意力内核：在CUDA核心和张量核心上为稀疏（分页）/密集KV存储提供高效的单/批量注意力
负载均衡调度：通过分离plan/run阶段来缓解变长输入的负载不均衡问题
内存效率：支持分层KV-Cache和头部查询融合
可定制的注意力：通过JIT编译支持自定义注意力变体

通过本指南，您已经完成了FlashInfer的完整安装和配置，可以开始利用其强大的功能来加速您的大型语言模型服务和推理过程。

【免费下载链接】flashinfer FlashInfer: Kernel Library for LLM Serving 项目地址: https://gitcode.com/gh_mirrors/fl/flashinfer

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla