Windows 安装 Xinference 速记
本文介绍了在Windows系统上安装Xinference的快速指南。首先需要准备Python 3.10环境(推荐使用Conda),并安装PyTorch 2.0.1、llama-cpp-python、chatglm-cpp等必要依赖。安装完成后需设置XINFERENCE_HOME环境变量指定缓存路径。通过命令行启动服务后,可在浏览器访问管理界面加载模型。文中还提供了常见问题解决方案,如PyExten
·
Windows 安装 Xinference 速记
1. 环境准备
- 系统:Windows(含 NVIDIA GPU,CUDA ≥ 12.9)
- Python:3.10(推荐 Conda 环境)
conda create -n xinference python=3.10 -y
conda activate xinference
2. 安装依赖
- 在命令行窗口查看cuda版本:
bash nvidia-smi
| 依赖 | 安装命令 |
|---|---|
| PyTorch 2.0.1 + CUDA 12.9 | conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=12.9 -c pytorch -c nvidia |
| llama-cpp-python | pip install https://github.com/abetlen/llama-cpp-python/releases/download/v0.2.55/llama_cpp_python-0.2.55-cp310-cp310-win_amd64.whl |
| chatglm-cpp | pip install https://github.com/li-plus/chatglm.cpp/releases/download/v0.3.1/chatglm_cpp-0.3.1-cp310-cp310-win_amd64.whl |
| Xinference | pip install "xinference[all]" |
3. 环境变量配置
设置模型缓存路径(按需修改):
# Windows 系统环境变量
XINFERENCE_HOME=D:\XinferenceCache
4. 启动服务
命令行启动
xinference-local -H <本机 IP>
- 浏览器访问
http://<IP>:9997 - 在 Running Models 页面选择并加载模型。
5. 常见问题速查
| 问题 | 解决方案 |
|---|---|
| PyExtensionType 报错 | pyarrow=21.0.0版本太新了,得安装旧版本如18.0.0 ( pip install --user --upgrade pyarrow==18.0.0 ) |
| 中文乱码 | 启动前执行 chcp 65001 |
| 无法拉取镜像 | docker login xprobe/xinference:latest 或换源 |
6. 验证
- 浏览器打开
http://localhost:9997 - 加载模型 → 查看 Cluster Information → 完成!
✅ 至此,Xinference 已在 Windows 上成功部署并可用。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)