Phi-3-mini-4k-instruct部署案例：Ollama集群化部署与负载均衡初步实践

芦苇毛

533人浏览 · 2026-02-13 00:04:18

芦苇毛 · 2026-02-13 00:04:18 发布

Phi-3-mini-4k-instruct部署案例：Ollama集群化部署与负载均衡初步实践

单机部署简单，但面对真实业务场景时，如何让AI服务扛住高并发？本文将带你从零搭建Ollama集群，实现Phi-3-mini模型的负载均衡。

1. 为什么需要集群化部署？

当你第一次用Ollama部署Phi-3-mini模型时，可能会觉得："这很简单啊，一条命令就搞定了"。确实，单机部署很简单，但问题很快就会暴露：

性能瓶颈：单个实例处理能力有限，同时来10个请求就卡顿
单点故障：服务挂了就全部不可用
资源浪费：CPU/GPU利用率不均衡，忙的忙死，闲的闲死

这就是为什么我们需要集群化部署。通过多个Ollama实例+负载均衡，可以实现：

高可用性：一个节点挂了，其他节点继续服务
弹性扩展：根据流量动态增减节点
负载均衡：合理分配请求，避免单点过载

2. Phi-3-mini模型简介

Phi-3-Mini-4K-Instruct是个38亿参数的轻量级模型，在小型模型中表现相当出色。它有两个版本：4K和128K上下文长度，我们用的是4K版本。

这个模型经过专门训练，擅长：

常识推理：回答日常问题很靠谱
代码生成：写简单的代码片段没问题
逻辑推理：分析问题有逻辑性
语言理解：理解复杂指令能力不错

虽然参数不多，但在同级别模型中性能很能打，特别适合资源有限的部署环境。

3. 基础单机部署快速回顾

在开始集群部署前，我们先快速回顾下单机部署：

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 拉取Phi-3-mini模型
ollama pull phi3:mini

# 运行模型服务
ollama serve

这样就完成了最基本的部署，可以通过API或者Web界面使用了。

4. 集群化部署实战

现在进入正题，我们来搭建一个包含3个节点的Ollama集群。

4.1 环境准备

准备3台服务器（可以是物理机、虚拟机或容器），确保：

系统版本一致（推荐Ubuntu 20.04+）
网络互通
防火墙开放所需端口（默认11434）

4.2 批量部署Ollama

在第一台服务器上操作：

# 生成安装脚本
cat > install_ollama.sh << 'EOF'
#!/bin/bash
echo "正在安装Ollama..."
curl -fsSL https://ollama.com/install.sh | sh

echo "拉取Phi-3-mini模型..."
ollama pull phi3:mini

echo "配置服务..."
sudo systemctl enable ollama
sudo systemctl start ollama
EOF

# 分发到其他节点
scp install_ollama.sh node2:/tmp/
scp install_ollama.sh node3:/tmp/

# 在其他节点执行
ssh node2 "bash /tmp/install_ollama.sh"
ssh node3 "bash /tmp/install_ollama.sh"

4.3 验证节点状态

检查每个节点的服务状态：

# 检查服务状态
ssh node1 "systemctl status ollama"
ssh node2 "systemctl status ollama" 
ssh node3 "systemctl status ollama"

# 测试模型加载
ssh node1 "ollama list"
ssh node2 "ollama list"
ssh node3 "ollama list"

如果一切正常，每个节点都应该显示phi3:mini模型已就绪。

5. 负载均衡配置

有了多个节点，现在需要有个"调度员"来分配任务。我们用Nginx做负载均衡。

5.1 安装配置Nginx

在单独的服务器或某个节点上安装Nginx：

sudo apt update
sudo apt install nginx -y

创建负载均衡配置：

sudo tee /etc/nginx/conf.d/ollama.conf << 'EOF'
upstream ollama_cluster {
    server node1:11434;
    server node2:11434;
    server node3:11434;
}

server {
    listen 80;
    server_name ollama-cluster.example.com;
    
    location / {
        proxy_pass http://ollama_cluster;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        
        # 重要：保持长连接
        proxy_http_version 1.1;
        proxy_set_header Connection "";
    }
}
EOF

# 测试配置并重启
sudo nginx -t
sudo systemctl restart nginx

5.2 负载均衡策略

Nginx默认使用轮询策略，你也可以根据需求选择其他方式：

# 加权轮询（给性能好的节点更多流量）
upstream ollama_cluster {
    server node1:11434 weight=3;
    server node2:11434 weight=2;
    server node3:11434 weight=1;
}

# 或者IP哈希（同一用户总是访问同一节点）
upstream ollama_cluster {
    ip_hash;
    server node1:11434;
    server node2:11434;
    server node3:11434;
}

6. 测试集群性能

现在来测试下集群的效果。

6.1 基础功能测试

# 通过负载均衡器访问
curl http://负载均衡IP/api/generate -d '{
  "model": "phi3:mini",
  "prompt": "你好，请介绍一下你自己",
  "stream": false
}'

应该能正常获得响应，Nginx会自动将请求分发到不同的后端节点。

6.2 压力测试

用ab工具进行简单压力测试：

# 安装测试工具
sudo apt install apache2-utils -y

# 模拟100个请求，并发10个
ab -n 100 -c 10 -p test_data.json -T application/json \
   http://负载均衡IP/api/generate

创建测试数据文件：

{
  "model": "phi3:mini",
  "prompt": "请写一个Python函数计算斐波那契数列",
  "stream": false
}

观察各节点的负载情况，应该能看到请求被均匀分配。

6.3 故障转移测试

手动停掉一个节点：

# 在node2上停止服务
ssh node2 "systemctl stop ollama"

# 继续发送请求，应该还能正常工作
curl http://负载均衡IP/api/generate -d '{
  "model": "phi3:mini", 
  "prompt": "测试故障转移",
  "stream": false
}'

Nginx会自动检测到故障节点，将流量转移到其他正常节点。

7. 监控与维护

集群部署后，监控很重要。

7.1 基础监控配置

# 查看节点状态
ollama ps

# 监控系统资源
top
htop

# 查看Nginx状态
sudo systemctl status nginx
tail -f /var/log/nginx/access.log

7.2 健康检查配置

在Nginx配置中添加健康检查：

upstream ollama_cluster {
    server node1:11434 max_fails=3 fail_timeout=30s;
    server node2:11434 max_fails=3 fail_timeout=30s;
    server node3:11434 max_fails=3 fail_timeout=30s;
}

这样Nginx会自动检查后端健康状态，自动剔除故障节点。

8. 常见问题与解决方案

在实际部署中可能会遇到这些问题：

问题1：节点间模型版本不一致

症状：不同节点返回结果不一致
解决：统一部署脚本，确保同时拉取相同版本模型

问题2：内存不足

症状：服务频繁崩溃
解决：添加监控告警，设置资源限制

问题3：网络延迟

症状：响应时间不稳定
解决：优化网络配置，考虑同机房部署

问题4：负载不均衡

症状：某些节点负载过高
解决：调整权重配置，或者改用least_conn策略

9. 总结

通过今天的实践，我们完成了：

从单机到集群：学会了如何部署多节点Ollama服务
负载均衡配置：用Nginx实现了请求分发和故障转移
性能测试验证：确认了集群部署的实际效果
监控维护：建立了基本的监控体系

集群化部署确实比单机复杂一些，但带来的好处是明显的：

可靠性提升：不再担心单点故障
性能扩展：可以通过增加节点来提升处理能力
资源优化：更好地利用硬件资源

对于生产环境来说，这种投入是值得的。下一步你可以考虑：

添加自动化部署（Ansible/Terraform）
实现弹性伸缩（根据负载自动增减节点）
添加更完善的监控告警

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

【小白也能轻松用】个人办公AI搭建，OpenClaw零基础零代码快速部署（含最新安装包）

智能体开发者社区

别再手动编译了，用 Docker 在 Instinct GPU 上三分钟跑通 vLLM

本文详解如何利用 Docker 在 AMD Instinct GPU 上三分钟快速部署 vLLM。借助 ROCm 7.x 官方预构建镜像，开发者可彻底告别手动编译地狱，轻松实现 Llama 3.1 等模型的高效推理。文章涵盖 BF16/FP8 精度配置及性能实测，助您大幅降低环境配置成本，加速大模型服务上线。