【Ollama常用使用命令及说明】
Ollama是本地运行大型语言模型的轻量级工具,提供类似Docker的操作体验。主要功能包括:通过ollama pull下载模型,ollama list查看本地模型,ollama run运行交互式对话。支持自定义模型创建(Modelfile)、服务管理(端口配置/日志查看)和API调用。常用场景涵盖模型管理、本地推理和性能监控,环境变量可配置存储路径等参数。
Ollama常用使用命令及说明
Ollama
Ollama 是一个轻量级的开源工具,支持在本地快速部署和运行大型语言模型(LLM),ollama本身功能强大,使用类似于 Docker 的操作体验。
一、基础命令:模型生命周期管理
1. 下载模型(ollama pull)
从远程仓库下载模型到本地,支持主流 LLM(如 Llama 2、Qwen、CodeLlama 等)。
ollama pull <model_name:version>
-
示例:
ollama pull llama2:7b # 下载 Llama 2 7B 版本 ollama pull qwen:32b # 下载 Qwen 32B 模型 -
说明:
- 若未指定版本,默认下载最新版本。
- 支持增量更新(仅下载模型变更部分)。
2. 列出已下载模型(ollama list)
查看本地已安装的模型及其详细信息(名称、ID、大小、修改时间等)。
ollama list
-
输出示例:
NAME ID SIZE MODIFIED llama2:7b e5a7b3a1c7a2 4.7GB 2 days ago qwen:32b c3d9f1a8b0e6 23GB 1 week ago mistral:7b a8b2c4d6f0e1 13GB 3 hours ago
3. 删除模型(ollama rm)
移除本地已下载的模型,释放磁盘空间。
ollama rm <model_name:version>
-
示例:
ollama rm llama2:7b # 删除 Llama 2 7B 模型
二、模型运行与交互
1. 运行模型(ollama run)
启动模型的交互式对话或任务执行,支持参数调整(如温度、最大输出长度)。若本地未安装指定模型,会自动从远程仓库下载。
ollama run <model_name> [参数]
-
示例:
ollama run llama2:7b # 启动 Llama 2 7B 聊天模式 ollama run qwen:32b --temp 0.7 --max-tokens 500 # 设置温度和输出长度 -
交互界面:
>>> 你好!介绍一下你自己
2. 停止模型(ollama stop)
优雅地停止当前运行的模型服务。
ollama stop
- 快捷键:在交互界面按
Ctrl+D退出。
三、服务管理与高级功能
1. 启动 Ollama 服务(ollama serve)
启动 Ollama 服务,允许通过 HTTP API 调用模型(默认端口 11434)。
ollama serve
-
自定义配置:
ollama serve --port 11435 # 修改默认端口 ollama serve --ollama_gpu_overhead=4096 # 预留 4GB GPU 显存
2. 停止服务(ollama stop)
停止 Ollama 服务或正在运行的模型实例。
ollama stop # 停止当前运行的模型
pkill -f "ollama serve" # 强制终止服务
3. 查看运行中的模型(ollama ps)
列出当前加载到内存中的模型实例。
ollama ps
-
输出示例:
MODEL ID STATUS gemma2:27b abc123456789 running
四、模型定制与高级操作
1. 创建自定义模型(ollama create)
基于 Modelfile 配置文件创建自定义模型(类似 Dockerfile)。
ollama create <model_name> -f ./Modelfile
-
示例
Modelfile:FROM qwen:32b SYSTEM """你是一位资深英语老师,用温暖亲切的语气回答问题。""" -
运行自定义模型:
ollama run mymodel
2. 推送模型到远程仓库(ollama push)
将本地模型推送到 Ollama Hub(需注册账号)。
ollama push <username/model_name>
-
流程:
-
注册 Ollama 账号:
ollama login -
推送模型:
ollama push yourname/family-doctor
-
五、实用工具与调试
1. 查看版本信息(ollama version)
显示当前安装的 Ollama 工具版本。
ollama version
2. 查看日志(ollama logs)
调试模型运行时的问题,查看服务日志。
ollama logs
-
系统日志(Linux):
journalctl -u ollama -f
3. 监控服务状态(ollama stats)
实时监控 GPU/内存使用情况(需启用统计模式)。
ollama serve --ollama_debug=true
ollama stats
六、环境变量与自定义配置
| 变量名 | 说明 |
|---|---|
OLLAMA_HOST |
修改服务绑定地址和端口(如 0.0.0.0:11434) |
OLLAMA_MODELS |
自定义模型存储路径(默认 ~/.ollama/models) |
OLLAMA_KEEP_ALIVE |
设置模型在内存中保留时间(如 1h) |
OLLAMA_NUM_PARALLEL |
允许的最大并发请求数 |
七、典型使用场景
1. 后台启动服务 + 加载模型
nohup ollama serve --port 11435 > ollama.log 2>&1 &
ollama load qwen:32b
2. 通过 API 发送推理请求
curl -X POST http://localhost:11434/predict \
-H "Content-Type: application/json" \
-d '{"prompt": "What is the capital of France?"}'
3. 监控 GPU 使用
watch -n 1 "nvidia-smi && ollama list"
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐


所有评论(0)