【Ollama常用使用命令及说明】

Ollama是本地运行大型语言模型的轻量级工具，提供类似Docker的操作体验。主要功能包括：通过ollama pull下载模型，ollama list查看本地模型，ollama run运行交互式对话。支持自定义模型创建（Modelfile）、服务管理（端口配置/日志查看）和API调用。常用场景涵盖模型管理、本地推理和性能监控，环境变量可配置存储路径等参数。

高克莱

2685人浏览 · 2025-08-07 17:52:44

高克莱 · 2025-08-07 17:52:44 发布

Ollama常用使用命令及说明

Ollama

Ollama

Ollama 是一个轻量级的开源工具，支持在本地快速部署和运行大型语言模型（LLM），ollama本身功能强大，使用类似于 Docker 的操作体验。

一、基础命令：模型生命周期管理

1. 下载模型（ollama pull）

从远程仓库下载模型到本地，支持主流 LLM（如 Llama 2、Qwen、CodeLlama 等）。

ollama pull <model_name:version>

示例：

ollama pull llama2:7b      # 下载 Llama 2 7B 版本
ollama pull qwen:32b       # 下载 Qwen 32B 模型

说明：
- 若未指定版本，默认下载最新版本。
- 支持增量更新（仅下载模型变更部分）。

2. 列出已下载模型（ollama list）

查看本地已安装的模型及其详细信息（名称、ID、大小、修改时间等）。

ollama list

输出示例：

NAME            ID              SIZE    MODIFIED
llama2:7b       e5a7b3a1c7a2    4.7GB   2 days ago
qwen:32b        c3d9f1a8b0e6    23GB    1 week ago
mistral:7b      a8b2c4d6f0e1    13GB    3 hours ago

3. 删除模型（ollama rm）

移除本地已下载的模型，释放磁盘空间。

ollama rm <model_name:version>

示例：

ollama rm llama2:7b      # 删除 Llama 2 7B 模型

二、模型运行与交互

1. 运行模型（ollama run）

启动模型的交互式对话或任务执行，支持参数调整（如温度、最大输出长度）。若本地未安装指定模型，会自动从远程仓库下载。

ollama run <model_name> [参数]

示例：

ollama run llama2:7b                    # 启动 Llama 2 7B 聊天模式
ollama run qwen:32b --temp 0.7 --max-tokens 500  # 设置温度和输出长度

交互界面：
```
>>> 你好！介绍一下你自己
```

2. 停止模型（ollama stop）

优雅地停止当前运行的模型服务。

ollama stop

快捷键：在交互界面按 Ctrl+D 退出。

三、服务管理与高级功能

1. 启动 Ollama 服务（ollama serve）

启动 Ollama 服务，允许通过 HTTP API 调用模型（默认端口 11434）。

ollama serve

自定义配置：

ollama serve --port 11435       # 修改默认端口
ollama serve --ollama_gpu_overhead=4096  # 预留 4GB GPU 显存

2. 停止服务（ollama stop）

停止 Ollama 服务或正在运行的模型实例。

ollama stop                       # 停止当前运行的模型
pkill -f "ollama serve"          # 强制终止服务

3. 查看运行中的模型（ollama ps）

列出当前加载到内存中的模型实例。

ollama ps

输出示例：

MODEL           ID              STATUS
gemma2:27b      abc123456789    running

四、模型定制与高级操作

1. 创建自定义模型（ollama create）

基于 Modelfile 配置文件创建自定义模型（类似 Dockerfile）。

ollama create <model_name> -f ./Modelfile

示例 Modelfile：

FROM qwen:32b
SYSTEM """你是一位资深英语老师，用温暖亲切的语气回答问题。"""

运行自定义模型：
```
ollama run mymodel
```

2. 推送模型到远程仓库（ollama push）

将本地模型推送到 Ollama Hub（需注册账号）。

ollama push <username/model_name>

流程：
1. 注册 Ollama 账号：ollama login
2. 推送模型：
```
ollama push yourname/family-doctor
```

五、实用工具与调试

1. 查看版本信息（ollama version）

显示当前安装的 Ollama 工具版本。

ollama version

2. 查看日志（ollama logs）

调试模型运行时的问题，查看服务日志。

ollama logs

系统日志（Linux）：
```
journalctl -u ollama -f
```

3. 监控服务状态（ollama stats）

实时监控 GPU/内存使用情况（需启用统计模式）。

ollama serve --ollama_debug=true
ollama stats

六、环境变量与自定义配置

变量名	说明
`OLLAMA_HOST`	修改服务绑定地址和端口（如 `0.0.0.0:11434`）
`OLLAMA_MODELS`	自定义模型存储路径（默认 `~/.ollama/models`）
`OLLAMA_KEEP_ALIVE`	设置模型在内存中保留时间（如 `1h`）
`OLLAMA_NUM_PARALLEL`	允许的最大并发请求数

七、典型使用场景

1. 后台启动服务 + 加载模型

nohup ollama serve --port 11435 > ollama.log 2>&1 &
ollama load qwen:32b

2. 通过 API 发送推理请求

curl -X POST http://localhost:11434/predict \
  -H "Content-Type: application/json" \
  -d '{"prompt": "What is the capital of France?"}'

3. 监控 GPU 使用

watch -n 1 "nvidia-smi && ollama list"

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla