Ollama

Ollama 是一个轻量级的开源工具,支持在本地快速部署和运行大型语言模型(LLM),ollama本身功能强大,使用类似于 Docker 的操作体验。

一、基础命令:模型生命周期管理

1. 下载模型(ollama pull)

从远程仓库下载模型到本地,支持主流 LLM(如 Llama 2、Qwen、CodeLlama 等)。

ollama pull <model_name:version>
  • 示例

    ollama pull llama2:7b      # 下载 Llama 2 7B 版本
    ollama pull qwen:32b       # 下载 Qwen 32B 模型
    
  • 说明

    • 若未指定版本,默认下载最新版本。
    • 支持增量更新(仅下载模型变更部分)。

2. 列出已下载模型(ollama list)

查看本地已安装的模型及其详细信息(名称、ID、大小、修改时间等)。

ollama list
  • 输出示例

    NAME            ID              SIZE    MODIFIED
    llama2:7b       e5a7b3a1c7a2    4.7GB   2 days ago
    qwen:32b        c3d9f1a8b0e6    23GB    1 week ago
    mistral:7b      a8b2c4d6f0e1    13GB    3 hours ago
    

3. 删除模型(ollama rm)

移除本地已下载的模型,释放磁盘空间。

ollama rm <model_name:version>
  • 示例

    ollama rm llama2:7b      # 删除 Llama 2 7B 模型
    

二、模型运行与交互

1. 运行模型(ollama run)

启动模型的交互式对话或任务执行,支持参数调整(如温度、最大输出长度)。若本地未安装指定模型,会自动从远程仓库下载。

ollama run <model_name> [参数]
  • 示例

    ollama run llama2:7b                    # 启动 Llama 2 7B 聊天模式
    ollama run qwen:32b --temp 0.7 --max-tokens 500  # 设置温度和输出长度
    
  • 交互界面

    >>> 你好!介绍一下你自己
    

2. 停止模型(ollama stop)

优雅地停止当前运行的模型服务。

ollama stop
  • 快捷键:在交互界面按 Ctrl+D 退出。

三、服务管理与高级功能

1. 启动 Ollama 服务(ollama serve)

启动 Ollama 服务,允许通过 HTTP API 调用模型(默认端口 11434)。

ollama serve
  • 自定义配置

    ollama serve --port 11435       # 修改默认端口
    ollama serve --ollama_gpu_overhead=4096  # 预留 4GB GPU 显存
    

2. 停止服务(ollama stop)

停止 Ollama 服务或正在运行的模型实例。

ollama stop                       # 停止当前运行的模型
pkill -f "ollama serve"          # 强制终止服务

3. 查看运行中的模型(ollama ps)

列出当前加载到内存中的模型实例。

ollama ps
  • 输出示例

    MODEL           ID              STATUS
    gemma2:27b      abc123456789    running
    

四、模型定制与高级操作

1. 创建自定义模型(ollama create)

基于 Modelfile 配置文件创建自定义模型(类似 Dockerfile)。

ollama create <model_name> -f ./Modelfile
  • 示例 Modelfile

    FROM qwen:32b
    SYSTEM """你是一位资深英语老师,用温暖亲切的语气回答问题。"""
    
  • 运行自定义模型

    ollama run mymodel
    

2. 推送模型到远程仓库(ollama push)

将本地模型推送到 Ollama Hub(需注册账号)。

ollama push <username/model_name>
  • 流程

    1. 注册 Ollama 账号:ollama login

    2. 推送模型:

      ollama push yourname/family-doctor
      

五、实用工具与调试

1. 查看版本信息(ollama version)

显示当前安装的 Ollama 工具版本。

ollama version

2. 查看日志(ollama logs)

调试模型运行时的问题,查看服务日志。

ollama logs
  • 系统日志(Linux):

    journalctl -u ollama -f
    

3. 监控服务状态(ollama stats)

实时监控 GPU/内存使用情况(需启用统计模式)。

ollama serve --ollama_debug=true
ollama stats

六、环境变量与自定义配置

变量名 说明
OLLAMA_HOST 修改服务绑定地址和端口(如 0.0.0.0:11434
OLLAMA_MODELS 自定义模型存储路径(默认 ~/.ollama/models
OLLAMA_KEEP_ALIVE 设置模型在内存中保留时间(如 1h
OLLAMA_NUM_PARALLEL 允许的最大并发请求数

七、典型使用场景

1. 后台启动服务 + 加载模型

nohup ollama serve --port 11435 > ollama.log 2>&1 &
ollama load qwen:32b

2. 通过 API 发送推理请求

curl -X POST http://localhost:11434/predict \
  -H "Content-Type: application/json" \
  -d '{"prompt": "What is the capital of France?"}'

3. 监控 GPU 使用

watch -n 1 "nvidia-smi && ollama list"
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐