安装 Ollama 并配置环境

Ollama 是一个用于本地运行大型语言模型的工具,支持多种开源模型。在 Ubuntu 系统中安装 Ollama 需要确保系统已安装必要的依赖项,包括 curldocker(可选)。运行以下命令安装 Ollama:

curl -fsSL https://ollama.com/install.sh | sh

安装完成后,将当前用户添加到 ollama 用户组以获取权限:

sudo usermod -aG ollama $USER

重启系统或重新登录以应用用户组变更。验证安装是否成功:

ollama --version

下载并运行大模型

Ollama 支持多种开源大模型,包括 DeepSeek、Qwen 等。以下命令用于下载并运行模型:

ollama pull deepseek/deepseek-llm
ollama run deepseek/deepseek-llm

对于 Qwen 模型,使用以下命令:

ollama pull qwen/qwen-7b
ollama run qwen/qwen-7b

首次运行时会自动下载模型文件,下载速度取决于网络带宽。模型文件默认存储在 ~/.ollama/models 目录。

配置模型运行参数

通过修改运行参数可以调整模型性能。例如,限制 GPU 显存使用或设置上下文长度。以下是一个启动 Qwen 模型并限制显存占用的示例:

ollama run qwen/qwen-7b --num-gpu-layers 20 --ctx-size 2048

参数说明:

  • --num-gpu-layers:指定在 GPU 上运行的层数
  • --ctx-size:设置上下文窗口大小

使用 REST API 与模型交互

Ollama 提供本地 REST API,默认监听端口 11434。通过 curl 或 Python 代码可以与模型交互:

curl -X POST http://localhost:11434/api/generate -d '{
  "model": "qwen/qwen-7b",
  "prompt": "解释量子计算的基本原理"
}'

Python 代码示例:

import
Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐