Ubuntu安装Ollama运行大模型全攻略。
Ollama 是一个用于本地运行大型语言模型的工具,支持多种开源模型。在 Ubuntu 系统中安装 Ollama 需要确保系统已安装必要的依赖项,包括。通过修改运行参数可以调整模型性能。例如,限制 GPU 显存使用或设置上下文长度。Ollama 提供本地 REST API,默认监听端口 11434。Ollama 支持多种开源大模型,包括 DeepSeek、Qwen 等。首次运行时会自动下载模型文件
·
安装 Ollama 并配置环境
Ollama 是一个用于本地运行大型语言模型的工具,支持多种开源模型。在 Ubuntu 系统中安装 Ollama 需要确保系统已安装必要的依赖项,包括 curl 和 docker(可选)。运行以下命令安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,将当前用户添加到 ollama 用户组以获取权限:
sudo usermod -aG ollama $USER
重启系统或重新登录以应用用户组变更。验证安装是否成功:
ollama --version
下载并运行大模型
Ollama 支持多种开源大模型,包括 DeepSeek、Qwen 等。以下命令用于下载并运行模型:
ollama pull deepseek/deepseek-llm
ollama run deepseek/deepseek-llm
对于 Qwen 模型,使用以下命令:
ollama pull qwen/qwen-7b
ollama run qwen/qwen-7b
首次运行时会自动下载模型文件,下载速度取决于网络带宽。模型文件默认存储在 ~/.ollama/models 目录。
配置模型运行参数
通过修改运行参数可以调整模型性能。例如,限制 GPU 显存使用或设置上下文长度。以下是一个启动 Qwen 模型并限制显存占用的示例:
ollama run qwen/qwen-7b --num-gpu-layers 20 --ctx-size 2048
参数说明:
--num-gpu-layers:指定在 GPU 上运行的层数--ctx-size:设置上下文窗口大小
使用 REST API 与模型交互
Ollama 提供本地 REST API,默认监听端口 11434。通过 curl 或 Python 代码可以与模型交互:
curl -X POST http://localhost:11434/api/generate -d '{
"model": "qwen/qwen-7b",
"prompt": "解释量子计算的基本原理"
}'
Python 代码示例:
import
更多推荐
所有评论(0)