1. 介绍

1.1 ollama

Ollama 是一个基于 Go 语言的本地大语言模型运行框架,类 docker 产品(支持 list,pull,push,run 等命令),ollama将类似于镜像的大模型从中央仓库拉取到本地,可以把ollama看作docker容器,把ai大模型看作是镜像。

如果想使用vllm部署DeepSeek-R1-Distill-Qwen-1.5B,可以看这篇文章使用vllm部署DeepSeek-R1-Distill-Qwen-1.5B-CSDN博客

1.2 deepseek

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司。推出国产大模型DeepSeek-V3和DeepSeek-R1。总参数量为671B,激活37B。

优势:

(1):开发费用超级低,训练成本约为558万美元,是美国最好的模型openAI o1开发费用的3%;

(2):与openAI o1水平相当,数学、编程和推理任务上,甚至偶尔超过了o1;

也正是因为如此,DeepSeek R1价格非常便宜,每100万个输出tokens 2.19美元,而 OpenAI o1 则需要60美元,DeepSeek R1便宜 96.4%,性能却不相上下,完全就是逆风翻盘。

DeepSeek基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出六个密集模型。 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini。

2. linux环境配置

V100-32GB

PyTorch 2.5.1

Python 3.12(ubuntu22.04)

Cuda 12.4

3. 安装ollama

3.1 linux

参考网址:ollama/docs/linux.md at main · ollama/ollama · GitHub

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz

sudo tar -C /usr -xzf ollama-linux-amd64.tgz

3.2 macOS和windows

参考网址:https://github.com/ollama/ollama

ollama也支持macOS和windows安装,根据自己相应的系统下载安装就行。

  ollama serve

3.3 Ollama 添加为自启动服务

3.3.1 首先为Ollama 创建用户

sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

3.3.2 然后在该位置:/etc/systemd/system/ollama.service 创建服务文件

[Unit]

Description=Ollama

Service After=network-online.target

[Service]

ExecStart=/usr/bin/ollama serve

User=ollama

Group=ollama

Restart=always

RestartSec=3

Environment="OLLAMA_HOST=0.0.0.0"

[Install]

WantedBy=default.target

3.3.3 最后启动服务

sudo systemctl daemon-reload

sudo systemctl enable ollama

sudo systemctl start ollama

sudo systemctl status ollama

3.3.4  修改ip和端口也可以在环境变量中修改

export OLLAMA_HOST=0.0.0.0

export OLLAMA_PORT=11434

4. ollama常用命令

ollama以后可以运行以下命令和他交互

ollama list:显示模型列表。

ollama show:显示模型的信息

ollama pull:拉取模型

ollama push:推送模型

ollama cp:拷贝一个模型

ollama rm:删除一个模型

ollama run:运行一个模型

5. 运行deepseek模型

5.1 从https://ollama.com/library中查找你想要运行的模型

5.2 不同类型的模型对应的ollama运行命令如下:

5.3 运行deepseek-r1-qwen-1.5b模型

执行命令ollama run deepseek-r1:1.5b,如果本地没有该模型,则会先下载模型再运行。首次运行启动可能略慢。运行ollama run命令以前,必须先运行ollama serve命令启动ollama。

运行成功后可以直接和大模型对话:

1.5b的模型GPU占用不到2G:

5.4 运行deepseek-r1-qwen-32b模型

ollama run deepseek-r1:32b

查看模型: ollama list

运行成功后可以直接和大模型对话:

32b的模型GPU占用21G:

让1.5b的模型和32b的模型同时写一首关于春节的打油诗,可以看到32b的回答要比1.5b的回答好,大家可以按照自己的GPU大小和需求运行对应的deepseek版本;

6. 通过web界面调用大模型

参考网址:GitHub - ollama-webui/ollama-webui-lite: This repo is no longer maintained, please use our main Open WebUI repo.

git clone https://github.com/ollama-webui/ollama-webui-lite.git
cd ollama-webui-lite
npm ci
npm run dev

运行之后,你可以对连接信息进行设置,默认是连接本机的 http://localhost:11434/api,如果你也是本机部署,那就不用更改。然后界面选择启动的模型,就可以对话了。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐