包会!最简单的方法教你们在本地部署DeepSeek模型并外挂知识库!
使用Ollama框架在Windows环境下部署DeepSeek大模型,并且使用Page Assist实现WebUI,配合nomic-embed-text实现外挂知识库
在这里这篇文章可能有点晚,因为之前没有想过在CSDN上写文章,是在B站写的:文章-bilibili
但是在现在部署一个DeepSeek也不晚哦,毕竟拥有一个自己的AI实在是太酷了!我研究大模型的那段时间里做梦都想着大模型——玩上瘾了
前言
当然,丑话说在前头,家用电脑想要部署一个完整的DeepSeek是不可能的,DeepSeek-R1足足有6710亿参数量,最新的DeepSeek-V3-0324增加到了6850亿参数量
但是呢,如果并不奢求高质量的回答,只是想要一个AI来聊天,或者学习AI大模型,家用电脑完全可以本地部署一个DeepSeek-R1的1.5b量化版本!它可以在CPU环境下运行,比如我的这台办公主机,使用i5-9400F的CPU,可以非常流畅地运行DeepSeek-R1:1.5b模型,甚至还可以跑一跑7b。如果家里有高性能的主机,可以部署一个32b或70b,这样可以让它成为你的一大帮手
模型是怎么变小的
蒸馏
以DeepSeek为例,它有两个蒸馏版本,一个是以Qwen为基础模型的,一个是以llama为基础模型的
基础模型一般都是些轻量化的小模型,“老师”DeepSeek将自己的精华传授给它们,让它们在极小的参数量下也能像“老师”一样思考
简单来说,其他大模型手里的是一大堆资料,而蒸馏模型则是拿到了一份提纲,虽然内容少了,但是能够保留最重要的内容
量化
量化就是将模型的精度降低,以换取更高的计算计算效率的方法
以DeepSeek为例,模型的原始精度是FP16,量化至Q4_K_M精度损失不到10%,但是模型大小却只有之前的30%
各个参数量的DeepSeek性能要求
- 1.5B
- 内存:8GB以上
- CPU:性能较强的多核CPU
- 7B/8B
- 内存:16GB以上
- GPU:
NVIDIA GTX1660以上 - 显存:6GB以上
不建议使用CPU推理,速度会比较慢
- 14B
- 内存:32GB以上
- GPU:
RTX3060以上 - 显存:12GB以上
- 32B
- 内存:64GB以上
- GPU:
RTX4090以上 - 显存:24GB以上
- 70B
- 内存:128GB以上
- GPU:需多卡阵列或专业计算卡
- 显存:48GB以上
- 671B
- 内存:1~2TB
- GPU:多张专业计算卡,如
H100、A100 - 显存:纯GPU环境需要1TB以上
这样看,你们的电脑能够跑得动多少参数量的模型呢?
正式部署
安装Ollama框架
DeepSeek是一个开源模型,部署它的方法很多,我们这里使用Ollama框架来部署;Ollama框架推荐优先Windows使用,因为后面要配置环境变量,Windows操作起来比较简单(如果你C盘足够大就当我什么也没说)
来到Ollama的官网,点击Download下载框架,直达链接:Windows,MacOS
Linux则需要再终端输入:
curl -fsSL https://ollama.com/install.sh | sh
下载完成后安装就行了
在终端或者Windows命令提示符输入
ollama
验证Ollama有没有正常运行
加载和运行模型需要保持Ollama是运行状态,一般Ollama默认是开机自启动,如果Ollama被关闭了,需要手动启动Ollama,Windows可以在开始菜单找到Ollama,Mac和Linux应该也差不多,找到Ollama运行就行了
下载模型
部署模型我们以Windows为例
更改环境变量
下载模型之前我们最好先更改环境变量,否则它会默认安装在C盘;这时Windows的好处了,只需这样操作:
右键此电脑 → 点击属性 → 点击高级系统设置 → 点击环境变量 → 新建 → 添加OLLAMA_MODELS
将变量值设置为你们准备好的路径,不要有空格和特殊字符,比如设置为D:\Ollama_Model,保存更改,然后重启Ollama或者直接重启电脑
下载模型
回到Ollama官网,在上方点击Models寻找你想要的模型,或者在上方的搜索框搜索模型,比如我们搜索"DeepSeek"
在1处选择模型规格,2处复制命令,将命令粘贴到终端(Windows右键开始图标,点击终端或PowerShell,Linux快捷键Ctrl+Alt+T,Mac在搜索框搜索终端运行)就会开始下载
运行模型
下载完成后,打开终端,输入ollama list列出模型
可以看到在NAME这一栏就是模型名称,我们输入ollama run+模型名称就可以运行模型和它对话,比如要运行1.5b的模型就需要输入
ollama run deepseek-r1:1.5b
监视模型
我们要怎样了解模型的生成速度呢?我们需要在运行命令中加入--verbose:
ollama run --verbose deepseek-r1:1.5b
以我的模型生成信息为例,它回答完成后Ollama输出了这样的一段文字
total duration: 16.9796611s #生成花费的总时间
load duration: 19.073ms #加载模型花费的时间
prompt eval count: 56 token(s) #提示词处理量
prompt eval duration: 158ms #处理提示词花费的时间
prompt eval rate: 354.43 tokens/s #提示词的处理速度
eval count: 249 token(s) #生成的token数量
eval duration: 16.8s #生成所花费的时间
eval rate: 14.82 tokens/s #生成速度
实现WebUI并外挂知识库
WebUI
想要实现WebUI我们需要一个浏览器插件——Page Assist,它的正常获取途径是从谷歌商店获取,但是如果我们访问不了谷歌,怎么办呢?
你可以在我这里下载插件再安装到浏览器
以Edge浏览器为例,点击右上角的三个点,再点击扩展,进入管理扩展,打开开发人员模式,再将下载到的扩展拖入窗口中,就会安装扩展了;安装完成后点击上方工具栏的扩展图标就可以找到安装的扩展,点击它进入Page Assist的页面
进入Page Assist的页面后,点击右上角的齿轮进入设置,将语言更改为中文,点击左上角箭头图标回到聊天页面,接着在上方的模型选择框中选择一个模型就可以开始聊天了
外挂知识库
由于模型参数量小,所以其实很多东西都是不知道的,这时你就需要告诉它什么是什么
下载模型
想要让大模型理解大段的文本,就需要一个文本嵌入模型配合,我们这里就使用nomic-embed-text,和其他模型一样的下载方法,再终端输入
ollama run nomic-embed-text
可能有人输入后会发现这样的报错
Error: "nomic-embed-text" does not support generate
这时你需要输入ollama list检查一下是不是已经安装了这个模型,因为它不是一个文本生成模型,是不可以运行对话的
设置Page Assist
安装完成后,回到Page Assist,进入设置,选择RAG设置,将文本嵌入模型选择为刚才下载的模型,点击保存
找到你想要让AI学习的内容,把它做成文本文档(txt格式),或者是pdf,csv,md格式的内容
在设置,点击管理知识,再点击添加新知识,把刚才的文件添加上去。提交后等待它处理成功,回到聊天界面,输入框旁边有了一个方块的图标,点击它会显示你添加的知识,点击那些知识,知识会被添加到上边栏,表示AI在后面的回答中会使用这些知识
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)