包会！最简单的方法教你们在本地部署DeepSeek模型并外挂知识库！

使用Ollama框架在Windows环境下部署DeepSeek大模型，并且使用Page Assist实现WebUI，配合nomic-embed-text实现外挂知识库

流萤酱_QwQ

2428人浏览 · 2025-04-05 15:18:28

流萤酱_QwQ · 2025-04-05 15:18:28 发布

在这里这篇文章可能有点晚，因为之前没有想过在CSDN上写文章，是在B站写的：文章-bilibili
但是在现在部署一个DeepSeek也不晚哦，毕竟拥有一个自己的AI实在是太酷了！我研究大模型的那段时间里做梦都想着大模型——玩上瘾了

前言

当然，丑话说在前头，家用电脑想要部署一个完整的DeepSeek是不可能的，DeepSeek-R1足足有6710亿参数量，最新的DeepSeek-V3-0324增加到了6850亿参数量
但是呢，如果并不奢求高质量的回答，只是想要一个AI来聊天，或者学习AI大模型，家用电脑完全可以本地部署一个DeepSeek-R1的1.5b量化版本！它可以在CPU环境下运行，比如我的这台办公主机，使用i5-9400F的CPU，可以非常流畅地运行DeepSeek-R1:1.5b模型，甚至还可以跑一跑7b。如果家里有高性能的主机，可以部署一个32b或70b，这样可以让它成为你的一大帮手

模型是怎么变小的

蒸馏

以DeepSeek为例，它有两个蒸馏版本，一个是以Qwen为基础模型的，一个是以llama为基础模型的
基础模型一般都是些轻量化的小模型，“老师”DeepSeek将自己的精华传授给它们，让它们在极小的参数量下也能像“老师”一样思考
简单来说，其他大模型手里的是一大堆资料，而蒸馏模型则是拿到了一份提纲，虽然内容少了，但是能够保留最重要的内容

量化

量化就是将模型的精度降低，以换取更高的计算计算效率的方法
以DeepSeek为例，模型的原始精度是FP16，量化至Q4_K_M精度损失不到10%，但是模型大小却只有之前的30%

各个参数量的DeepSeek性能要求

1.5B
- 内存：8GB以上
- CPU：性能较强的多核CPU
7B/8B
- 内存：16GB以上
- GPU：NVIDIA GTX1660以上
- 显存：6GB以上
  不建议使用CPU推理，速度会比较慢
14B
- 内存：32GB以上
- GPU：RTX3060以上
- 显存：12GB以上
32B
- 内存：64GB以上
- GPU：RTX4090以上
- 显存：24GB以上
70B
- 内存：128GB以上
- GPU：需多卡阵列或专业计算卡
- 显存：48GB以上
671B
- 内存：1~2TB
- GPU：多张专业计算卡，如H100、A100
- 显存：纯GPU环境需要1TB以上

这样看，你们的电脑能够跑得动多少参数量的模型呢？

正式部署

安装Ollama框架

DeepSeek是一个开源模型，部署它的方法很多，我们这里使用Ollama框架来部署；Ollama框架推荐优先Windows使用，因为后面要配置环境变量，Windows操作起来比较简单（如果你C盘足够大就当我什么也没说）
来到Ollama的官网，点击Download下载框架，直达链接：Windows，MacOS
Linux则需要再终端输入：

curl -fsSL https://ollama.com/install.sh | sh

下载完成后安装就行了
在终端或者Windows命令提示符输入

ollama

验证Ollama有没有正常运行

加载和运行模型需要保持Ollama是运行状态，一般Ollama默认是开机自启动，如果Ollama被关闭了，需要手动启动Ollama，Windows可以在开始菜单找到Ollama，Mac和Linux应该也差不多，找到Ollama运行就行了

下载模型

部署模型我们以Windows为例

更改环境变量

下载模型之前我们最好先更改环境变量，否则它会默认安装在C盘；这时Windows的好处了，只需这样操作：
右键此电脑 → 点击属性 → 点击高级系统设置 → 点击环境变量 → 新建 → 添加OLLAMA_MODELS
添加环境变量
将变量值设置为你们准备好的路径，不要有空格和特殊字符，比如设置为D:\Ollama_Model，保存更改，然后重启Ollama或者直接重启电脑

下载模型

回到Ollama官网，在上方点击Models寻找你想要的模型，或者在上方的搜索框搜索模型，比如我们搜索"DeepSeek"
Ollama页面
在1处选择模型规格，2处复制命令，将命令粘贴到终端（Windows右键开始图标，点击终端或PowerShell，Linux快捷键Ctrl+Alt+T，Mac在搜索框搜索终端运行）就会开始下载

运行模型

下载完成后，打开终端，输入ollama list列出模型
命令行界面
可以看到在NAME这一栏就是模型名称，我们输入ollama run+模型名称就可以运行模型和它对话，比如要运行1.5b的模型就需要输入

ollama run deepseek-r1:1.5b

监视模型

我们要怎样了解模型的生成速度呢？我们需要在运行命令中加入--verbose：

ollama run --verbose deepseek-r1:1.5b

以我的模型生成信息为例，它回答完成后Ollama输出了这样的一段文字

total duration:       16.9796611s        #生成花费的总时间
load duration:        19.073ms           #加载模型花费的时间
prompt eval count:    56 token(s)        #提示词处理量
prompt eval duration: 158ms              #处理提示词花费的时间
prompt eval rate:     354.43 tokens/s    #提示词的处理速度
eval count:           249 token(s)       #生成的token数量
eval duration:        16.8s              #生成所花费的时间
eval rate:            14.82 tokens/s     #生成速度

实现WebUI并外挂知识库

WebUI

想要实现WebUI我们需要一个浏览器插件——Page Assist，它的正常获取途径是从谷歌商店获取，但是如果我们访问不了谷歌，怎么办呢？
你可以在我这里下载插件再安装到浏览器

以Edge浏览器为例，点击右上角的三个点，再点击扩展，进入管理扩展，打开开发人员模式，再将下载到的扩展拖入窗口中，就会安装扩展了；安装完成后点击上方工具栏的扩展图标就可以找到安装的扩展，点击它进入Page Assist的页面

进入Page Assist的页面后，点击右上角的齿轮进入设置，将语言更改为中文，点击左上角箭头图标回到聊天页面，接着在上方的模型选择框中选择一个模型就可以开始聊天了

外挂知识库

由于模型参数量小，所以其实很多东西都是不知道的，这时你就需要告诉它什么是什么

下载模型

想要让大模型理解大段的文本，就需要一个文本嵌入模型配合，我们这里就使用nomic-embed-text，和其他模型一样的下载方法，再终端输入

ollama run nomic-embed-text

可能有人输入后会发现这样的报错

Error: "nomic-embed-text" does not support generate

这时你需要输入ollama list检查一下是不是已经安装了这个模型，因为它不是一个文本生成模型，是不可以运行对话的

设置Page Assist

安装完成后，回到Page Assist，进入设置，选择RAG设置，将文本嵌入模型选择为刚才下载的模型，点击保存
找到你想要让AI学习的内容，把它做成文本文档（txt格式），或者是pdf，csv，md格式的内容
在设置，点击管理知识，再点击添加新知识，把刚才的文件添加上去。提交后等待它处理成功，回到聊天界面，输入框旁边有了一个方块的图标，点击它会显示你添加的知识，点击那些知识，知识会被添加到上边栏，表示AI在后面的回答中会使用这些知识

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla