【最全教程】本地部署DeepSeek+构建私有知识库+调用大模型API

本文详细介绍了DeepSeek大模型的本地部署方法及API调用指南。主要内容包括：1）通过LMStudio下载安装不同规格的DeepSeek模型（1.5B-70B），并说明各版本的硬件需求；2）配置本地模型和知识库的步骤；3）调用DeepSeek API的方法，包括申请API Key和使用Chatbox进行对话。文章还提供了隐私保护措施建议，如关闭软件联网等。适合需要在本地部署AI模型或使用API

鸣蜩二五

2201人浏览 · 2025-08-25 13:36:42

鸣蜩二五 · 2025-08-25 13:36:42 发布

本文写于2月，以实际为准

一、本地部署DeepSeek

1.下载安装LM Studio

LM Studio - Download and run LLMs on your computer

下载文件后双击exe文件，根据下图安装提示按步骤进行安装

2.下载大模型文件

参数模型硬件要求如下，请根据本机的配置选择合适的模型

✅ DeepSeek-R1-1.5B

CPU: 最低 4 核（推荐 Intel/AMD 多核处理器）

内存: 8GB+

硬盘: 3GB+ 存储空间（模型文件约 1.5-2GB）

显卡: 非必需（纯 CPU 推理），若 GPU 加速可选 4GB+ 显存（如 GTX 1650）

场景：低资源设备部署，如树莓派、旧款笔记本、嵌入式系统或物联网设备

✅ DeepSeek-R1-7B

CPU: 8 核以上（推荐现代多核 CPU）

内存: 16GB+

硬盘: 8GB+（模型文件约 4-5GB）

显卡: 推荐 8GB+ 显存（如 RTX 3070/4060）

场景：中小型企业本地开发测试、中等复杂度 NLP 任务，例如文本摘要、翻译、轻量级多轮对话系统

✅ DeepSeek-R1-8B

CPU: 8 核以上（推荐现代多核 CPU）

内存: 16GB+

硬盘: 8GB+（模型文件约 4-5GB）

显卡: 推荐 8GB+ 显存（如 RTX 3070/4060）

场景：需更高精度的轻量级任务（如代码生成、逻辑推理）

✅ DeepSeek-R1-14B

CPU: 12 核以上

内存: 32GB+

硬盘: 15GB+

显卡: 16GB+ 显存（如 RTX 4090 或 A5000）

场景：企业级复杂任务、长文本理解与生成

✅ DeepSeek-R1-32B

CPU: 16 核以上（如 AMD Ryzen 9 或 Intel i9）

内存: 64GB+

硬盘: 30GB+

显卡: 24GB+ 显存（如 A100 40GB 或双卡 RTX 3090）

场景：高精度专业领域任务、多模态任务预处理

✅ DeepSeek-R1-70B

CPU: 32 核以上（服务器级 CPU）

内存: 128GB+

硬盘: 70GB+

显卡: 多卡并行（如 2x A100 80GB 或 4x RTX 4090）

场景：科研机构/大型企业、高复杂度生成任务

从百度网盘下载

链接: https://pan.baidu.com/s/1x_Hj2QiQcwENbuCx6ysL1w 提取码: gdku

网页在线下载（也可以在该网站下载其他本地模型，下载文件的格式为gguf）

1.5B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/tree/main

7B：https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF/tree/main

14B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-14B-GGUF/tree/main

32B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF/tree/main

70B：https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Llama-70B-GGUF/tree/main

注：图中Q2、Q3、Q4等通常是指模型的量化级别，数字越大精度越高，一般选择Q4

3.配置本地模型

在磁盘下创建三级文件夹（如图所示，LLM→DeepSeek→1.5B），将gguf模型文件放置于第三层文件夹中注：这步很重要，如果没有按照要求设置，会导致读取不到本地模型

打开LM Studio，进入文件页面，更改模型目录

选择刚刚创建的三级文件夹中的第一级，即可看到本地模型，若仍没显示，可点击刷新按钮

4.加载本地模型

进入聊天页面，点击顶部加载模型会自动显示本地模型，选中一个模型

选择模型后需要配置模型的参数，前三个参数可根据自己的硬件调整，后面的参数按照默认设置即可，设置完成后点击“加载模型”按钮

上下文长度：

含义：模型处理文本时能够考虑的最大词元（token）数量。

调整效果：增加上下文长度可以提高模型理解长文本的能力，但会增加内存消耗和计算时间。

一般设置为2048的倍数

GPU 挂载：

含义：指定用于模型计算的GPU数量。

调整效果：增加GPU数量可以提高模型的推理速度，但需要更多的硬件资源。

CPU Thread Pool Size：

含义：指定用于模型计算的CPU线程池大小。

调整效果：增加线程池大小可以提高CPU的并行处理能力，从而提高模型的推理速度，但也会增加CPU的负载。

评估批处理大小：

含义：指定每次模型评估时处理的样本数量。

调整效果：增加批处理大小可以提高模型的推理速度，但也会增加内存消耗。

RoPE 频率基底：

含义：控制旋转位置编码（RoPE）的频率基底。

调整效果：影响模型对位置信息的处理方式，可以优化模型在某些任务上的性能。

RoPE 频率缩放：

含义：控制旋转位置编码（RoPE）的频率缩放。

调整效果：影响模型对位置信息的处理方式，可以优化模型在某些任务上的性能。

保持模型在内存中：

含义：是否将模型常驻内存，以加快加载速度。

调整效果：保持模型在内存中可以加快模型的加载速度，但会占用更多的内存资源。

尝试 mmap()：

含义：使用内存映射文件（mmap）技术来加载模型。

调整效果：使用mmap可以提高模型加载的速度和效率，特别是在处理大模型时。

种子：

含义：设置随机数生成器的种子值。

调整效果：设置种子值可以确保实验的可重复性，使得每次运行的结果一致。

快速注意力：

含义：启用快速注意力机制。

调整效果：快速注意力机制可以提高模型的推理速度，但可能会对模型的性能产生一定影响。

K Cache Quantization Type：

含义：指定键缓存（K Cache）的量化类型。

调整效果：量化可以减少模型的内存占用和计算量，但可能会对模型的性能产生一定影响。

V Cache Quantization Type：

含义：指定值缓存（V Cache）的量化类型。

调整效果：量化可以减少模型的内存占用和计算量，但可能会对模型的性能产生一定影响。

Remember settings for deepseek-r1-distill-qwen-1.5b：

含义：是否记住当前模型的设置。

调整效果：勾选此选项可以在下次加载模型时自动应用当前设置，无需重新配置。

加载成功后即可开始对话

5.关闭软件联网保护隐私

本步骤非必须，如果想更好的保护隐私不被泄露，可遵循下述步骤将软件断网

进入高级安全Windowsdefender防护墙

选择入站规则-新建规则

选择程序-下一步-选择路径

选择安装lmstudio的路径中名字叫LM Studio.exe文件

阻止连接

输入这条规则的名称，点击完成即可

再次新建禁止联网规则，分别添加另外两个文件

LM Studio所在目录\resources\elevate.exe

C:\Users\Administrator\.lmstudio\bin\lms.exe

在出站规则中也将以上三个文件设置禁止联网，步骤同上

二、构建私有知识库

1.下载安装AnyThingLLM

AnythingLLM | The all-in-one AI application for everyone

按步骤安装

安装成功后打开软件，跳过前面的引导页，都按默认选择

创建一个工作区

2.切换到LM Studio，打开本地服务

进入开发者页面

选择要加载的模型（见第一部分第4节）

开启本地服务

3.配置anythingllm

回到anythingllm软件，点击设置按钮

进入聊天设置，切换LLM供应商

找到LMstudio

要记得点击update进行保存

在代理配置中也选上LM Studio（注意要点击configure进行保存）

返回对话页，这样就建立了与LMstudio的本地连接

4.构建本地知识库

本地知识库：使用lmstudio上的本地模型创建的知识库

若不放心安全问题，在配置完成后，可参照一.5关闭anythingLLM联网

点击上传按钮

上传本地文件

将上传的文件移入工作区

5.构建在线知识库

在线知识库：通过API调用在线大模型，再创建知识库

新建工作区，进入设置，选择其他LLM提供商，以deep seek为例

输入APIkey（如何获取APIkey可参考第三部分第一节）

设置apikey成功后，再根据构建本地知识库的步骤上传文件即可

三、调用大模型API（以DeepSeek为例）

1.申请DeepSeekAPI

进入https://www.deepseek.com/，点击右上角“API开放平台”，开始注册登录

进入左侧“API keys”页面，点击“创建API key”，输入名称

创建后会自动生成key（它是一种用于身份验证的密钥，允许用户通过API访问特定的服务或数据。它就像一把钥匙，确保只有授权的用户才能使用服务，同时帮助控制访问频率和权限），请将这个key保存好，因为关闭后无法再次查看

2.聊天

2.1.安装Chatbox

Chatbox AI官网：办公学习的AI好助手，全平台AI客户端，官方免费下载

也可以用刚刚下载的AnythingLLM实现，但个人认为单纯用作聊天的话，Chatbox的体验更佳！

根据提示步骤安装chatbox

2.2.设置API

打开软件后，选择“使用自己的API Key”或本地模型

在选择AI模型提供方界面找到deep seekAPI

填入刚刚在deep seek创建的APIkey

然后选择模型，默认的是普通的chat聊天模型，想要带推理的选择reasoner（但是这个模型最近太火爆了，经常无响应）

然后就可以在聊天界面对话了

3.编程

3.1.下载continue插件

3.2.设置API

点击connect后还会出现一个小的输入框，再次输入APIkey即可。

全文完！

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla