一、准备工作

了解一下ollama是啥东西,LLMStudio是啥,因为接下来会用到

二、Ollama 和 LM Studio 简介

1.Ollama

Ollama 是一个开源框架,专门设计用于在本地运行大型语言模型(LLMs)。它的主要特点如下:

  • 简化部署:Ollama可以个人电脑上部署和运行LLM的过程。它轻量级、易于扩展的框架,能在本机上轻松构建和管理
  • 支持多平台:该框架支持macOS、Linux以及Windows(预览版)
  • 量化支持:为了降低显存需求,Ollama支持4-bit量化,使得普通家用计算机也能运行大型模型。

2.LM Studio

LM Studio 是一款桌面应用程序,专为那些希望拥有图形用户界面(GUI)而非命令行界面(CLI)的用户提供服务。其关键特性包括:

  • 一站式解决方案:LM Studio允许用户直接从Hugging Face等平台发现、下载并运行本地的LLMs,无需编程知识即可操作。
  • 用户友好的界面:相比Ollama,LM Studio更加注重用户体验,提供了直观的图形界面,即使是非技术人员也能方便地与AI模型进行交互。
  • 强大的功能集合:除了基本的模型运行外,LM Studio还支持同时运行多个AI模型,并利用“Playground”模式增强性能和输出。
  • 高级功能支持:如分布式训练、超参数调整及模型优化等功能,使得LM Studio适合于更复杂的应用场景和技术要求较高的用户群体。

3.两个对比区别

如果你是一位初学者或者非技术背景的用户,寻找一个简单易用、带有可视化界面的工具来运行语言模型,那么LM Studio可能更适合你。而如果你偏好灵活性更高、可通过命令行自定义配置的开源框架,Ollama将是一个不错的选择。

三、硬件要求

1.最低硬件配置

CPU方案

  • 处理器 (CPU): 四核八线程往上
  • 内存 (RAM): 最低8GB(对于7B模型),推荐32GB+(流畅运行),内存不贵
  • 存储: 至少256GB,推荐NVME固态存储,速度超快,读写1GB起步
  • 操作系统: Windows 10+/Linux/macOS

在纯CPU环境下运行DeepSeek是可行的,但会显著降低生成文本的速度,并且对内存的需求更高,因为模型权重需要完全加载到内存中。

GPU方案(推荐)

  • 图形处理单元 (GPU): NVIDIA GPU配备至少8GB显存;建议使用RTX 3090或更高性能的显卡来加速推理过程。
  • 处理器 (CPU): 支持AVX指令集的任意CPU
  • 内存 (RAM): 推荐16GB RAM(需共享显存时)
  • 存储: 至少256GB,推荐NVME固态存储,速度超快,读写1GB起步
  • 操作系统: Windows 10+/Linux/macOS

注意事项

  • 如果您的硬件条件有限,可以考虑使用更小的模型版本,比如1.5B或8B的蒸馏版本,这些可以在较低配置的硬件上运行。
  • 使用量化技术(如4-bit或8-bit量化)也可以减少内存占用,但这可能会牺牲一些模型性能。
  • 对于不具备足够硬件资源的情况,还可以考虑通过DeepSeek API进行远程调用,或者利用云服务提供商提供的计算资源。

确保按照实际需求和预算选择合适的硬件配置,以获得最佳的性能和用户体验。

2.本人电脑配置(使用的是笔记本系统Win11)

组件 本人配置 推荐配置 (生产环境)
CPU Intel i7-12700H(14核20线程) Intel i9-13900HX / AMD Ryzen 9 7945HX
内存 DDR5 32GB(4800MHz) DDR5 64GB(5600MHz)
存储 2TB NVMe SSD(PCIe 4.0) 4TB NVMe SSD RAID 0(7000MB/s+)
GPU NVIDIA GeForce GTX 4070(8GB GDDR6X) RTX 4080 16GB / RTX 4090 24GB

3.📊适配模型清单(实测数据)

模型类型 推荐版本 量化方案 性能表现 使用场景
Deepseek-7B v2.1-int4 4-bit量化 12 tokens/sec 本地代码生成/文档分析
Deepseek-Math-3B v1.9-fp16 半精度 18 tokens/sec 数学推理/公式处理
Deepseek-Coder-1.3B v2.0-fp16 8-bit量化 28 tokens/sec 实时代码补全
Deepseek-Vision Lite-4B 混合精度 9 FPS(512x512图像) 图文理解/OCR增强

四、软件环境搭建

1.Ollama安装包下载

官网 https://ollama.com/
百度网盘 https://pan.baidu.com/s/1rKAUm9fyfEOZtr2xvjzBow?pwd=3jvw
CSDNOllama安装包

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

ollama安装

在这里插入图片描述

直接安装就可以了,安装完成后电脑右下角有个猫的图标

在这里插入图片描述

打开电脑终端输入ollama命令查看是否安装成功

在这里插入图片描述

2.LLMStudio安装包下载

LLMStudio官网https://lmstudio.ai/
百度网盘https://pan.baidu.com/s/1_mK1qUQmdE-cnjdPUxA9eQ?pwd=whtn
CSDNLLMStudio安装包

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、DeepSeek模型下载与部署(看重点,可直接跳转到这)

1.ollama模型的Deepseek

1.直接打开ollama官网

在这里插入图片描述

2.点击进入对应的模型

在这里插入图片描述

3.选择对应模型的大小,我本地选的是8B的,32B也下载了

在这里插入图片描述

4.直接复制命令打开终端就可以进行下载了输入ollama run deepseek-r1:8b

在这里插入图片描述

5.可以直接对话

在这里插入图片描述

6.使用VSCode编辑器进行绑定使用DeepSeek模型(这里使用DeepSeek Code V2为例,离线代码提示大模型),首先进入插件库(ctrl+shift+x)搜索Continue进行下载

在这里插入图片描述

7.进行配置,点击Add ChatModel

在这里插入图片描述

8.选择ollama,和对应的模型版本

在这里插入图片描述
在这里插入图片描述

9.修改对应模型名字,得和ollama下载的模型名字一致才有用,这个config.json文件在第8步选完后会自动打开,或者点击右上角设置

在这里插入图片描述
在这里插入图片描述

10.修改模型名字,我这是deepseek-coder-v2(16B),https://ollama.com/library/deepseek-coder-v2

在这里插入图片描述
在这里插入图片描述

11.模型设置好了就可以进行对话了

在这里插入图片描述

12.对话创建一个贪吃蛇前端页面(这个是离线创建的,不需要网络)

在这里插入图片描述

13.跑代码所占CPU和显卡的资源

在这里插入图片描述

13.页面展示

在这里插入图片描述

提示(对话连接失败)

如果模型名字不对是访问不到的,进行对话会报右下角提示的错误

在这里插入图片描述

2.LLMStudio模型的Deepseek

1.LLMStudio支持的模型格式为GGUF,所以需要去https://huggingface.co下载对应的DeepSeep模型版本
https://huggingface.co/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF/tree/main

在这里插入图片描述
在这里插入图片描述

2.对应的版本介绍 文件名中包含了 Distill-Qwen(蒸馏版本,阉割版为了配置低的电脑也可以运行大模型)和不同的后缀,如 F16Q2Q3 等。这些后缀通常与模型的量化级别相关。具体解释如下:

文件名解析

  • DeepSeek-R1-Distill-Qwen-7B-F16.gguf:这表示使用 FP16(半精度浮点数)量化的模型。
  • DeepSeek-R1-Distill-Qwen-7B-Q2_K.gguf:这表示使用 Q2_K 量化的模型。
  • DeepSeek-R1-Distill-Qwen-7B-Q3_K_M.gguf:这表示使用 Q3_K_M 量化的模型。
  • DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf:这表示使用 Q4_K_M 量化的模型。
  • DeepSeek-R1-Distill-Qwen-7B-Q5_K_M.gguf:这表示使用 Q5_K_M 量化的模型。
  • DeepSeek-R1-Distill-Qwen-7B-Q6_K.gguf:这表示使用 Q6_K 量化的模型。
  • DeepSeek-R1-Distill-Qwen-7B-Q8_0.gguf:这表示使用 Q8_0 量化的模型。

量化级别解释

  • FP16 (F16):半精度浮点数,通常用于加速推理和训练,减少内存占用。
  • Q2_K:2位量化,K 表示特定的量化方式。
  • Q3_K_M:3位量化,M 表示混合量化。
  • Q4_K_M:4位量化,M 表示混合量化。
  • Q5_K_M:5位量化,M 表示混合量化。
  • Q6_K:6位量化。
  • Q8_0:8位量化,0 表示特定的量化方式。

gguf文件详细总结

这些文件名中的后缀表示了不同级别的量化处理,量化可以显著减少模型的大小和内存占用,同时在一定程度上保持模型的性能。具体的量化级别(如 Q2、Q3、Q4 等)决定了模型参数的比特数,从而影响模型的精度和运行速度。电脑配置低选Q2,Q3,Q4这种,配置好选最高的QN版本

3.打开LLMStudio编辑器,设置中文

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.设置模型位置文件

在这里插入图片描述

在models文件夹下必须设置二级文件夹如deepseek->deepseep-r1

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.加载模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.使用模型对话

在这里插入图片描述

创建对话,AI智商经典对话3.8和3.11谁大,6秒生成

在这里插入图片描述
在这里插入图片描述

右侧可以设置AI的角色和回答问题的强度,按照自己需求进行设置

总结

模型下载链接
通过网盘分享的文件:DeepSeek-R1-Distill-Llama-8B-Q2_K.gguf
链接: https://pan.baidu.com/s/1rJkaKY_d7IpDZzBIgKOlYQ?pwd=rseb
通过网盘分享的文件:DeepSeek-R1-Distill-Qwen-32B-Q4_1.gguf
链接: https://pan.baidu.com/s/1yleGkkDTnJxAnKJuzoVAQQ?pwd=2z8d

🔔 CSDN专栏:AI人工智能实战专栏
🔔 如果本文对您有帮助,请点击下方⭐️Star支持!
🔔 关注博主,获取更多AI实战教程!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐