最全的Ollama使用详解

ollama支持导入Safetensors与GGUF两种格式的本地模型导入，还支持对模型进行量化与自定义提示词。本地开发与测试：开发者可在个人电脑上离线运行、调试和微调开源大模型（如LLaMA系列、Mistral等），无需依赖云端API，提升效率并保护隐私。私有化部署：适用于对数据安全要求高的场景（如金融、医疗、企业内部），将模型完全部署在本地服务器或私有云，确保敏感数据不出本地。定制化模型应

老程序员的最大爱好

1867人浏览 · 2025-07-16 15:33:24

老程序员的最大爱好 · 2025-07-16 15:33:24 发布

最全的Ollama使用详解

1、概述

Ollama 是一个开源的框架，旨在简化大型语言模型的部署和管理。它提供了一个轻量级的 HTTP 服务，允许用户通过 API 接口与模型进行交互。然而，由于其默认配置可能不够安全，尤其是在网络暴露和访问控制方面，Ollama 服务可能成为潜在的攻击目标。

本文就 ollama 安装、使用、API 等方面进行详细的阐述，希望对你有所帮助！

注意： Ollama 默认开放 11434 端口，且无任何鉴权机制。如果不加以防护，Ollama 私有化部署的方式存在数据泄露、算力盗取、服务中断等安全风险，极易引发网络和数据安全事件。

2、安装与启动

2.1 Windows

下载地址：https://ollama.com/download/OllamaSetup.exe
下载之后双击直接进行安装

2.2 Mac OS

下载地址： https://ollama.com/download/Ollama-darwin.zip
下载完成之后解压进行安装即可

2.3 Linux

使用下面命令进行安装：

curl -fsSL https://ollama.com/install.sh | sh

如果没有curl,请使用对应操作系统的安装命令（如yum）安装之后再执行上面的命令

2.4 Docker方式

2.4.1、仅仅使用CPU

执行命令：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

2.4.2、使用Nvidia GPU

1、安装Nvidia Toolkit

参照：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation 进行安装

• （1）、使用APT安装
（1.1）、配置仓库：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
    | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
    | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
    | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update

(1.2)、安装

sudo apt-get install -y nvidia-container-toolkit

• （2)、使用yum或dnf安装
（2.1）、配置仓库

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
    | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

（2.2）、安装

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
    | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

2、让Docker使用Nvidia GPU

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
    | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

3、启动容器

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

3、使用AMD GPU

3.1 启动

为了使用AMD GPU，只需要在启动容器时使用rocm:tag即可

docker run -d \
  --device /dev/kfd \
  --device /dev/dri \
  -v ollama:/root/.ollama \
  -p 11434:11434\
  --name ollama \
  ollama/ollama:rocm

2.5 启动

使用下面命令即可自动下载gemma3模型并运行。

ollama run gemma3

3、支持的模型

ollama支持的模型可以在官网上查看：（https://ollama.com/search）

3、自定义Ollama

ollama支持导入Safetensors与GGUF两种格式的本地模型导入，还支持对模型进行量化与自定义提示词。

3.1 从GGUF导入模型

• GGUF (GPT-Generated Unified Format)：
一种主要用于在 CPU 或混合设备（CPU+GPU）上高效运行量化的大型语言模型的文件格式,它是 llama.cpp 及其生态（如 Ollama）的原生格式,其核心优势在于对模型量化的出色支持和将模型信息打包成单一文件。
-1、创建Modelfile文件，并使用FROM指令指明你需要导入的本地模型路径

FROM ./vicuna-33b.Q4_0.gguf

• 2、使用Ollama命令建立模型

ollama create example -f Modelfile

• 3、运行模型模型

ollama run example

3.2 从Safetensors导入

• Safetensors:
一种专注于安全性和加载速度的文件格式，用于存储深度学习模型的权重（张量数据），由 Hugging Face 团队开发，旨在解决传统格式（如 PyTorch 的 .bin）使用 pickle 带来的安全风险（反序列化时可执行任意代码），其主要特点是安全反序列化和利用零拷贝实现的极快加载速度，与 Hugging Face 生态（transformers 库、Hub）深度集成。
导入Safetensors时，有多种方式

3.2.1、从 Safetensors 权重导入经过微调的适配器

首先，创建一个Modelfile指向FROM用于微调的基础模型的命令，以及一个ADAPTER指向 Safetensors 适配器目录的命令：

FROM <base model name>
ADAPTER /path/to/safetensors/adapter/directory

请确保在FROM命令中使用与创建适配器时相同的基础模型，否则您将得到不稳定的结果。大多数框架使用不同的量化方法，因此最好使用非量化（即非 QLoRA）适配器。如果您的适配器与您的位于同一目录中Modelfile，请使用ADAPTER .指定适配器路径。

ollama create现在从创建的目录运行Modelfile：

ollama create my-model

最后，测试模型：

ollama run my-model

Ollama 支持基于几种不同的模型架构导入适配器，包括：

• Llama (including Llama 2, Llama 3, Llama 3.1, and Llama 3.2);
• Mistral (including Mistral 1, Mistral 2, and Mixtral); and
• Gemma (including Gemma 1 and Gemma 2)

3.2.2、从 Safetensors 权重导入模型

首先，Modelfile使用指向FROM包含 Safetensors 权重的目录的命令创建一个：

FROM /path/to/safetensors/directory

如果您在与权重相同的目录中创建 Modelfile，则可以使用该命令FROM .。

ollama create现在从您创建的目录运行命令Modelfile：

ollama create my-model

最后，测试模型：

ollama run my-model

Ollama 支持导入几种不同架构的模型，包括：

• Llama (including Llama 2, Llama 3, Llama 3.1, and Llama 3.2);
• Mistral (including Mistral 1, Mistral 2, and Mixtral);
• Gemma (including Gemma 1 and Gemma 2); and
• Phi3

3.3、量化模型

量化模型可以让你以更快的速度运行模型，减少内存消耗，但准确率会降低。这使得你可以在更普通的硬件上运行模型。

Ollama 可以使用命令-q/–quantize中的标志将基于 FP16 和 FP32 的模型量化为不同的量化级别ollama create。

首先，创建一个包含您想要量化的基于 FP16 或 FP32 的模型的 Modelfile。

FROM /path/to/my/gemma/f16/model

然后使用ollama create来创建量化模型。

$ ollama create --quantize q4_K_M mymodel
transferring model data
quantizing F16 model to Q4_K_M
creating new layer sha256:735e246cc1abfd06e9cdcf95504d6789a6cd1ad7577108a70d9902fef503c1bd
creating new layer sha256:0853f0ad24e5865173bbf9ffcc7b0f5d56b66fd690ab1009867e45e7d2c4db0f
writing manifest
success

• 支持的量化：q8_0
• K均值量化：q4_K_S、q4_K_M

4、自定义提示词

Ollama支持对模型进行自定义提示词，以便更好的适应项目的需求，如自定义模型llama3.2：

4.1 下载模型

ollama pull llama3.2

4.2 建立Modelfile

FROM llama3.2

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 1

# set the system message
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""

4.3 创建并支持模型

ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.

关于Modelfile中的指令，详情请参见：https://github.com/ollama/ollama/blob/main/docs/modelfile.md

4、常用命令

4.1 常用命令

命令	示例	含义
ollama create	ollama create mymodel -f ./Modelfile	创建模型
ollama pull	ollama pull llama3.2	下载模型
ollama rm	ollama rm llama3.2	删除模型
ollama cp	ollama cp llama3.2 my-model	复制模型
ollama show	ollama show llama3.2	显示一个模型的信息
ollama list	ollama list	列出已下载的模型
ollama ps	ollama ps	列出当前在运行的模型
ollama run	ollama run llama3.2	加载（运行）一个模型
ollama stop	ollama stop llama3.2	卸载（停止运行）一个模型

4.2 使用技巧

4.2.1 多行输入

使用三个引号"""可以支持模型时使用多行输入，如：

>>> """Hello,
... world!
... """
I'm a basic program that prints the famous "Hello, world!" message to the console.

4.2.2 多模态使用方法

ollama run llava "What's in this image? /Users/jmorgan/Desktop/smile.png"

4.2.3 通过参数传递提示词：

ollama run llama3.2 "Summarize this file: $(cat README.md)"

输出内容：

Output: Ollama is a lightweight, extensible framework for building and running language models on the local machine. It provides a simple API for creating, running, and managing models, as well as a library of pre-built models that can be easily used in a variety of applications.

4、Restful API

ollama支持api，用于运行与管理模型。详细的API参考手册见：https://github.com/ollama/ollama/blob/main/docs/api.md

4.1 获取响应

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt":"Why is the sky blue?"
}'

4.2 与模型对话

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

4、Ollama配置参数表

OLLAMA_MODELS：模型文件存放目录，默认目录为当前用户目录
OLLAMA_HOST：Ollama 服务监听的网络地址，默认为127.0.0.1，如果允许其他电脑访问 Ollama（如：局域网中的其他电脑），建议设置成0.0.0.0，从而允许其他网络访问
OLLAMA_PORT：Ollama 服务监听的默认端口，默认为11434，如果端口有冲突，可以修改设置成其他端口（如：8080等）
OLLAMA_ORIGINS：HTTP 客户端请求来源，半角逗号分隔列表，若本地使用无严格要求，可以设置成星号，代表不受限制
OLLAMA_KEEP_ALIVE：大模型加载到内存中后的存活时间，默认为5m即 5 分钟（如：纯数字如 300 代表 300 秒，0 代表处理请求响应后立即卸载模型，任何负数则表示一直存活）；我们可设置成24h，即模型在内存中保持 24 小时，提高访问速度
OLLAMA_NUM_PARALLEL：请求处理并发数量，默认为1，即单并发串行处理请求，可根据实际情况进行调整
OLLAMA_MAX_QUEUE：请求队列长度，默认值为512，可以根据情况设置，超过队列长度请求被抛弃
OLLAMA_DEBUG：输出 Debug 日志标识，应用研发阶段可以设置成1，即输出详细日志信息，便于排查问题
OLLAMA_MAX_LOADED_MODELS：最多同时加载到内存中模型的数量，默认为1，即只能有 1 个模型在内存中

5、总结

5.1 ollama应用场景

本地开发与测试：开发者可在个人电脑上离线运行、调试和微调开源大模型（如LLaMA系列、Mistral等），无需依赖云端API，提升效率并保护隐私。

私有化部署：适用于对数据安全要求高的场景（如金融、医疗、企业内部），将模型完全部署在本地服务器或私有云，确保敏感数据不出本地。

定制化模型应用：结合自定义提示模板和参数调整，打造特定领域（客服、写作辅助、代码生成）的专属AI工具。

研究与学习：方便研究人员和学生低成本探索大模型原理、行为及微调技术。

资源受限环境探索：在特定硬件（如配备GPU的工作站）上体验大模型能力。

5.2 注意事项

硬件要求：需较强计算资源（尤其是显存），模型越大要求越高，需根据硬件选择合适的模型。

模型选择与管理：需自行寻找、下载和管理模型文件（Modelfile），依赖社区生态，中文等非英语模型支持可能有限。

性能限制：本地运行性能通常低于大型云服务，响应速度及并发能力受硬件制约。

安全与合规：使用开源模型需遵守其特定许可协议；本地部署虽提升数据安全，但仍需自行负责模型内容安全及合规风险。

运维成本：私有化部署需承担模型更新、维护及服务器运维成本。

零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

有需要的小伙伴，可以点击下方链接免费领取【保证100%免费】

点击领取《AI大模型&人工智能&入门进阶学习资源包》

1.学习路线图

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

在这里插入图片描述

（都打包成一块的了，不能一一展开，总共300多集）

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档，有几百本，都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

5.免费获取

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】

点击领取《AI大模型&人工智能&入门进阶学习资源包》

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大