【操作系统-Day 39】内存管理的噩梦：什么是“抖动”(Thrashing)？从现象到根源的深度解析

在操作系统的内存管理篇章中，我们学习了虚拟内存技术，它通过请求调页和页面置换，巧妙地为我们营造出“无限”内存的假象，极大地提升了多道程序设计的灵活性和效率。然而，凡事皆有两面性。当系统资源分配不当，这个强大的机制也可能将系统拖入性能的“泥潭”，引发一场名为“抖动”（Thrashing）的危机。本文将深入探讨抖动现象，从其生动的表现形式切入，层层剖析其产生的根本原因，并最终介绍现代操作系统用以预防和

大模型铲屎官

1451人浏览 · 2025-10-04 09:00:00

大模型铲屎官 · 2025-10-04 09:00:00 发布

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
 02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
 03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
 04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
 05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘
 08-【万字长文】MCP深度解析：打通AI与世界的“USB-C”，模型上下文协议原理、实践与未来

Python系列文章目录

PyTorch系列文章目录

机器学习系列文章目录

深度学习系列文章目录

Java系列文章目录

JavaScript系列文章目录

Python系列文章目录

Go语言系列文章目录

Docker系列文章目录

操作系统系列文章目录

文章目录

Langchain系列文章目录
Python系列文章目录
PyTorch系列文章目录
机器学习系列文章目录
深度学习系列文章目录
Java系列文章目录
JavaScript系列文章目录
Python系列文章目录
Go语言系列文章目录
Docker系列文章目录
操作系统系列文章目录
摘要
一、梦魇的开端：当虚拟内存不再“高效”
二、深入剖析：抖动现象的产生根源
三、对症下药：如何预防与处理抖动
四、总结

摘要

一、梦魇的开端：当虚拟内存不再“高效”

虚拟内存的引入，本意是让进程在物理内存不足时也能顺利运行。但当系统的“慷慨”超出了物理极限，一场性能风暴便在所难免。

1.1 回顾虚拟内存的初衷

在我们之前的学习中（Day 36：虚拟内存），我们知道虚拟内存的核心在于请求调页（Demand Paging）。即进程运行时，并非所有页面都需加载到内存，只有在访问到某个不在内存的页面时，才会触发缺页中断（Page Fault），由操作系统将其从磁盘调入内存。

适度的缺页中断是虚拟内存系统正常工作的标志，它实现了内存的有效利用。但如果缺页中断变得异常频繁，情况就完全不同了。

1.2 一个“勤奋过头”的系统

让我们用一个生动的比喻来理解抖动：

想象一位厨师（CPU）在一个极小的厨房（物理内存 RAM）里工作，而所有的食材都存放在一个巨大的仓库（硬盘）里。开始时，他只需要几样常用食材，可以轻松摆在手边，高效地烹饪（执行指令）。

后来，订单变得复杂，需要同时制作多道菜（运行多个进程），厨房空间立刻捉襟见肘。为了拿到新食材，厨师必须把手头暂时不用的食材放回仓库，再取回新的。如果每做一步都需要去仓库换一种食材，那么这位“勤奋”的厨师绝大部分时间都将耗费在往返于厨房和仓库的路上（页面换入换出），而不是在真正地切菜、炒菜（执行用户代码）。

此时，厨房的产出效率（系统吞吐量）急剧下降，CPU 看起来很忙（不断处理中断），但实际上几乎没在做任何有用的工作。这种系统花费大量时间在页面置换上，导致有效计算时间急剧下降的现象，就是“抖动”或“颠簸”(Thrashing)。

1.3 “抖动”的科学定义

抖动 (Thrashing)：指在分页式虚拟内存系统中，由于分配给进程的物理页框数量过少，无法容纳其当前所需的所有活动页面，导致进程在运行过程中频繁地发生缺页中断，需要不断地将页面在内存与磁盘之间进行交换。这种交换活动（Paging I/O）占据了绝大部分 CPU 时间，使得系统真正用于执行用户指令的时间变得极少，从而导致系统整体性能（尤其是吞吐量）急剧下降的一种状态。

二、深入剖析：抖动现象的产生根源

理解了抖动的现象，我们必须深究其背后的原因，才能找到根治之法。

2.1 问题的核心：内存分配不足

抖动的直接原因是分配给进程的物理页框不足。每个进程在运行的某个阶段，都会集中访问一组特定的页面，这组页面被称为程序的局部性（Locality）。如果分配给进程的物理内存连这组“热点”页面都无法完整容纳，那么它就会不断地换入一个页面，又很快因为需要另一个页面而将刚刚换入的页面换出。

例如，一个循环体跨越了两个页面，而系统只给该进程分配了一个页框。那么每次循环迭代，都会在这两个页面之间产生两次缺页中断，程序几乎无法前进。

2.2 缺页率与多道程序度的关系

如上图1所示，抖动与系统的多道程序度（Degree of Multiprogramming），即同时在内存中运行的进程数量，密切相关。

上升区：当多道程序度较低时，增加进程数量，可以有效利用空闲的 CPU 时间（例如，一个进程I/O阻塞时，另一个可以运行），CPU 利用率随之上升。
平台/拐点区：当物理内存逐渐饱和，CPU 利用率达到峰值。此时系统资源得到了较好的平衡。
抖动区（悬崖区）：若此时继续增加多道程序度，多个进程将激烈争抢本已稀缺的物理页框。这导致所有进程的缺页率都急剧上升。大部分进程都因为等待页面换入而处于阻塞状态，就绪队列中几乎没有进程。CPU 无事可做，利用率反而雪崩式下跌。

2.3 错误的“直觉”：一个恶性循环

更糟糕的是，操作系统自身的一个“直觉”反应可能会加剧抖动，形成恶性循环：

症状：操作系统监控到 CPU 利用率非常低。
错误诊断：长程或中程调度器可能会认为：“CPU 太空闲了，是时候从外存调入新的进程来提高多道程序度，从而提升 CPU 利用率了。”
错误治疗：调度器引入了新的进程。
病情加重：新进程的到来进一步加剧了对物理内存的争抢，使得老进程的缺页率更高，新进程也立即陷入频繁缺页的困境。最终，系统的整体缺页率进一步飙升，CPU 利用率不升反降，抖动更加严重。

这个循环会持续下去，直到系统完全“瘫痪”，几乎无法响应。

三、对症下药：如何预防与处理抖动

既然抖动的根源在于进程没有获得足够的内存来支撑其“局部性”，那么解决方案的核心思想就是：为进程提供合理的内存，并进行有效的负载控制。

3.1 核心策略：局部页面置换与负载控制

要防止抖动，操作系统必须采取两方面的措施：

采用局部页面置换算法：当一个进程发生缺页时，置换操作仅限于从该进程自身分配到的页框中选择一个进行换出，而不是从系统中所有可用的页框中“窃取”（全局置换）。这可以防止一个行为不佳的进程污染整个系统的内存环境。
进行负载控制（Load Control）：动态调节系统的多道程序度，确保所有活动进程的需求总和不超过可用的物理内存。

为了实现有效的负载控制，操作系统需要一种方法来估算每个进程到底需要多少内存。工作集模型就是为此而生的经典理论。

3.2 工作集模型 (Working Set Model)

工作集模型由 Peter J. Denning 提出，它基于程序的局部性原理，旨在估算进程在当前阶段实际需要的内存大小。

3.2.1 什么是工作集？

工作集 (Working Set) 是指一个进程在最近的一段执行时间窗口 Δ 内所访问过的页面的集合。

工作集窗口 Δ：一个时间参数，表示我们回顾过去多长的时间。
在时刻 t 的工作集 W(t, Δ)：在时间区间 (t - Δ, t) 内，进程所引用的所有不同页面的集合。
工作集大小 |W(t, Δ)|：工作集中包含的页面数量。

工作集的大小会随着进程的执行而动态变化。当进程进入一个新的代码段或开始处理新的数据时，它会进入一个新的局部性阶段，工作集会迅速扩张；当它稳定在某个局部性内时，工作集大小趋于稳定。

3.2.2 工作集模型的应用

操作系统可以利用工作集模型来指导内存分配和负载控制：

监控工作集：系统为每个进程维护其工作集和工作集大小 |W(t, Δ)|。
分配决策：
- 在进程运行时，系统必须保证其整个工作集 W(t, Δ) 都在物理内存中。这意味着需要分配给该进程 |W(t, Δ)| 个页框。
- 准入控制：当一个新进程准备启动或一个被挂起的进程准备恢复时，系统会检查当前空闲的物理页框数量 F。只有当 F >= |W(t, Δ)| 时，才允许该进程进入活动状态（就绪队列）。
- 负载调节：如果所有活动进程的工作集大小之和 Σ|W_i(t, Δ)| 超过了系统总的可用物理页框数 M，说明内存过载。此时，系统必须选择一个或多个进程进行挂起（suspend），将其页面全部换出到磁盘，以释放足够的页框给其他进程，从而消除抖动。

3.3 缺页率监控法 (Page-Fault Frequency, PFF)

工作集模型在理论上很完美，但精确跟踪每个进程在窗口 Δ 内访问的所有页面开销较大。因此，实践中常常采用一种更直接、开销更小的近似方法——缺页率监控法。

3.3.1 基本原理

PFF 方法不直接计算工作集，而是通过监控每个进程的缺页率来反推其是否获得了足够的内存。

高缺页率：暗示进程分配到的页框太少，不足以容纳其工作集。
低缺页率：暗示进程可能分配了过多的页框，有些页框可以被回收。

3.3.2 设定阈值与动态调整

系统会预先设定两个缺页率阈值：PFF_High（上限）和 PFF_Low（下限）。

PFF > PFF_High：如果一个进程的缺页率超过了上限，说明它正处于缺页的“痛苦”中。操作系统会为其增加一个物理页框。如果此时没有空闲页框，系统就需要挂起某个进程（通常是低优先级的）来腾出空间。
PFF < PFF_Low：如果一个进程的缺页率低于下限，说明它在很长一段时间内都没有发生缺页，可能持有了不再需要的页面。操作系统会回收该进程中一个最近最少使用的页框，并将其加入空闲页框链表。
PFF_Low ≤ PFF ≤ PFF_High：进程的缺页率处于一个“健康”的区间，系统认为其内存分配是合理的，不进行调整。

通过这种反馈控制机制，PFF 方法能够动态地为每个进程调整其内存分配，使其缺页率保持在合理范围内，从而有效地预防了抖动的发生。

四、总结

抖动是虚拟内存系统中一个必须正视和解决的严重问题。通过本文的学习，我们应掌握以下核心要点：

抖动的本质：抖动是系统因物理内存严重不足，导致页面换入换出活动（Paging I/O）过于频繁，从而使系统性能急剧下降的状态。其根本原因是分配给进程的页框数远少于其维持程序局部性所需的数量。
抖动的诱因：过高的多道程序度是引发抖动的主要外部条件。当活动进程的总内存需求超过物理内存容量时，竞争加剧，缺页率飙升。操作系统的调度器若错误地将低 CPU 利用率解读为需要增加进程，会形成恶性循环，加剧抖动。
预防抖动的核心思想：关键在于负载控制和合理的内存分配。必须确保每个运行的进程都获得足够的页框来容纳其当前的工作集，同时限制系统的多道程序度，使其与物理内存容量相匹配。
两大实用策略：
- 工作集模型 (Working Set Model)：一种理论模型，通过定义和监控进程在最近时间窗口 Δ 内访问的页面集合（即工作集），来指导内存分配和进程准入/挂起决策，从根本上保证进程的局部性需求。
- 缺页率监控法 (Page-Fault Frequency, PFF)：一种更实用的近似方法，通过监控每个进程的缺页率，并与预设的上下限阈值比较，动态地增加或减少分配给进程的页框数，形成一个有效的反馈控制系统来防止抖动。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla