Face mesh

是从原始图像中裁剪得到的人脸区域（ROI，Region of Interest）。裁剪的目的是降低计算成本或为后续处理提供专注区域。归一化比例因子是为了让坐标值适配不同大小的输入图像。归一化的主要目的是消除因图像尺寸不同带来的影响，使关键点坐标具有通用性。），但 Face Mesh 模块通过深度信息估计输出了三维坐标。虽然图像是二维的（像素坐标系只有。

苏西月

926人浏览 · 2025-01-08 19:06:55

苏西月 · 2025-01-08 19:06:55 发布

1. 为什么输出是 x, y, z 而不是只有 x, y？

虽然图像是二维的（像素坐标系只有 $x, y$ ），但 Face Mesh 模块通过深度信息估计输出了三维坐标 $x, y, z$ 。以下是具体原因：

1.1 图像是二维的，但人脸是三维的

即使图像本身是二维的，人脸是一个三维物体。MediaPipe 使用机器学习模型从二维图像中推测出三维的深度信息。
Z 轴：代表每个关键点相对于人脸中心的深度值，单位通常是相对值，用来估计人脸在三维空间中的形状。

1.2 MediaPipe 的 3D 推测原理

模型基于训练数据，从多个角度学习了三维人脸的结构。
关键点 x, y, z 含义：
- $x$ : 水平方向坐标，归一化为 [0, 1]。
- $y$ : 垂直方向坐标，归一化为 [0, 1]。
- $z$ : 深度值，相对归一化坐标，用于表示点距离摄像头或基准平面的远近关系。

2. 归一化比例因子是什么？

2.1 归一化的含义

归一化比例因子是为了让坐标值适配不同大小的输入图像。归一化的主要目的是消除因图像尺寸不同带来的影响，使关键点坐标具有通用性。

归一化公式：
$x_{\text{normalized}} = \frac{x}{\text{image width}}, \quad y_{\text{normalized}} = \frac{y}{\text{image height}}$
其中：
- $x, y$ 是像素坐标。
- $width\text{image width}$ 和 $height\text{image height}$ 是输入图像的宽度和高度。
归一化的优点：
- 无论图像大小如何，关键点的坐标值都在 [0, 1] 范围内。
- 便于在模型中使用或与其他图像对齐。

2.2 Z 坐标的归一化

$z$ 的归一化是相对深度值，通常以人脸框的宽度为基准单位。例如：
$z_{\text{normalized}} = \frac{z}{\text{face width}}$
归一化后的 $z$ 是无单位值，可以反映人脸中某些关键点在深度上的相对关系，例如鼻尖相对于面部其他部分是否更靠近摄像头。

3. 小图 sub_face_mini 为什么需要？

小图 sub_face_mini 是从原始图像中裁剪得到的人脸区域（ROI，Region of Interest）。裁剪的目的是降低计算成本或为后续处理提供专注区域。

3.1 小图的作用

局部增强精度：
- 后续操作（如表情识别、属性分析）可能需要对脸部局部细节进行处理。通过裁剪小图，可以集中分析人脸特定区域的特征。
降低计算复杂度：
- 使用完整图像可能会浪费计算资源，而裁剪的小图减少了无关背景，降低计算成本。
便于进一步操作：
- 小图可以用于表情识别、年龄估计、化妆检测等任务。
- 特定应用可能只需要眼睛、嘴巴等局部区域，裁剪后的小图为后续裁剪提供了基础。

3.2 小图裁剪的逻辑

通过检测到的关键点（如眼睛、嘴巴、下巴等的坐标）裁剪出一个包含整个人脸的矩形区域。
裁剪过程：
- 找到关键点的边界框。
- 根据边界框裁剪图像：
  $\text{ROI} = \text{image}[y_{\text{min}}:y_{\text{max}}, x_{\text{min}}:x_{\text{max}}]$

示例代码

import cv2
import mediapipe as mp

# 初始化 Face Mesh 模块
mp_face_mesh = mp.solutions.face_mesh.FaceMesh()

# 加载图像
image = cv2.imread("face.jpg")
rgb_image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# 检测人脸关键点
results = mp_face_mesh.process(rgb_image)

# 提取人脸区域小图
if results.multi_face_landmarks:
    for face_landmarks in results.multi_face_landmarks:
        h, w, _ = image.shape
        # 根据关键点找到边界框
        x_min = int(min([lm.x for lm in face_landmarks.landmark]) * w)
        y_min = int(min([lm.y for lm in face_landmarks.landmark]) * h)
        x_max = int(max([lm.x for lm in face_landmarks.landmark]) * w)
        y_max = int(max([lm.y for lm in face_landmarks.landmark]) * h)
        
        # 裁剪人脸小图
        sub_face_mini = image[y_min:y_max, x_min:x_max]
        cv2.imshow("Cropped Face", sub_face_mini)

cv2.waitKey(0)
cv2.destroyAllWindows()

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大