基于OpenCV的图像识别与追踪

num = 1 #计数器num2 = 0num3 = 0num,num2,num3分别为视频中三个模型的计数器flag1-flag6为三个模型的互斥锁。

Hello world.Joey

1106人浏览 · 2025-01-21 11:24:11

Hello world.Joey · 2025-01-21 11:24:11 发布

Task1

import cv2
import numpy as np
# 读取模板
template1 = cv2.imread("Task1-template/template1.jpg")
template2 = cv2.imread("Task1-template/template2.jpg")
template3 = cv2.imread("Task1-template/template3.jpg")
template4 = cv2.imread("Task1-template/template4.jpg")
template5 = cv2.imread("Task1-template/template5.jpg")
template6 = cv2.imread("Task1-template/template6.jpg")
template7 = cv2.imread("Task1-template/template7.jpg")
template8 = cv2.imread("Task1-template/template8.jpg")
template9 = cv2.imread("Task1-template/template9.jpg")
template10 = cv2.imread("Task1-template/template10.jpg")

# 建立一个列表保存模板（后面会调用）
template = [template1, template2, template3, template4, template5, template6,
            template7,template8,template9,template10]

# 打开视频文件
cap = cv2.VideoCapture("Task1-Tracking.mp4")

while True:
    # 读取视频帧
    ret, frame = cap.read()

    if not ret: #如果没有获取去到帧就结束while
        break  # 视频结束

    # resize每一帧（调整每一帧的格式大小）
    (h, w) = frame.shape[:2]
    width = 300
    r = width / float(w)
    dim = (width, int(h * r))
    dim2 = (50, int((h * r)/10))
    frame = cv2.resize(frame, dim, interpolation=cv2.INTER_AREA)

    #  使用模板匹配
    for i in template: #从template列表中循环调用模板（把每个模板从template列表取出，后面进行匹配）

        # resize模板（调整每一个模板的格式大小，调整格式大小是为了能够有更高的匹配度）
        i = cv2.resize(i, dim2, interpolation=cv2.INTER_AREA)

        result = cv2.matchTemplate(frame, i, cv2.TM_CCOEFF_NORMED)
        # 获取匹配结果的最小值、最大值，以及它们的位置
        min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)

        # 判断是否匹配成功
        threshold=0.58 #匹配度
        
        if max_val >= threshold:
            
		    # 在原始图像上标记匹配区域
            h, w = i.shape[:2]
            top_left = max_loc
            bottom_right = (top_left[0] + w, top_left[1] + h)
            cv2.rectangle(frame, top_left, bottom_right, (0, 255, 0), 2)

        # 显示结果
        cv2.imshow('Matching Result', frame)
        cv2.waitKey(1)


# 按 'q' 键退出循环
# if cv2.waitKey(30) & 0xFF == ord('q'):
#     break


# 释放视频流和关闭窗口
cap.release()
cv2.destroyAllWindows()

代码详解

1.读取模板模块：

# 读取模板
template1 = cv2.imread("Task1-template/template1.jpg")
template2 = cv2.imread("Task1-template/template2.jpg")
template3 = cv2.imread("Task1-template/template3.jpg")
template4 = cv2.imread("Task1-template/template4.jpg")
template5 = cv2.imread("Task1-template/template5.jpg")
template6 = cv2.imread("Task1-template/template6.jpg")
template7 = cv2.imread("Task1-template/template7.jpg")
template8 = cv2.imread("Task1-template/template8.jpg")
template9 = cv2.imread("Task1-template/template9.jpg")
template10 = cv2.imread("Task1-template/template10.jpg")

通过cv2.imread()直接读入每个模板

2.模板列表：

# 建立一个列表保存模板（后面会调用）
template = [template1, template2, template3, template4, template5, template6,template7,template8,template9,template10]

建立一个列表来保存模板，后面可以通过for语句来调用列表里面的每一个模板

i in template: #从template列表中循环调用模板（把每个模板从template列表取出，后面进行匹配）

3.视频文件读取模块：

# 打开视频文件
cap = cv2.VideoCapture("Task1-Tracking.mp4")

while True:
    # 读取视频帧
    ret, frame = cap.read()

    if not ret: #如果没有获取到帧就结束while
        break  # 视频结束

cv2.VideoCapature()来打开视频文件

ret,frame = cap.read() 来读取视频帧

read()有两个参数：

1.ret:一个布尔值，表示是否成功读取了帧。如果成功读取，则为 True；否则为 False

2.frame: 一个表示当前视频帧的图像矩阵（NumPy数组）

4.调整每一帧：

# resize每一帧（调整每一帧的格式大小）
    (h, w) = frame.shape[:2]
    width = 300
    r = width / float(w)
    dim = (width, int(h * r))
    dim2 = (50, int((h * r)/10))
    frame = cv2.resize(frame, dim, interpolation=cv2.INTER_AREA)

调整每一帧的格式大小主要调节dim中的参数

# resize模板（调整每一个模板的格式大小，调整格式大小是为了能够有更高的匹配度）
        i = cv2.resize(i, dim2, interpolation=cv2.INTER_AREA)

调整每一个模板的格式大小，调整格式大小是为了能够有更高的匹配度（threshold）,dim2在上面就已经给出了，写在此处也行。

5.模板匹配模块：

result = cv2.matchTemplate(frame, i, cv2.TM_CCOEFF_NORMED)
        # 获取匹配结果的最小值、最大值，以及它们的位置
        min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)

cv2.matchTemplate()函数是用来匹配模板的函数

frame是帧，模板要在上面进行匹配

i是从template列表中取出的一个模板，用于模板匹配

cv2.TM_CCOEFF_NORMED是一种模板匹配的算法

cv2.minMaxLoc() 是 OpenCV 中用于在图像中找到最小值、最大值及其对应位置的函数

min_val, max_val, min_loc, max_loc:

minVal: 输入图像中的最小值。
maxVal: 输入图像中的最大值。
minLoc: 最小值的坐标位置，以 (x, y) 的形式表示。
maxLoc: 最大值的坐标位置，以 (x, y) 的形式表示。

6.标记追踪框：

 # 判断是否匹配成功
        threshold=0.58 #匹配度
        
        if max_val >= threshold:
            
		    # 在原始图像上标记匹配区域
            h, w = i.shape[:2]
            top_left = max_loc
            bottom_right = (top_left[0] + w, top_left[1] + h)
            cv2.rectangle(frame, top_left, bottom_right, (0, 255, 0), 2)

大于threshold(匹配度)就代表匹配成功

h, w = i.shape[:2]

top_left = max_loc

bottom_right = (top_left[0] + w, top_left[1] + h)

cv2.rectangle(frame, top_left, bottom_right, (0, 255, 0), 2)

此代码块负责在原图上标记出匹配的区域

7.显示结果：

# 显示结果
        cv2.imshow('Matching Result', frame)
        cv2.waitKey(1)

cv2.imshow(winname, mat)是OpenCV 中用于显示图像的函数

winname: 窗口的名称

mat: 要显示的图像矩阵（NumPy 数组）

cv2.waitKey(delay)是 OpenCV 中用于在图像窗口上等待用户按键的函数

delay: 等待时间（以毫秒为单位）

8.释放视频流和窗口：

# 释放视频流和关闭窗口
cap.release()
cv2.destroyAllWindows()

效果展示

Task2

主要功能：

实现对零件的目标追踪，并在零件周围产生追踪框，对零件的来回移动次数进行统计

设计难点：

通过对两端的零件模板匹配来确定是否到达两端，如果两端都到达记为一次。计数功能需要互斥算法来实现并且模板需要调整相应规格才能更好的进行模板匹配。为了能够更好的调整模板的规格特别编写了一个Python文件"test.py"。

模板展示：

1.追踪模板：

2.统计模板：

完整代码

import cv2
import numpy as np

# 读取计数模板
template1 = cv2.imread('Task2-template/template1.jpg')
template2 = cv2.imread('Task2-template/template2.jpg')
template3 = cv2.imread('Task2-template/template3.jpg')
template4 = cv2.imread('Task2-template/template4.jpg')
template5 = cv2.imread('Task2-template/template5.jpg')
# 读取追踪模板
template6 = cv2.imread("Task2-template/template6.jpg")
template7 = cv2.imread("Task2-template/template7.jpg")
template8 = cv2.imread("Task2-template/template8.jpg")
template = [template6, template7, template8]

# 打开视频文件
cap = cv2.VideoCapture("Task2-Count.mp4")

num = 1 #计数器
num2 = 0
num3 = 0
flag1 = False
flag2 = False
flag3 = False
flag4 = False
flag5 = False
flag6 = False

while True:
    # 取当前帧
    ret, frame = cap.read()
    if not ret:
        break  # 视频结束


    # cv2.imshow("template",template6)  # 查看模板
    # resize每一帧
    (h, w) = frame.shape[:2]
    width = 600
    r = width / float(w)
    dim = (width, int(h * r))
    dim2 = (100, int(h*r))
    dim3 = (140, int(h*r))
    dim4 = (76, int((h * r) / 1.6))
    dim5 = (110, int((h * r) / 2))
    dim6 = (115, int((h * r) / 1.1))
    Dim=[dim4, dim5, dim6]
    frame = cv2.resize(frame, dim, interpolation=cv2.INTER_AREA)
    # resize模板
    template1 = cv2.resize(template1, dim2, interpolation=cv2.INTER_AREA)
    template2 = cv2.resize(template2, dim2, interpolation=cv2.INTER_AREA)
    template3 = cv2.resize(template3, dim2, interpolation=cv2.INTER_AREA)
    template4 = cv2.resize(template4, dim2, interpolation=cv2.INTER_AREA)
    template5 = cv2.resize(template5, dim3, interpolation=cv2.INTER_AREA)


    # 判断匹配第一张模板是否匹配成功
    result = cv2.matchTemplate(frame, template1, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.95
    if max_val >= threshold :
        flag1 = True

    # 判断匹配第二张模板是否匹配成功
    result = cv2.matchTemplate(frame, template2, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.92
    if max_val >= threshold :
        flag2 = True

    # 判断匹配第三张模板是否匹配成功
    result = cv2.matchTemplate(frame, template3, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.95
    if max_val >= threshold:
        flag3 = True

    # 判断匹配第四张模板是否匹配成功
    result = cv2.matchTemplate(frame, template4, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.91
    if max_val >= threshold:
        flag4 = True

    # 判断匹配第五张模板是否匹配成功
    result = cv2.matchTemplate(frame, template5, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.92
    if max_val >= threshold:
        flag5 = True
    elif max_val < threshold:
        flag6 = True

    # 统计次数

    # 统计模型1的次数
    if(flag1==True and flag2==True):
        num = num+1
        flag1 = False
        flag2 = False

    # 统计模型2的次数
    if (flag3 == True and flag4 == True):
        num2 = num2 + 1
        flag3 = False
        flag4 = False

    # 统计模型3的次数
    if (flag5 == True and flag6 == True):
        num3 = num3 + 1
        flag5 = False
        flag6 = False

    # # 按下n键可以查看当前次数
    # key = cv2.waitKey(1)
    # if key == ord("n"):
        if num3 > 1:
            print(((num)//2)+(num2//2)+(num3//4))
        elif num2 > 1:
            print(((num)//2)+(num2//2))
        else:
            print(num//2)

   # 添加统计数字
    image = np.zeros((500, 500, 3), dtype=np.uint8)  # Black background
    if num3 > 1:
        text = f"Count num={((num//2)+(num2//2)+(num3//4))}"
    elif num2 > 1:
        text = f"Count num={((num//2)+(num2//2))}"
    else:
        text = f"Count num={(num//2)}"
    font = cv2.FONT_HERSHEY_SIMPLEX
    font_scale = 0.7
    font_thickness = 2
    font_color = (255, 0, 0)
    text_size = cv2.getTextSize(text, font, font_scale, font_thickness)[0]
    text_position = ((image.shape[1] - text_size[0] + 50) // 2, 
                     (image.shape[0] + text_size[1] + 100) // 2)
    cv2.putText(frame, text, text_position, font, font_scale, font_color, font_thickness)

    # cv2.imshow('frame',frame)  # 展示每一帧
    # cv2.waitKey(0)

    for i in range(3):

        # resize模板
        Template = cv2.resize(template[i], Dim[i], interpolation=cv2.INTER_AREA)
        result = cv2.matchTemplate(frame, Template, cv2.TM_CCOEFF_NORMED)

        # 获取匹配结果的最小值、最大值，以及它们的位置
        min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)

        # 判断是否匹配成功
        if(i==2):
            threshold =0.7
        else:
            threshold = 0.85
        if max_val >= threshold:
            # 在原始图像上标记匹配区域
            h, w = Template.shape[:2]
            top_left = max_loc
            bottom_right = (top_left[0] + w, top_left[1] + h)
            cv2.rectangle(frame, top_left, bottom_right, (0, 255, 0), 2)


        # cv2.imshow("1",Template)  # 查看模板

        # 显示结果
        cv2.imshow('Matching Result', frame)
        cv2.waitKey(1)

print(((num//2)+(num2//2)+(num3//4)))

cap.release()
cv2.destroyAllWindows()

代码详解

1.读取模板：

# 读取计数模板
template1 = cv2.imread('Task2-template/template1.jpg')
template2 = cv2.imread('Task2-template/template2.jpg')
template3 = cv2.imread('Task2-template/template3.jpg')
template4 = cv2.imread('Task2-template/template4.jpg')
template5 = cv2.imread('Task2-template/template5.jpg')
# 读取追踪模板
template6 = cv2.imread("Task2-template/template6.jpg")
template7 = cv2.imread("Task2-template/template7.jpg")
template8 = cv2.imread("Task2-template/template8.jpg")
template = [template6, template7, template8]

使用cv2.imread()读入计数模板和追踪模板，将追踪模板存入列表（template）后面通过for语言来调用列表里面的模板

2.打开视频文件：

# 打开视频文件
cap = cv2.VideoCapture("Task2-Count.mp4")

3.初始定义：

num = 1 #计数器
num2 = 0
num3 = 0
flag1 = False
flag2 = False
flag3 = False
flag4 = False
flag5 = False
flag6 = False

num,num2,num3分别为视频中三个模型的计数器

flag1-flag6为三个模型的互斥锁

4.读入每一帧：

while True:
    # 取当前帧
    ret, frame = cap.read()
    if not ret:
        break  # 视频结束

通过while循环和read()函数来读入每一帧

5.调整规格：

# resize每一帧
    (h, w) = frame.shape[:2]
    width = 600
    r = width / float(w)
    dim = (width, int(h * r))
    dim2 = (100, int(h*r))
    dim3 = (140, int(h*r))
    dim4 = (76, int((h * r) / 1.6))
    dim5 = (110, int((h * r) / 2))
    dim6 = (115, int((h * r) / 1.1))
    Dim=[dim4, dim5, dim6]
    frame = cv2.resize(frame, dim, interpolation=cv2.INTER_AREA)
    # resize模板
    template1 = cv2.resize(template1, dim2, interpolation=cv2.INTER_AREA)
    template2 = cv2.resize(template2, dim2, interpolation=cv2.INTER_AREA)
    template3 = cv2.resize(template3, dim2, interpolation=cv2.INTER_AREA)
    template4 = cv2.resize(template4, dim2, interpolation=cv2.INTER_AREA)
    template5 = cv2.resize(template5, dim3, interpolation=cv2.INTER_AREA)

dim-dim6是六个不同的规格，用于调整模板和帧以达到更高的匹配度

6.判断计数模板是否匹配成功：

# 判断匹配第一张模板是否匹配成功
    result = cv2.matchTemplate(frame, template1, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.95
    if max_val >= threshold :
        flag1 = True

    # 判断匹配第二张模板是否匹配成功
    result = cv2.matchTemplate(frame, template2, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.92
    if max_val >= threshold :
        flag2 = True

    # 判断匹配第三张模板是否匹配成功
    result = cv2.matchTemplate(frame, template3, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.95
    if max_val >= threshold:
        flag3 = True

    # 判断匹配第四张模板是否匹配成功
    result = cv2.matchTemplate(frame, template4, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.91
    if max_val >= threshold:
        flag4 = True

    # 判断匹配第五张模板是否匹配成功
    result = cv2.matchTemplate(frame, template5, cv2.TM_CCOEFF_NORMED)
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
    threshold = 0.92
    if max_val >= threshold:
        flag5 = True
    elif max_val < threshold:
        flag6 = True

通过cv2.matchTemplate()来匹配模板

cv2.TM_CCOEFF_NORMED是一种模板匹配的算法

下面是六种模板匹配算法：

cv2.minMaxLoc() 是 OpenCV 中用于在图像中找到最小值、最大值及其对应位置的函数

min_val, max_val, min_loc, max_loc:

minVal: 输入图像中的最小值。
maxVal: 输入图像中的最大值。
minLoc: 最小值的坐标位置，以 (x, y) 的形式表示。
maxLoc: 最大值的坐标位置，以 (x, y) 的形式表示。

7.统计次数

# 统计次数

    # 统计模型1的次数
    if(flag1==True and flag2==True):
        num = num+1
        flag1 = False
        flag2 = False

    # 统计模型2的次数
    if (flag3 == True and flag4 == True):
        num2 = num2 + 1
        flag3 = False
        flag4 = False

    # 统计模型3的次数
    if (flag5 == True and flag6 == True):
        num3 = num3 + 1
        flag5 = False
        flag6 = False

    # # 按下n键可以查看当前次数
    # key = cv2.waitKey(1)
    # if key == ord("n"):
        if num3 > 1:
            print(((num)//2)+(num2//2)+(num3//4))
        elif num2 > 1:
            print(((num)//2)+(num2//2))
        else:
            print(num//2)

通过互斥算法来统计各个模型下零件的往返次数

8.显示次数：

# 添加统计数字
    image = np.zeros((500, 500, 3), dtype=np.uint8)  # Black background
    if num3 > 1:
        text = f"Count num={((num//2)+(num2//2)+(num3//4))}"
    elif num2 > 1:
        text = f"Count num={((num//2)+(num2//2))}"
    else:
        text = f"Count num={(num//2)}"
    font = cv2.FONT_HERSHEY_SIMPLEX
    font_scale = 0.7
    font_thickness = 2
    font_color = (255, 0, 0)
    text_size = cv2.getTextSize(text, font, font_scale, font_thickness)[0]
    text_position = ((image.shape[1] - text_size[0] + 50) // 2, (image.shape[0] + text_size[1] + 100) // 2)
    cv2.putText(frame, text, text_position, font, font_scale, font_color, font_thickness)

通过cv2.getTextSize（）和cv2.putText（）实现显示次数

font_scale 调整字体大小

font_thickness 调整字体粗细

font_color 调整字体颜色

text_size 调整字体尺寸

text_position 调整字体位置

9.判断追踪模板是否匹配成功：

 for i in range(3):

        # resize模板
        Template = cv2.resize(template[i], Dim[i], interpolation=cv2.INTER_AREA)
        result = cv2.matchTemplate(frame, Template, cv2.TM_CCOEFF_NORMED)

        # 获取匹配结果的最小值、最大值，以及它们的位置
        min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)

        # 判断是否匹配成功
        if(i==2):
            threshold =0.7
        else:
            threshold = 0.85
        if max_val >= threshold:
            # 在原始图像上标记匹配区域
            h, w = Template.shape[:2]
            top_left = max_loc
            bottom_right = (top_left[0] + w, top_left[1] + h)
            cv2.rectangle(frame, top_left, bottom_right, (0, 255, 0), 2)

判断追踪模板是否匹配成功，如果匹配成功则画出追踪框

8.释放视频流和窗口：

# 释放视频流和关闭窗口
cap.release()
cv2.destroyAllWindows()

效果展示

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大