人工智能与Python——计算机视觉


计算机视觉涉及使用计算机软件和硬件建模和复制人类视觉。在本章中,您将详细了解这一点。

计算机视觉

计算机视觉是一门研究如何根据场景中存在的结构的属性从 2D 图像重建、中断和理解 3D 场景的学科。

计算机视觉层次结构

计算机视觉分为以下三个基本类别 -

  • 低级视觉- 它包括用于特征提取的过程图像。

  • 中级视觉- 包括物体识别和 3D 场景解释

  • 高层次视觉- 它包括活动、意图和Behave等场景的概念描述。

计算机视觉与图像处理

图像处理研究图像到图像的转换。图像处理的输入和输出都是图像。

计算机视觉是根据物理对象的图像对物理对象进行明确、有意义的描述。计算机视觉的输出是 3D 场景中结构的描述或解释。

应用领域

计算机视觉在以下领域有应用 -

机器人技术

  • 定位-自动确定机器人位置

  • 导航

  • 避障

  • 组装(钉孔、焊接、喷漆)

  • 操纵(例如PUMA机器人操纵器)

  • 人机交互(HRI):与人类互动和服务的智能机器人

药品

  • 分类和检测(例如病变或细胞分类和肿瘤检测)

  • 2D/3D 分割

  • 3D人体器官重建(MRI或超声波)

  • 视觉引导机器人手术

安全

  • 生物识别(虹膜、指纹、人脸识别)
  • 监视——检测某些可疑活动或Behave

运输

  • 自动驾驶汽车
  • 安全,例如驾驶员警惕性监控

工业自动化应用

  • 工业检验(缺陷检测)
  • 集会
  • 条形码和包装标签读取
  • 对象排序
  • 文档理解(例如 OCR)

安装有用的包

对于使用 Python 的计算机视觉,您可以使用名为OpenCV(开源计算机视觉)的流行库。它是一个主要针对实时计算机视觉的编程函数库。它是用 C++ 编写的,其主要接口是用 C++ 编写的。您可以借助以下命令安装此软件包 -

pip install opencv_python-X.X-cp36-cp36m-winX.whl

这里的 X 代表你机器上安装的 Python 版本以及你拥有的 win32 或 64 位。

如果您使用的是anaconda环境,则使用以下命令安装 OpenCV -

conda install -c conda-forge opencv

读取、写入和显示图像

大多数 CV 应用程序需要获取图像作为输入并生成图像作为输出。在本节中,您将学习如何借助OpenCV提供的函数读写图像文件。

用于读取、显示、写入图像文件的 OpenCV 函数

OpenCV 为此目的提供了以下函数 -

  • imread() 函数- 这是读取图像的函数。OpenCV imread() 支持多种图像格式,如 PNG、JPEG、JPG、TIFF 等。

  • imshow() 函数- 这是在窗口中显示图像的函数。窗口自动适应图像尺寸。OpenCV imshow() 支持多种图像格式,如 PNG、JPEG、JPG、TIFF 等。

  • imwrite() 函数- 这是用于写入图像的函数。OpenCV imwrite() 支持多种图像格式,如 PNG、JPEG、JPG、TIFF 等。

例子

此示例显示了用于以一种格式读取图像的 Python 代码 - 将其显示在窗口中并以其他格式写入相同的图像。考虑下面所示的步骤 -

导入 OpenCV 包,如图所示 -

import cv2

现在,要读取特定图像,请使用 imread() 函数 -

image = cv2.imread('image_flower.jpg')

要显示图像,请使用imshow()函数。您可以在其中看到图像的窗口的名称是image_flower

cv2.imshow('image_flower',image)
cv2.destroyAllwindows()
图像花

现在,我们可以使用 imwrite() 函数将相同的图像写入其他格式,例如 .png -

cv2.imwrite('image_flower.png',image)

输出 True 意味着图像已成功写入同一文件夹中的 .png 文件。

True

注意 - 函数 destroyallWindows() 只是销毁我们创建的所有窗口。

色彩空间转换

在OpenCV中,图像不是使用传统的RGB颜色存储的,而是以相反的顺序(即BGR顺序)存储。因此,读取图像时的默认颜色代码是 BGR。cvtColor ()颜色转换函数用于将图像从一种颜色代码转换为另一种颜色代码。

例子

考虑此示例,将图像从 BGR 转换为灰度。

导入OpenCV包,如图所示 -

import cv2

现在,要读取特定图像,请使用 imread() 函数 -

image = cv2.imread('image_flower.jpg')

现在,如果我们使用imshow()函数查看该图像,那么我们可以看到该图像位于 BGR 中。

cv2.imshow('BGR_Penguins',image)
企鹅

现在,使用cvtColor()函数将此图像转换为灰度图像。

image = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
cv2.imshow('gray_penguins',image)
灰企鹅

边缘检测

人类在看到粗略的草图后,可以轻松识别许多物体类型及其姿势。这就是为什么边缘在人类的生活以及计算机视觉的应用中发挥着重要作用。OpenCV 提供了非常简单且有用的函数Canny()来检测边缘。

例子

下面的示例显示了边缘的清晰识别。

导入 OpenCV 包,如图所示 -

import cv2
import numpy as np

现在,要读取特定图像,请使用imread()函数。

image = cv2.imread('Penguins.jpg')

现在,使用Canny ()函数检测已读取图像的边缘。

cv2.imwrite(‘edges_Penguins.jpg’,cv2.Canny(image,200,300))

现在,要显示带有边缘的图像,请使用 imshow() 函数。

cv2.imshow(‘edges’, cv2.imread(‘‘edges_Penguins.jpg’))

这个Python程序将创建一个名为edges_penguins.jpg的带有边缘检测的图像。

边缘企鹅

人脸检测

人脸检测是计算机视觉的迷人应用之一,它使其更加现实且具有未来感。OpenCV 有一个内置的工具来执行人脸检测。我们将使用Haar级联分类器进行人脸检测。

哈尔级联数据

我们需要数据来使用 Haar 级联分类器。您可以在我们的 OpenCV 包中找到这些数据。安装 OpenCv 后,您可以看到文件夹名称haarcascades。不同的应用程序会有 .xml 文件。现在,复制所有这些文件以供不同用途,然后粘贴到当前项目下的新文件夹中。

例子

以下是使用 Haar Cascade 检测 Amitabh Bachan 脸部的 Python 代码,如下图所示 -

腹肌脸

导入OpenCV包,如图所示 -

import cv2
import numpy as np

现在,使用HaarCascadeClassifier来检测面部 -

face_detection=
cv2.CascadeClassifier('D:/ProgramData/cascadeclassifier/
haarcascade_frontalface_default.xml')

现在,要读取特定图像,请使用imread()函数 -

img = cv2.imread('AB.jpg')

现在,将其转换为灰度,因为它接受灰度图像 -

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

现在,使用face_detection.detectMultiScale,执行实际的人脸检测

faces = face_detection.detectMultiScale(gray, 1.3, 5)

现在,在整个脸部周围画一个矩形 -

for (x,y,w,h) in faces:
   img = cv2.rectangle(img,(x,y),(x+w, y+h),(255,0,0),3)
cv2.imwrite('Face_AB.jpg',img)

此 Python 程序将创建一个名为Face_AB.jpg的图像,并进行人脸检测,如图所示

面AB

眼睛检测

眼睛检测是计算机视觉的另一个令人着迷的应用,它使其更加现实且具有未来感。OpenCV 有一个内置的工具来执行眼睛检测。我们将使用Haar 级联分类器进行眼睛检测。

例子

以下示例给出了使用 Haar Cascade 检测下图中给出的 Amitabh Bachan 脸部的 Python 代码 -

哈尔AB脸

导入 OpenCV 包,如图所示 -

import cv2
import numpy as np

现在,使用HaarCascadeClassifier来检测面部 -

eye_cascade = cv2.CascadeClassifier('D:/ProgramData/cascadeclassifier/haarcascade_eye.xml')

现在,要读取特定图像,请使用imread()函数

img = cv2.imread('AB_Eye.jpg')

现在,将其转换为灰度,因为它接受灰度图像 -

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

现在在eye_cascade.detectMultiScale的帮助下,执行实际的人脸检测

eyes = eye_cascade.detectMultiScale(gray, 1.03, 5)

现在,在整个脸部周围画一个矩形 -

for (ex,ey,ew,eh) in eyes:
   img = cv2.rectangle(img,(ex,ey),(ex+ew, ey+eh),(0,255,0),2)
cv2.imwrite('Eye_AB.jpg',img)

此 Python 程序将创建一个名为Eye_AB.jpg的图像,并进行眼睛检测,如下所示 -

眼AB