肢体识别本质上还是分类任务,该技术有很多应用场景,比如手势识别控制类应用、动作检测类应用、动作评测类应用、以及一些移动设备AR视频合成类应用。对于纯粹的检测类应用,可以直接对RGB源图像进行分类,当前基于CNN的图像分类技术已经非常成熟和稳定,准确性也完全达到了实用标准。而对于另外涉及到肢体评测、AR合成类的应用,单靠图像分类技术已经不太够了,需要用到关键点检测技术,它能检测出肢体关键点(比如四肢、面部纹理、手指等),然后基于检测到的关键点做进一步处理。关键点检测的原理其实跟分类技术原理差不多,只是神经网络的输出不太一样。
图像分类
在大部分深度学习入门教程中,图像分类基本就是hello world级别存在的,最常见的是识别猫还是狗。ImageNet比赛比的是1000分类,基本涵盖了大部分常见物体。图像分类的流程很简单,输入RGB图像,输出各分类的概率值,1000分类任务就输出1000个概率值。图像分类是深度学习技术在CV领域最基础的应用,主要原因是它涵盖了深度学习最重要的环节:特征自动提取。我们刚学习CNN时接触到的Alexnet、GoogleNet或者Resnet之类的,全部都是特征自动提取网络,如果需要对输入分类,网络后面再接特征分类层即可。
那么具体到肢体识别任务上,也可以将它看作一个图像分类任务,这里以‘剪刀石头布识别’为例子,是一个3分类的分类任务:
上面这张图大部分接触过深度学习的人应该很清楚,最基础的分类任务。图像分类起到的作用很有限,仅仅是对肢体做一个大概的分类,无法满足更细致的需求,接下来介绍关键点检测。
关键点检测
关键点检测的技术当前也非常成熟了,github上最早的OpenPose项目非常火爆,有几万星星。通过训练后,模型能够实时推理检测出人体关键点(四肢和面部,具体技术原理跟其他采用神经网络的深度学习技术相似,可以参考网络资料)。
关键点检测出来之后,可以进一步对这些关键点进行分析。分析结果就不仅仅是肢体识别了,还可以通过这些关键点相互之间的关系来判断肢体动作的协调程度、或者像一些AR应用在人体上叠加一些其他内容(类似抖音视频合成)。
接下来介绍两种关键点分析方法,一种是基于传统机器学习,先从关键点中人工提取特征、然后再对特征进行分析(基于常见的机器学习算法去做分类、聚类或者回归之类的);另外一种是基于深度学习端到端的处理方式,关键点直接作为神经网络的输入,输出对应想要的结果。从这两种不同的处理方式中可以了解到传统机器学习和深度学习的区别,关于两者的区别可以看一下。
关键点+机器学习方式
机器学习的一大特点是需要人工提取原数据的特征,这个过程叫特征工程。如果需要对关键点进行分析,先要从这些关键点中提取高质量特征数据,为什么要高质量?因为提取特征的方式或者说维度有很多,要保证提取到的特征数据最具代表性、能够充分表达原数据的特点。现以‘石头剪刀布手势识别’为例子,来说明如何人工提取特征数据。我们知道,石头剪刀布3种手势之间手指的形状差异很大,手指和手指关节之间的直线距离差异很明显,那么我们可以将关节之间直线距离当作关键点的特征数据,并将其提取出来。
使用提取到的特征数据(特征向量,Feature Vector),训练K-Means或者DBSCAN等机器学习分类算法模型,并将其泛用到其他新数据(新特征)。
关键点+深度学习方式
跟机器学习不同,深度学习的一大特点就是神经网络能够自动提取特征、自动寻找源数据内部的规律。至于它如何提取、或者根据什么原理去提取,很难解释。你只需要将源数据(关键点坐标)输入神经网络,直接可以输出对应结果,如果是前面提到的‘石头剪刀布手势识别’任务,网络可以输出三种手势分别对应的概率。我们可以看到,机器学习和深度学习两种方式的输入是不一样的,前者的输入是人工提取的特征数据(某些关节点之间的直线距离值集合),后者输入可以直接是关键点坐标值(关键点XY值集合)。正因为深度学习这种端到端的处理方式、省去了繁琐的特征工程,才能使得其大规模应用在复杂的非结构化数据上,比如CV中的CNN网络,它直接接收RGB格式图像作为输入,它处理的对象是像素值,而无需人工做过多的干预。关于这块详细参见之前的一篇文章。
我们用关键点数据训练最简单的神经网络,将训练得到的模型应用到真实数据上。本文主要介绍了肢体识别的几种方式,以及采用关键点检测时,如何处理关键点数据。同时提到了机器学习和深度学习不同的工作流程,以及各自的特点。有问题的朋友可以留言交流。