我是ML领域的新手,并且对计算机视觉有疑问。为什么面部检测和物体检测软件(例如Instagram的面部过滤器)可以在我们的智能手机上以30-60 FPS的速度平稳运行,而姿势估计软件(例如OpenPose)却难以以10 FPS以上的速度处理实时视频(规格不错)太)?

如果我错了,请纠正我,但是Snapchat的软件可以跟踪您的脸,直到光线不足和突然突然移动为止,并且可以通过姿势估计来完成此操作,但是需要更好/更多的GPU并以较低的FPS运行。

什么是用于实时姿势估计的最快类型的神经网络?什么组件组成了可以实时准确预测人的姿势的强大神经网络?

甚至有可能执行一些计算并仍然获得相对较高的FPS?

任何回应表示赞赏

最佳答案

纯粹的检测总是很慢。最常见的解决方法是使用检测->跟踪->更新框架。

在显示线程中,视频以恒定30 fps的速度显示。
在后端,您的姿势检测功能会不断更新到姿势模型(例如通过EKF或其他方式进行预测)。 EKF能够在30 hz处输出对应于显示螺纹频率的模型。在这之间,如果您要进行面部更新,则还可以更新相关的面部模型以局部预测具有较大差异的小步长/基线姿势运动。在关键姿势更新步骤中,给此更新小的变化以执行主要更新。

关于machine-learning - 为什么姿势估计器这么慢?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/56389553/

10-09 04:39