我将Kinect摄像机的关节位置用作状态空间,但我认为它太大了(25个关节x每秒30个),无法直接馈入SARSA或Qlearning。
现在,我正在使用Kinect Gesture Builder程序,该程序使用监督学习将用户的动作与特定手势相关联。但是,这需要我想摆脱的监督培训。我认为算法可能会在我自己对数据进行分类时拾取关节之间的某些关联(例如,举手,向左移动,向右移动)。
我认为将数据馈入深度神经网络,然后将其传递给强化学习算法可能会给我带来更好的结果。
最近有一篇关于这个的论文。 https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
我知道Accord.net既具有深度神经网络又具有RL,但是有人将它们组合在一起吗?有什么见解吗?
最佳答案
如果我从您的问题和评论中正确理解,那么您想要的是让一个代理使用视觉输入(来自摄像机的原始像素)执行离散操作。这看起来就像DeepMind团队最近所做的那样,扩展了您提到的论文。看看this。它是玩Atari游戏的更新(更好)的版本。它们还提供了官方实施,您可以下载here。
甚至还有an implementation in Neon效果都很好。
最后,如果要使用连续操作,您可能对此very recent paper感兴趣。
回顾一下:是的,有人将DNN + RL结合使用了,它可以工作,如果您想使用原始摄像机数据来训练RL代理,这绝对是一种方法:)