为代理实现实时操作条件(监督的基于奖惩的学习)的最佳方法是什么我应该用神经网络吗或者别的什么?
我希望探员能像狗一样被训练服从命令。这些命令将以触摸屏上的手势形式发出我希望代理能够被训练跟随一条路径(在连续的2D空间中),在命令上进行行为更改(由FSM状态转换建模),并执行一系列操作。
代理将处于模拟的物理环境中。

最佳答案

Reinforcement Learning是一个很好的机器学习算法。
基本强化学习模型包括:
一组环境状态S(您有一个以某种方式离散的二维空间,这是狗的当前位置,如果您想做连续的二维空间,您可能需要一个神经网络作为值函数映射器。)
一组动作A(你提到狗执行一系列动作,例如移动、旋转)
状态间转换的规则(你的狗的位置转换可以用fsm建模)
决定转换的标量立即奖励r的规则(当到达目标位置时,您可能希望给狗一个大奖励,而在中间里程碑也欢迎小奖励)
描述代理遵守的规则。(狗的视野可能有限,例如,只有4个或8个相邻的单元格可见,下图是一个显示狗当前位置P和狗可见的4个相邻单元格的示例。)
要找到最佳策略,可以从无模型技术开始-q-learning

09-11 17:56
查看更多