一、说明
强化训练如同训狗。当狗或孩子行为不端时,你会怎么做?你责骂他们以确保他们不会重复或学习不良行为。另一方面,如果他们做了好事,你就会奖励他们,灌输良好的行为。不管你相信与否,这种正强化或负强化系统也可用于训练机器。它被称为强化学习,它可以帮助我们提出独特的解决方案。 Q 学习是一种无模型的 强化学习!
在本文中,我们将讨论什么是 Q-learning 以及如何实施它。
二、什么是强化学习?
在机器学习中,一个常见的缺点是模型需要训练大量数据。模型越复杂,可能需要的数据就越多。即使经过这一切,我们得到的数据也可能不可靠。它可能具有错误或缺失的值,或者可能是从不可信的来源收集的。
强化学习几乎完全消除了对数据的需求,从而克服了数据获取的问题!
强化学习是机器学习的一个分支,它训练模型通过自身决策来找到问题的最佳解决方案。
它包括:
代理将与之交互的环境,以学习实现目标或执行操作。
如果模型执行的操作使我们更接近目标/正在实现目标,则奖励。这样做是为了朝正确的方向训练模型。
如果它执行的操作不会导致目标,则会得到负面奖励,以防止它向错误的方向学习。
强化学习需要机器学习模型从问题中学习并自行提出最佳解决方案。这意味着我们还可以得出程序员甚至可能没有想到的快速且独特的解决方案。
考虑下图。你可以看到房间里有一只狗必须执行一个动作,这个动作就是取东西。狗是代理人;房间是它必须工作的环境,要执行的操作是获取。