我想知道什么时候人们会决定诉诸强化学习来解决以前通过数学优化方法解决的问题——想想旅行商问题或工作调度或出租车共享问题。
由于强化学习旨在以与运筹学尝试优化某个成本函数的结果类似的方式最小化/最大化某个成本/奖励函数,我认为可以解决两方之一可以解决的问题由另一个。然而,情况是这样吗?两者之间需要权衡吗?关于上述问题,我还没有真正看到对 RL 进行的太多研究,但我可能会弄错。
如果有人有任何见解,他们将不胜感激!!
最佳答案
这是我的两分钱。我认为,尽管两种近似都有一个共同的目标(最佳决策),但它们的基本工作原理是不同的。本质上,强化学习是一种数据驱动的方法,其中优化过程是通过代理-环境交互(即数据)实现的。另一方面,优化研究使用其他需要对问题有更深入了解和/或强加更多假设的方法。
有很多问题,尤其是学术或玩具问题,可以同时应用 RL 和 OR 两个近似值。在现实世界的应用中,我猜如果你能满足 OR 要求的所有假设,RL 就不会取得更好的结果。不幸的是,情况并非总是如此,因此 RL 在这种情况下更有用。
但是请注意,存在一些方法,其中不清楚 RL 和 OR 之间的区别。