基于强化学习的 Contextual Bandits 算法在推荐场景中的应用

导读：本文是对滴滴 AI Labs 和中科院大学联合提出的 WWW 2020 Research Track 的 Oral 长文 "Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation" 的详细解读。

在这篇文章中，滴滴 AI Labs 提出了一种基于强化学习的层次自适应的多臂老虎机的资源限制下的个性化推荐方法 ( HATCH )。该方法将资源限制下的用户推荐问题建模成一个资源限制下的上下文老虎机问题，并使用层次结构同时达到资源分配策略和个性化推荐策略同时优化的目的。

研究背景

多臂老虎机是一个非常典型的决策方法，被广泛的应用于推荐系统中。一般情况下，当多臂老虎机算法观察到系统当中的状态 ( state ) 时，会从候选的多个动作 ( action ) 当中选择一个在环境当中执行，之后得到环境的反馈回报 ( reward )。算法的目标是最大化累计回报，在推荐系统当中，state 一般对应用户上下文，比如用户特征等，action 对应于可供推荐的项目，比如广告，商品等等。reward 一般为用户在得到推荐结果之后的反馈，通常情况下会使用点击率等。多臂老虎机作为一种决策方法，其最重要的就是提供探索 ( exploration ) - 开发 ( exploitation ) 功能。开发是指策略 ( policy ) 采用当前预估出的最佳推荐，探索则是选择更多非最佳策略从而为深入挖掘用户喜好提供了可能性。

本文所考虑的问题是，有些时候推荐行为会在系统中产生资源消耗，该资源消耗会影响策略的表现。比如对于一个成熟的电商网站，一般情况下其每天的流量可以被看作一个定值，如果将流量看作一种资源，那么广告展示的行为就可以看作一种资源消耗。并且这种消耗是单元消耗，即一次推荐产生的资源消耗为1。资源限制不仅会限制推荐的次数，并且会对探索开发功能产生很大的影响。

目前有很多贪心策略用于资源限制下的上下文多臂老虎机问题，即在训练的时候完全不考虑资源的分配，而采用"有即分配

lblog_4hvlwoqt

基于强化学习的 Contextual Bandits 算法在推荐场景中的应用