我正在研究系统的电源管理。我希望最小化的目标是功耗和平均延迟。我有一个具有两个目标的线性加权总和的目标函数:

C=w.P_avg+(1-w).L_avg,      where w belongs to (0,1)

我正在使用 Q-learning 通过改变权重 w 并设置对功耗和平均延迟的不同偏好来找到帕累托最优权衡曲线。我确实获得了帕累托最优曲线。我现在的目标是提供一个约束(例如,平均延迟 L_avg),从而调整/找到 w 的值以满足给定的标准。我的是一个在线算法,所以 w 的调整应该以在线方式进行。

能否在这方面向我提供任何提示或建议?

最佳答案

社区中有一个多目标强化学习分支。

想法是 1 :



还有一篇你可能感兴趣的论文:

通过强化学习对电力系统调度和电压稳定性进行多目标优化

我没有找到它的公共(public)网址。

关于machine-learning - 使用强化学习进行多标准优化,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/13343336/

10-12 19:35