在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励
A.利用,探索
B.探索,输出
C.利用,输出
D.探索,利用
正确答案:D
猜你喜欢