首页
直接策略的RL直接优化目标函数,对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛。()
未来题库
→
百科
直接策略的RL直接优化目标函数,对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛。()
A.正确
B.错误
正确答案:正确
Tags:
策略
函数
直接
猜你喜欢
1.
控制标准是时间的函数,这种控制类型属于()
2.
以下不属于“步步为营”策略的是()
3.
“步步为营”策略是指资源的()
4.
“quit”是Authorware的系统函数,其作用是()。
5.
在Authorware中,对“GoTo”函数的描述,错误的是()。
6.
广告得以产生并发展的直接原因是()。
7.
广告的定位策略包括()。
8.
复摇后的丝片可以直接出厂。()
9.
#pragma vector=PORT1()VECTOR表示中断函数是为 ; 的中断服务的。
10.
中断函数可以根据需要灵活设计输入参数。