首页
Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。
未来题库
→
百科
Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。
A.期望值
B.最大值
C.最小值
D.总和
正确答案:A
Tags:
状态
一个
给定
猜你喜欢
1.
一个IP地址包含()。
2.
某公司申请到一个C 类IP 地址,但要连接6 个的子公司,最大的一个子公司有26 台计算机,每个子公司在一个网段中,则子网掩码应设为()。
3.
稿件状态主要包括()①审稿(Submit)、②编辑处理稿件(With Editor)、③审稿(Under Review)、④修改(Revise)、⑤结果(Accept or Reject)
4.
8086CPU读取字数据时,必定会访问一个奇地址存储体和一个偶地址存储体。
5.
8086CPU执行OUT 80H,AL与执行MOV [80H],AL命令相比,除了MIO#状态不同外,其它地址总线、控制总线状态相同。
6.
8255A的A口设为输入方式0,连接开关后,根据A口二进制位的状态表示开关状态,如果是1就判断开关断开,是0就判断开关闭合。
7.
利用8255A的B口控制LED的亮灭,根据B口各位的状态是1就判断LED亮,状态是0就判断LED灭。
8.
8255A的C口采用位操作时,无法读取C口当前状态。
9.
中国的第一个马克思主义者是()
10.
MOV是下列哪一个指令?