单项选择题
蒙特卡罗强化学习算法的本质,是通过多次尝试后求平均来作为期望累计奖赏的金丝,但它在求平均时是采用哪种方式进行()
A.逐一式
B.循环式
C.分组式
D.批处理
点击查看答案&解析
相关考题
-
单项选择题
在分类学习中,提升方法通过反复修改训练数据的(),构建一系列基本分类器并将它们线性组合,形成一个强分类器。
A.偏差
B.方差
C.采样样本
D.权值分布 -
单项选择题
启发式搜索是寻求问题()解的一种方法。
A.最优
B.一般
C.满意
D.最坏 -
单项选择题
使用一组槽来描述事件的发生序列,这种知识表示法叫做()
A.语义网络法
B.过程表示法
C.剧本表示法
D.框架表示法
