欢迎来到PP题库网 PP题库官网
logo
全部科目 > 大学试题 > 计算机科学 > 人工智能

单项选择题

蒙特卡罗强化学习算法的本质,是通过多次尝试后求平均来作为期望累计奖赏的金丝,但它在求平均时是采用哪种方式进行()

    A.逐一式
    B.循环式
    C.分组式
    D.批处理

点击查看答案&解析

相关考题

微信小程序免费搜题
微信扫一扫,加关注免费搜题

微信扫一扫,加关注免费搜题