![](https://lstatic.shangxueba.com/jiandati/h5/images/m_q_title.png)
改进FF网络流算法,可以选择好的增广路径,使
A、有效的发现增广路径.
B、迭代次数减少
C、存储空间减少
D、算法复杂度降低
改进FF网络流算法,可以选择好的增广路径,使
A、有效的发现增广路径.
B、迭代次数减少
C、存储空间减少
D、算法复杂度降低
强化学习基本要素有哪些?
A、状态、动作、奖励
B、状态、动作、折扣因子
C、动作、折扣因子、奖励
D、状态、奖励、探索策略
不需要建模环境,等待真实反馈再进行接下来的动作,这是哪种强化学习算法
A、Model-free方法
B、Model-based 方法
C、Policy-based 方法
D、Value-based 方法
Q-learning属于哪种算法
A、On-policy算法
B、Off-policy 算法
C、Model-based 算法
D、Value-based 算法
马尔科夫决策过程由哪几个元素来表示
A、状态、动作、转移概率、策略、折扣因子
B、状态、动作、转移概率、折扣因子、回报函数
C、状态、动作、输入、输出、回报函数
D、状态、动作、值、策略、回报函数
关于episode说法错误的是
A、一个episode就是一个从起始状态到结束的经历
B、蒙特卡洛方法需要很少的episode就可以得到准确结果
C、TD方法每次更新不需要使用完整的episode
D、蒙特卡洛的方法需要等到整个episode结束才能更新
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!