fix

xjqbest · Jan 3, 2022 · 36ad49b · 36ad49b
1 parent 67eff62
commit 36ad49b
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/docs/chapter2/chapter2.md b/docs/chapter2/chapter2.md
@@ -486,7 +486,7 @@ $$
 我们再看下 policy evaluation 的例子，怎么在决策过程里面计算它每一个状态的价值。
 
 * 假设环境里面有两种动作：往左走和往右走。
-* 现在的奖励函数应该是关于动作以及状态两个变量的一个函数。但我们这里规定，不管你采取什么动作，只要到达状态 $s_1$，就有 5 的奖励。只要你到达状态 $s_7$ 了，就有 10 的奖励，中间没有任何奖励。
+* 现在的奖励函数有两个变量：动作和状态。但我们这里规定，不管你采取什么动作，只要到达状态 $s_1$，就有 5 的奖励。只要你到达状态 $s_7$ 了，就有 10 的奖励，中间没有任何奖励。
 * 假设我们现在采取的一个策略，这个策略是说不管在任何状态，我们采取的策略都是往左走。假设价值折扣因子是零，那么对于确定性策略(deterministic policy)，最后估算出的价值函数是一致的，即
 
 $$