An MDP M is a five tuple hS,A, T,R,i, where S is the state
space, A is the action space, T : S × A × S ! R is a transition function, R : S × A ! R is a reward function, and 0 < 1
การ MDP m เป็นห้า tuple HS , A , T , R , ฉัน , ซึ่งเป็นรัฐ
อวกาศ เป็นปฏิบัติการอวกาศ , t : S × a × S ! R คือการเปลี่ยนแปลงฟังก์ชัน , R : S × ! R เป็นรางวัลตอบแทนการทำงาน และ 0 < 1
การแปล กรุณารอสักครู่..
