In this paper, SARSA, a well-known TD algorithm (see Fig. 3), is used. It is based on evaluation of action-value function denoted by Q(s, a). This latter estimates the expected future reward to the agent when it performs a given action, a, in a given state, s, and follows the policy thereafter. At every time step, SARSA updates the action-value function Qusing the quintuple (st, at, rt, st+1, at+1),which gives rise to the name of the algorithm. SARSA is an on-policy RL algorithm. It uses the learned policy not only to take decisions
ในกระดาษนี้ , ซอส , ขั้นตอนวิธี TD ที่รู้จักกันดี ( ดูรูปที่ 3 ) , ใช้ มันขึ้นอยู่กับการกระทำของการประเมินค่าฟังก์ชันเขียนแทนด้วย Q ( s ) หลังนี้ประมาณการคาดว่าในอนาคตบำเหน็จตัวแทนเมื่อดำเนินการให้การกระทำ เพื่อให้รัฐ และตามนโยบาย หลังจากนั้น เวลาที่ทุกขั้นตอน , ซอสปรับปรุงฟังก์ชันค่าปฏิบัติการ Q ใช้เท่า ( St , ที่ , RT , เซนต์ 11 ) ซึ่งจะช่วยให้เพิ่มชื่อของขั้นตอนวิธี ซอสเป็นขั้นตอนวิธี RL ในนโยบาย มันใช้เรียนรู้ไม่เพียง แต่จะใช้เวลาในการตัดสินใจนโยบาย
การแปล กรุณารอสักครู่..
