Each action is associated with an immediate reward. Once action at is picked and the immediate reward is determined, the Q-value prediction associated with the state-action pair
(st-1 , at-1 ) that was picked in the previous cycle t - 1 can be updated using SARSA [32] as follows: Q(st-1 , at-1 ) † (1 - ∝)Q(st - 1 , at - 1 ) + ∝[rt + γQ(st , at )] where ∝ is the learning rate, empirically determined;2 rt is the immediate reward collected for the action taken; and 0 ≤ γ < 1 is a discount factor that causes future rewards to be incorporated in the form of a geometric series.3
การดำเนินการแต่ละคนจะมีความเกี่ยวข้องกับรางวัลที่ได้ในทันที เมื่อการดำเนินการที่จะไปรับท่านและรางวัลที่ได้ในทันทีจะถูกกำหนดไว้, Q - มูลค่าการคาดเดาที่เชื่อมโยงกับรัฐ - การดำเนินการจับคู่
( st 1 ,ที่ 1 )ที่ได้รับในรอบก่อนหน้า T - 1 สามารถอัพเดตได้โดยใช้ sarsa [ 32 ]ดังนี้: Q ( st 1 ,ที่ 1 )( software threads )( 1 - ∝) Q ( St - 1 ,ที่ 1 )∝[ Rt γq ( St ,ที่)]ที่∝มีอัตราการเรียนรู้,กำหนดเชิงประจักษ์ 2 Rt เป็นรางวัลทันทีที่เก็บรวบรวมสำหรับการดำเนินการและ 0 :≤γ< 1 จะเป็นปัจจัยที่ทำให้เกิดส่วนลดรางวัลในอนาคตจะนำมารวมไว้ในรูปแบบของรูปทรงเรขาคณิต series แคช 3
ที่
การแปล กรุณารอสักครู่..