Fig. 5. The Mixed Model Learning strategy. c3 ′ c3 ′
=(1,0), and wJ =(qJ,1−qJ). This causes the code J
where x
to be rejected for prediction.
Therefore, in the second stage of reinforcement learning, for the learning agent to perform by doing exploitation with the pre- existing codes (C1, C2, C3,... CN) instead of random choices, the following condition should be satisfied: the reward vigilance pa- rameter ρc3 must be lower than the minimum value of all the ini- tialized prior reward values:
m i n { Q n ( s , a ) = q n } ≥ ρ c 3 ( n = 1 , 2 , . . . , N ) .
รูป 5 กลยุทธ์การเรียนรู้แบบผสม c3 ทั้ง c3 ทั้ง= (1.0), และ wJ = (qJ, 1−qJ) ทำให้รหัส Jที่ xถูกปฏิเสธการคาดเดาดังนั้น ในช่วงสองของเสริมการเรียนรู้ ตัวแทนการเรียนรู้การดำเนินการ โดยทำประโยชน์ ด้วยการรหัสที่มีอยู่ก่อน (C1, C2, C3,... CN) แทนการเลือกแบบสุ่ม ควรพอใจเงื่อนไขต่อไปนี้: ต้องต่ำกว่าค่าต่ำสุดของค่าทั้งหมด ini-tialized ก่อนรางวัลรางวัลระมัดระวังป่า rameter ρc3:ม.ผม n { Q n (s,) = q n } ≥ρ c 3 (n = 1, 2,..., N)
การแปล กรุณารอสักครู่..

มะเดื่อ. 5. ผสมกลยุทธ์แบบการเรียนรู้ C3 'C3' =
(1,0) และ WJ = (QJ 1 QJ) นี่เป็นสาเหตุ J รหัส
ที่ x
ถูกปฏิเสธการทำนาย.
ดังนั้นในขั้นตอนที่สองของการเรียนรู้เสริมสำหรับตัวแทนการเรียนรู้ที่จะดำเนินการโดยการทำเช่นการแสวงหาผลประโยชน์กับรหัสที่มีอยู่ก่อน (C1, C2, C3, ... CN) แทนการสุ่มเลือกเงื่อนไขต่อไปนี้ควรมีความพึงพอใจที่: ρc3รางวัลระมัดระวัง Pa- rameter จะต้องต่ำกว่ามูลค่าขั้นต่ำของทุกเริ่มแรก tialized ค่ารางวัลก่อน:
นาที {Q n (s, A) = qn} ≥ρ C 3 (n = 1, 2,..., n)
การแปล กรุณารอสักครู่..
