States are often represented as tuples of attributes. Because the size of the state space (in the case of Q-learning, the size of the Q-value matrix) is exponential in the number of attributes considered (this is often referred to as the “curse of dimensionality”), it is essential that the number of attributes and the resolution of each attribute be contained. This helps not only in reducing storage and speed requirements in a silicon implementation of the Q-value matrix; it also allows the RL agent to generalize, i.e., exploit knowledge acquired through past experience-in the case of Q-learning, approximate the Q-value of a previously unseen state-action pair(s, a) with the Q-value of state-action pair (s’ , a), with s and s’ sufficiently close in the state space.
รัฐจะแสดงเป็น tuples ของแอตทริบิวต์บ่อยครั้ง เนื่องจากขนาดของพื้นที่ของรัฐ(ในกรณีที่มี Q - การเรียนรู้ขนาดของ Matrix Storage Q - ค่าที่)มีอย่างต่อเนื่องในจำนวนของแอตทริบิวต์ที่ได้รับการพิจารณาให้(ในส่วนนี้จะเรียกว่าเป็น"คำสาปแช่งของสวนกันกับ"ความมีมิติเดียวมักจะ")แต่เป็นสิ่งจำเป็นที่หมายเลขที่ของแอตทริบิวต์และความละเอียดของแอตทริบิวต์ที่แต่ละคนมีอยู่โรงแรมแห่งนี้จะช่วยให้ไม่ได้เท่านั้นในการลดการจัดเก็บข้อมูลและความเร็วในการนำไปใช้งานที่ซิลิกอนของ Q - มอบความคุ้มค่า Matrix Storage ;และยังช่วยให้ RL Agent เพื่อทำ,เช่น,ข้อบกพร่องได้รับความรู้ผ่านทางผ่านประสบการณ์ - ในกรณีที่มีการ Q - การเรียนรู้,โดยประมาณที่ Q - มูลค่าของที่มองไม่เห็นรัฐ - การดำเนินการคู่( S , a )พร้อมด้วยที่ Q - ความคุ้มค่าของรัฐ - การดำเนินการคู่( S ',),พร้อมด้วย suffi ' s และ S ciently อยู่ใกล้ในพื้นที่รัฐ.
การแปล กรุณารอสักครู่..
