The agent needs to learn how to ass

The agent needs to learn how to assign credit and blame for the actions it takes. A common way of learning to assign
credit is through a technique called Q-learning. Formally, the Q-value of a state-action pair (s, a) while executing a policy Qx (s, a), is the expected cumulative reward resulting from taking action a in state s and following policy  thereafter.A Q-learning-based RL agent learns the optimal policy x indirectly, by learning Qx (s, a) for every state-action pair (s, a) (the Q-value matrix).

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ตัวแทนความต้องการที่จะเรียนรู้วิธีการกำหนดเครดิตและโทษสำหรับการกระทำที่ใช้ เป็นวิธีการทั่วไปของการเรียนรู้ที่จะกำหนดเครดิต
จะผ่านเทคนิคที่เรียกว่า Q-การเรียนรู้ อย่างเป็นทางการมูลค่า Q-ของคู่รัฐกระทำ (s,) ในขณะที่การดำเนินนโยบาย x Q (s,) เป็นรางวัลสะสมที่คาดว่าจะเกิดจากการดำเนินการในรัฐและนโยบายต่อไปนี้หลังจากนั้นQ-การเรียนรู้ตามตัวแทน RL รู้นโยบายที่เหมาะสม x โดยอ้อมโดยการเรียนรู้ Q  x (s,) สำหรับทุกคู่รัฐกระทำ (s, a) (Q-ค่าเมทริกซ์).

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

แทนต้องเรียนรู้วิธีการกำหนดเครดิต และโทษสำหรับการกระทำที่ใช้ วิธีการเรียนรู้การกำหนด
เครดิตคือเทคนิคที่เรียกว่า Q-เรียนรู้ อย่างเป็นกิจจะลักษณะ Q-ค่าของสถานะการดำเนินการคู่ (s การ) ขณะดำเนิน Qx นโยบาย (s แบบ), เป็นรางวัลสะสมคาดว่าเกิดจากการกระทำการในรัฐ s และต่อนโยบายหลังจากนั้นตัวแทน RL Q-เรียนรู้ตามรู้ x นโยบายเหมาะสมทางอ้อม โดยเรียนรู้ Qx (s เป็น) สำหรับทุก ๆ คู่สถานะการดำเนินการ (s เป็น) (เมตริกซ์ค่า Q)

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

Agent ที่ความต้องการในการเรียนรู้การกำหนดเครดิตและโทษสำหรับการดำเนินการที่ใช้ วิธีใช้โดยทั่วไปของการเรียนรู้ที่จะกำหนด
เครดิตคือผ่านทางเทคนิคที่เรียกว่า Q - การเรียนรู้ อย่างเป็นทางการ Q - มูลค่าของคู่ของรัฐ - action ( S )ในขณะที่การดำเนินการนโยบาย qx ( S )ให้เป็นรางวัลสะสมรวมกันคาดว่าจะเป็นผลมาจากการดำเนินการในรัฐ S และตามนโยบายหลังจากนั้นAgent RL Q - การเรียนรู้ที่ได้เรียนรู้ถึง x นโยบายที่มีการเรียนการสอนโดยอ้อม qx ( s )สำหรับคู่ของรัฐ - ทุกๆการดำเนินการ( s )( Matrix Storage Q - ค่า)..

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.