Reinforcement learning (RL) is an e

Reinforcement learning (RL) is an efficient method for discovering policies in Markovian sequential decisions tasks. Whenever an RL agent takes an action, the environment responds by a reward or a punishment signal. The feedback signal gives an indication about the quality of undertaken actions. As depicted in Fig. 2, an RL agent interacts with its environment in discrete time steps. At a time step t, the environment state is st. The RL agent chooses an action at. Consequently, it receives a feedback rtanda new state st+1is determined. This cycle is repeated until that the learning agent converges to an optimal policy maximizing the expected future reward.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เสริมสร้างการเรียนรู้ (RL) เป็นวิธีมีประสิทธิภาพสำหรับการค้นหากรมธรรม์ในงาน Markovian ตัดสินใจตามลำดับ เมื่อตัวแทน RL ใช้การดำเนินการ สิ่งแวดล้อมตอบสนองสัญญาณลงโทษหรือรางวัล ผลป้อนกลับสัญญาณแสดงเกี่ยวกับคุณภาพของการดำเนินการดำเนินการ ตามที่แสดงใน Fig. 2, RL แทนการโต้ตอบกับสภาพแวดล้อมในขั้นตอนเวลาไม่ต่อเนื่อง ในขั้นเวลา t สภาพแวดล้อมเป็นเซนต์ ตัวแทน RL เลือกการดำเนินการที่ ดังนั้น ได้รับผลป้อนกลับ rtanda ใหม่รัฐเซนต์ + 1is ที่กำหนด วงจรนี้จะซ้ำกันจนกระทั่งว่า ตัวแทนเรียนรู้ converges นโยบายที่เหมาะสมเพิ่มผลตอบแทนในอนาคตที่คาด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เสริมสร้างการเรียนรู้ (RL) เป็นวิธีที่มีประสิทธิภาพสำหรับการค้นพบในงานนโยบายการตัดสินใจตามลำดับมาร์คอฟ เมื่อใดก็ตามที่เป็นตัวแทน RL จะดำเนินการตอบสนองต่อสภาพแวดล้อมโดยรางวัลหรือสัญญาณการลงโทษ สัญญาณความคิดเห็นให้ข้อบ่งชี้เกี่ยวกับคุณภาพของการดำเนินการดำเนินการที่ ในฐานะที่เป็นที่ปรากฎในรูป 2 ตัวแทน RL มีปฏิสัมพันธ์กับสภาพแวดล้อมในขั้นตอนเวลาที่ไม่ต่อเนื่อง ที่ t ขั้นตอนเวลาที่รัฐสภาพแวดล้อมที่เป็นเซนต์ ตัวแทน RL เลือกการกระทำที่ ดังนั้นจึงได้รับการตอบรับ rtanda รัฐใหม่เซนต์ + 1is กำหนด รอบนี้ซ้ำจนกว่าว่าตัวแทนการเรียนรู้ที่จะลู่นโยบายที่ดีที่สุดการเพิ่มผลตอบแทนในอนาคตที่คาดว่าจะ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การเรียนรู้แบบเสริมกำลัง ( RL ) เป็นวิธีการที่มีประสิทธิภาพสำหรับการค้นพบในการตัดสินใจนโยบาย markovian ลำดับงาน เมื่อใดก็ตามที่ RL ตัวแทนใช้เวลาปฏิบัติการสิ่งแวดล้อม ตอบสนองโดยการให้รางวัลหรือการลงโทษของสัญญาณ สัญญาณป้อนกลับให้ข้อบ่งชี้เกี่ยวกับคุณภาพของการกระทำ ตามที่ปรากฎในรูปที่ 2 , RL ตัวแทนโต้ตอบกับสิ่งแวดล้อมในขั้นตอนเวลาไม่ต่อเนื่องเวลาที่ขั้นตอนที่ T , สิ่งแวดล้อมรัฐเซนต์ RL ตัวแทนเลือกการกระทำที่ ซึ่งได้รับการตอบรับ rtanda เซนต์ 1is สภาพใหม่แน่นอน รอบนี้ซ้ำจนกว่าตัวแทนเข้าสู่การเรียนรู้ที่เหมาะสม นโยบายการเพิ่ม คาดอนาคตรางวัล

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.