In this paper, SARSA, a well-known

In this paper, SARSA, a well-known TD algorithm (see Fig. 3), is used. It is based on evaluation of action-value function denoted by Q(s, a). This latter estimates the expected future reward to the agent when it performs a given action, a, in a given state, s, and follows the policy thereafter. At every time step, SARSA updates the action-value function Qusing the quintuple (st, at, rt, st+1, at+1),which gives rise to the name of the algorithm. SARSA is an on-policy RL algorithm. It uses the learned policy not only to take decisions

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ในเอกสารนี้ SARSA อัลกอริทึมการ TD รู้จัก (ดู Fig. 3), ใช้ โดยมีการประเมินค่าการกระทำฟังก์ชันสามารถบุจาก Q (s คำ) หลังนี้ประเมินตัวแทนรางวัลในอนาคตคาดไว้เมื่อทำการกระทำที่กำหนดให้ การ การกำหนด s และดังนี้นโยบายหลังจากนั้น ในทุกขั้นตอนเวลา SARSA ปรับปรุงฟังก์ชันการดำเนินการค่า Q ที่ใช้ในห้องสแตน (st ที่ rt เซนต์ + 1, at + 1), ให้ที่ขึ้นชื่อของอัลกอริทึม SARSA เป็นอัลกอริทึม RL ในนโยบายการ ใช้นโยบายการเรียนรู้ไม่เพียงแต่การตัดสินใจ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ในบทความนี้ SARSA, TD อัลกอริทึมที่รู้จักกันดี (ดูรูปที่. 3) ถูกนำมาใช้ มันขึ้นอยู่กับการประเมินผลการทำงานของการดำเนินการตามตัวอักษรแสดงโดย Q (S, A) หลังนี้ประมาณการผลตอบแทนที่คาดว่าไปยังตัวแทนเมื่อจะดำเนินการกระทำที่กำหนดในรัฐที่กำหนด s และตามนโยบายหรือไม่ หลังจากนั้น ในทุกขั้นตอนเวลา SARSA ปรับปรุงฟังก์ชั่นการกระทำที่มีมูลค่า Q? ใช้ห้าเท่า (ST ที่, RT, St + 1, ที่ + 1) ซึ่งก่อให้เกิดชื่อของอัลกอริทึม SARSA เป็นนโยบายขั้นตอนวิธี RL จะใช้นโยบายการเรียนรู้ไม่เพียง แต่จะใช้เวลาในการตัดสินใจ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ในกระดาษนี้ , ซอส , ขั้นตอนวิธี TD ที่รู้จักกันดี ( ดูรูปที่ 3 ) , ใช้ มันขึ้นอยู่กับการกระทำของการประเมินค่าฟังก์ชันเขียนแทนด้วย Q ( s ) หลังนี้ประมาณการคาดว่าในอนาคตบำเหน็จตัวแทนเมื่อดำเนินการให้การกระทำ เพื่อให้รัฐ และตามนโยบาย หลังจากนั้น เวลาที่ทุกขั้นตอน , ซอสปรับปรุงฟังก์ชันค่าปฏิบัติการ Q ใช้เท่า ( St , ที่ , RT , เซนต์ 11 ) ซึ่งจะช่วยให้เพิ่มชื่อของขั้นตอนวิธี ซอสเป็นขั้นตอนวิธี RL ในนโยบาย มันใช้เรียนรู้ไม่เพียง แต่จะใช้เวลาในการตัดสินใจนโยบาย

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.