Each action is associated with an i

Each action is associated with an immediate reward. Once action at is picked and the immediate reward is determined, the Q-value prediction associated with the state-action pair
(st-1 , at-1 ) that was picked in the previous cycle t - 1 can be updated using SARSA [32] as follows: Q(st-1 , at-1 ) † (1 - ∝)Q(st - 1 , at - 1 ) + ∝[rt + γQ(st , at )] where ∝ is the learning rate, empirically determined;2 rt is the immediate reward collected for the action taken; and 0 ≤ γ < 1 is a discount factor that causes future rewards to be incorporated in the form of a geometric series.3

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

แต่ละการกระทำที่เกี่ยวข้องกับการให้รางวัลทันที เมื่อการดำเนินการที่จะเลือกและให้รางวัลทันทีจะถูกกำหนด, การทำนาย Q-value ที่เกี่ยวข้องกับคู่รัฐกระทำ-
(St-1 ที่-1) ที่ได้รับเลือกในรอบหน้าที่ T - 1 สามารถปรับปรุงการใช้ Sarsa [ 32] ดังนี้: Q (St-1 ที่-1) ๏โ€ย (1 - โ) Q (St - 1, ที่ - 1) โ [RT ฮ ณ Q (St, AT)] โคือที่ อัตราการเรียนรู้,มุ่งมั่นที่สังเกตุ 2 RT เป็นรางวัลทันทีที่เก็บไว้สำหรับการดำเนินการและ 0 ≤γ <1 เป็นปัจจัยส่วนลดที่ทำให้เกิดผลตอบแทนในอนาคตจะรวมอยู่ในรูปแบบของรูปทรงเรขาคณิต series.3

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

แต่ละการดำเนินการที่สัมพันธ์กับการสะสมทันที ถูกเลือก และตัดสินรางวัลทันที ทำนายค่า Q ที่เกี่ยวข้องกับคู่รัฐดำเนินการ
(เซนต์-1 ที่ 1) ที่ถูกเบิกในรอบก่อนหน้า t - 1 สามารถปรับปรุงโดยใช้ SARSA [32] ดังนี้: Q (เซนต์-1 ที่ 1) † (1 - ∝) Q (เซนต์ - 1 ที่ - 1) ∝ [rt γQ(st, at)] ∝ อัตราการเรียนรู้ กำหนด empirically; 2 rt เป็นรางวัลทันทีที่รวบรวมสำหรับการดำเนิน และγ < 1 0 ≤คือ ตัวคูณส่วนลดที่ทำให้ผลตอบแทนในอนาคตจะถูกรวมในรูปแบบของ series.3 เรขาคณิต

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การดำเนินการแต่ละคนจะมีความเกี่ยวข้องกับรางวัลที่ได้ในทันที เมื่อการดำเนินการที่จะไปรับท่านและรางวัลที่ได้ในทันทีจะถูกกำหนดไว้, Q - มูลค่าการคาดเดาที่เชื่อมโยงกับรัฐ - การดำเนินการจับคู่
( st 1 ,ที่ 1 )ที่ได้รับในรอบก่อนหน้า T - 1 สามารถอัพเดตได้โดยใช้ sarsa [ 32 ]ดังนี้: Q ( st 1 ,ที่ 1 )( software threads )( 1 - ∝) Q ( St - 1 ,ที่ 1 )∝[ Rt γq ( St ,ที่)]ที่∝มีอัตราการเรียนรู้,กำหนดเชิงประจักษ์ 2 Rt เป็นรางวัลทันทีที่เก็บรวบรวมสำหรับการดำเนินการและ 0 :≤γ< 1 จะเป็นปัจจัยที่ทำให้เกิดส่วนลดรางวัลในอนาคตจะนำมารวมไว้ในรูปแบบของรูปทรงเรขาคณิต series แคช 3
ที่

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.