3.1.2 Reward StructureIn order to e

3.1.2 Reward Structure
In order to explore the environment, the scheduler implements an exploration mechanism known as ɛ-greedy action selection: Every DRAM cycle, with a small probability ɛ, the scheduler picks a random (legal) action; at all other times, it picks the (legal) action with the highest Q-value. This guarantees that there is a non-zero probability of visiting every entry in the Q-value matrix.
Each action is associated with an immediate reward. Once action at is picked and the immediate reward is determined, the Q-value prediction associated with the state-action pair
(st-1 , at-1 ) that was picked in the previous cycle t - 1 can be updated using SARSA [32] as follows: Q(st-1 , at-1 )  (1 - ∝)Q(st - 1 , at - 1 ) + ∝[rt + γQ(st , at )] where ∝ is the learning rate, empirically determined;2 rt is the immediate reward collected for the action taken; and 0 ≤ γ < 1 is a discount factor that causes future rewards to be incorporated in the form of a geometric series.3
--------------------------------------

3.1.2 Reward Structure
In order to explore the environment, the scheduler implements an exploration mechanism known as ɛ-greedy action selection: Every DRAM cycle, with a small probability ɛ, the scheduler picks a random (legal) action; at all other times, it picks the (legal) action with the highest Q-value. This guarantees that there is a non-zero probability of visiting every entry in the Q-value matrix. 
Each action is associated with an immediate reward. Once action at is picked and the immediate reward is determined, the Q-value prediction associated with the state-action pair
(st-1 , at-1 ) that was picked in the previous cycle t - 1 can be updated using SARSA [32] as follows: Q(st-1 , at-1 )  (1 - ∝)Q(st - 1 , at - 1 ) + ∝[rt + γQ(st , at )] where ∝ is the learning rate, empirically determined;2 rt is the immediate reward collected for the action taken; and 0 ≤ γ < 1 is a discount factor that causes future rewards to be incorporated in the form of a geometric series.3 
--------------------------------------

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

โครงสร้างรางวัล 3.1.2
เพื่อสำรวจสภาพแวดล้อมกำหนดการดำเนินการสำรวจกลไกที่รู้จักกันเป็นɛโลภการเลือกการกระทำ: ทุกรอบ DRAM ด้วยɛน่าจะเป็นขนาดเล็กกำหนดการเลือกการกระทำ (กฎหมาย) สุ่มที่อื่น ๆ ทั้งหมด ครั้งก็หยิบกระทำ (กฎหมาย) กับสูงสุด Q-valueนี้รับประกันได้ว่ามีความน่าจะเป็นที่ไม่ใช่ศูนย์ของการเยี่ยมชมทุกรายการใน Q-ค่าเมทริกซ์
แต่ละการกระทำที่เกี่ยวข้องกับการให้รางวัลทันที เมื่อการดำเนินการที่จะเลือกและให้รางวัลทันทีจะถูกกำหนด, การทำนาย Q-value ที่เกี่ยวข้องกับคู่รัฐกระทำ-
(St-1 ที่-1) ที่ได้รับเลือกในรอบหน้าที่ T - 1 สามารถปรับปรุงการใช้ Sarsa [ 32] ดังนี้: Q (St-1,ที่-1) ๏ยย (1 - โ) Q (St - 1, ที่ - 1) โ [RT ฮ ณ Q (St, AT)] โดยที่โคืออัตราการเรียนรู้ที่กำหนดสังเกตุ 2 RT เป็นรางวัลทันที ที่เก็บไว้สำหรับการดำเนินการและ 0 โคฮ ณ <1 เป็นปัจจัยส่วนลดที่ทำให้เกิดผลตอบแทนในอนาคตจะรวมอยู่ในรูปแบบของรูปทรงเรขาคณิต series.3
--------------- -----------------------

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

3.1.2 รางวัลโครงสร้าง
ออกแบบสิ่งแวดล้อม ตัวจัดกำหนดการใช้กลไกสำรวจที่เรียกว่าเลือกกระทำɛตะกละ: รับรอบทุก DRAM กับɛเป็นความน่าเป็นขนาดเล็ก ตัวจัดกำหนดการของการกระทำ (ทางกฎหมาย) สุ่ม ที่บางครั้ง ได้รับการดำเนินการ (ทางกฎหมาย) กับค่า Q ที่สูงสุด รับประกันว่า มีความน่าเป็นไม่ใช่ศูนย์เยี่ยมทุกรายการในเมตริกซ์ค่า Q
แต่ละการดำเนินการที่สัมพันธ์กับการตอบแทนทันที ถูกเลือก และตัดสินรางวัลทันที ทำนายค่า Q ที่เกี่ยวข้องกับคู่รัฐดำเนินการ
(เซนต์-1 ที่ 1) ที่ได้รับในรอบก่อนหน้า t - 1 สามารถปรับปรุงโดยใช้ SARSA [32] ดัง: Q (เซนต์-1 ที่ 1) (∝ 1 -) Q (เซนต์ - 1 ที่ - 1) ∝ [rt γQ(st, at)] ที่∝คือ อัตราการเรียนรู้ กำหนด empirically; 2 rt เป็นรางวัลทันทีที่รวบรวมสำหรับการดำเนิน และγ < 1 0 ≤คือ ตัวคูณส่วนลดที่ทำให้ผลตอบแทนในอนาคตจะถูกรวมในรูปแบบของ series.3 เรขาคณิต
--

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

3.1.2 รางวัลโครงสร้าง
ซึ่งจะช่วยในการสั่งซื้อเพื่อการสำรวจ สภาพแวดล้อม ที่ตัวจัดตารางเวลาจะใช้กลไกการสำรวจซึ่งเป็นที่รู้จักกันในชื่อการเลือกɛ - ความ โลภ การดำเนินการทุกรอบ DRAM ขนาดเล็กพร้อมด้วยความเป็นไปได้ที่ɛตัวจัดตารางเวลาได้รับการดำเนินการแบบสุ่ม(กฎหมาย)ที่เวลาอื่นๆทั้งหมดได้รับ(กฎหมาย)การดำเนินการที่มี Q - ค่าที่โรงแรมแห่งนี้รับประกันได้ว่ามีโอกาสไม่ใช่ - ไม่มีที่เที่ยวชมรายการทุกครั้งในรายการ Q - ค่า
การดำเนินการแต่ละคนจะมีความเกี่ยวข้องกับรางวัลที่ได้ในทันที เมื่อการดำเนินการที่จะไปรับท่านและรางวัลได้ทันทีที่มีการกำหนดการทำนาย Q - ความคุ้มค่าที่เกี่ยวเนื่องกับรัฐ - การดำเนินการจับคู่
( St - 1 ที่ 1 )ที่ได้รับในรอบก่อนหน้า T - 1 จะสามารถได้รับการปรับปรุงโดยใช้ sarsa [ 32 ]ดังนี้ Q ( ST 1ที่ 1 )  ( 1 - ∝) Q ( St - 1 - 1 )∝[ γq Rt ( ST ที่)]ที่∝คืออัตราการเรียนรู้เชิงประจักษ์ที่กำหนด 2 Rt เป็นรางวัลในทันทีที่เก็บรวบรวมได้ในการดำเนินการและ 0 :≤γ< 1 เป็นปัจจัยส่วนลดที่จะทำให้ผลตอบแทนในอนาคตจะถูกนำมารวมไว้ในรูปแบบของรูปทรงเรขาคณิต series แคช 3

-------------------------------------- ที่

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.