3.1.2 Reward StructureIn order to e

3.1.2 Reward Structure
In order to explore the environment, the scheduler implements an exploration mechanism known as ɛ-greedy action selection: Every DRAM cycle, with a small probability ɛ, the scheduler picks a random (legal) action; at all other times, it picks the (legal) action with the highest Q-value. This guarantees that there is a non-zero probability of visiting every entry in the Q-value matrix.
Each action is associated with an immediate reward. Once action at is picked and the immediate reward is determined, the Q-value prediction associated with the state-action pair
(st-1 , at-1 ) that was picked in the previous cycle t - 1 can be updated using SARSA [32] as follows: Q(st-1 , at-1 )  (1 - ∝)Q(st - 1 , at - 1 ) + ∝[rt + γQ(st , at )] where ∝ is the learning rate, empirically determined;2 rt is the immediate reward collected for the action taken; and 0 ≤ γ < 1 is a discount factor that causes future rewards to be incorporated in the form of a geometric series.3
--------------------------------------
2A high learning rate quickly substitutes past knowledge with new information, whereas a small learning rate incorporates new knowledge slowly.
3 Intuitively, ฮณ can be interpreted as a knob that controls how important future rewards are relative to immediate rewards; larger Y values introduce more foresight at the expense of longer training
times.

3.1.2 Reward Structure
In order to explore the environment, the scheduler implements an exploration mechanism known as ɛ-greedy action selection: Every DRAM cycle, with a small probability ɛ, the scheduler picks a random (legal) action; at all other times, it picks the (legal) action with the highest Q-value. This guarantees that there is a non-zero probability of visiting every entry in the Q-value matrix. 
Each action is associated with an immediate reward. Once action at is picked and the immediate reward is determined, the Q-value prediction associated with the state-action pair
(st-1 , at-1 ) that was picked in the previous cycle t - 1 can be updated using SARSA [32] as follows: Q(st-1 , at-1 )  (1 - ∝)Q(st - 1 , at - 1 ) + ∝[rt + γQ(st , at )] where ∝ is the learning rate, empirically determined;2 rt is the immediate reward collected for the action taken; and 0 ≤ γ < 1 is a discount factor that causes future rewards to be incorporated in the form of a geometric series.3 
--------------------------------------
2A high learning rate quickly substitutes past knowledge with new information, whereas a small learning rate incorporates new knowledge slowly.
3 Intuitively, ฮณ can be interpreted as a knob that controls how important future rewards are relative to immediate rewards; larger Y values introduce more foresight at the expense of longer training
times.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

โครงสร้างรางวัล 3.1.2
เพื่อสำรวจสภาพแวดล้อมกำหนดการดำเนินการสำรวจกลไกที่รู้จักกันเป็นɛโลภการเลือกการกระทำ: ทุกรอบ DRAM ด้วยɛน่าจะเป็นขนาดเล็กกำหนดการเลือกการกระทำ (กฎหมาย) สุ่มที่อื่น ๆ ทั้งหมด ครั้งก็หยิบกระทำ (กฎหมาย) กับสูงสุด Q-valueนี้รับประกันได้ว่ามีความน่าจะเป็นที่ไม่ใช่ศูนย์ของการเยี่ยมชมทุกรายการใน Q-ค่าเมทริกซ์
แต่ละการกระทำที่เกี่ยวข้องกับการให้รางวัลทันที เมื่อการดำเนินการที่จะเลือกและให้รางวัลทันทีจะถูกกำหนด, การทำนาย Q-value ที่เกี่ยวข้องกับคู่รัฐกระทำ-
(St-1 ที่-1) ที่ได้รับเลือกในรอบหน้าที่ T - 1 สามารถปรับปรุงการใช้ Sarsa [ 32] ดังนี้: Q (St-1,ที่-1) ๏ยย (1 - โ) Q (St - 1, ที่ - 1) โ [RT ฮ ณ Q (St, AT)] โดยที่โคืออัตราการเรียนรู้ที่กำหนดสังเกตุ 2 RT เป็นรางวัลทันที ที่เก็บไว้สำหรับการดำเนินการและ 0 โคฮ ณ <1 เป็นปัจจัยส่วนลดที่ทำให้เกิดผลตอบแทนในอนาคตจะรวมอยู่ในรูปแบบของรูปทรงเรขาคณิต series.3
--------------- -----------------------
อัตราการเรียนรู้ 2a สูงทดแทนได้อย่างรวดเร็วผ่านมาความรู้ด้วยข้อมูลใหม่ในขณะที่อัตราการเรียนขนาดเล็กรวมเอาความรู้ใหม่ ๆ
3 อย่างสังหรณ์ใจ, ฮ ณ สามารถตีความได้ว่าลูกบิดที่ควบคุมวิธีการที่ผลตอบแทนในอนาคตที่มีความสำคัญเมื่อเทียบกับผลตอบแทนที่ได้ทันที. ขนาดใหญ่ค่า y ที่แนะนำ มองการณ์ไกลมากขึ้นค่าใช้จ่ายในการฝึกอบรมอีกครั้ง
.

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

3.1.2 รางวัลโครงสร้าง
ออกแบบสิ่งแวดล้อม ตัวจัดกำหนดการใช้กลไกสำรวจที่เรียกว่าเลือกกระทำɛตะกละ: รับรอบทุก DRAM กับɛเป็นความน่าเป็นขนาดเล็ก ตัวจัดกำหนดการของการกระทำ (ทางกฎหมาย) สุ่ม ที่บางครั้ง ได้รับการดำเนินการ (ทางกฎหมาย) กับค่า Q ที่สูงสุด รับประกันว่า มีความน่าเป็นไม่ใช่ศูนย์เยี่ยมทุกรายการในเมตริกซ์ค่า Q
แต่ละการดำเนินการที่สัมพันธ์กับการตอบแทนทันที ถูกเลือก และตัดสินรางวัลทันที ทำนายค่า Q ที่เกี่ยวข้องกับคู่รัฐดำเนินการ
(เซนต์-1 ที่ 1) ที่ได้รับในรอบก่อนหน้า t - 1 สามารถปรับปรุงโดยใช้ SARSA [32] ดัง: Q (เซนต์-1 ที่ 1) (∝ 1 -) Q (เซนต์ - 1 ที่ - 1) ∝ [rt γQ(st, at)] ที่∝คือ อัตราการเรียนรู้ กำหนด empirically; 2 rt เป็นรางวัลทันทีที่รวบรวมสำหรับการดำเนิน และγ < 1 0 ≤คือ ตัวคูณส่วนลดที่ทำให้ผลตอบแทนในอนาคตจะถูกรวมในรูปแบบของ series.3 เรขาคณิต
--
2A สูงอัตราการเรียนรู้อย่างรวดเร็วแทนเลยรู้ข้อมูลใหม่ ในขณะที่อัตราการเรียนรู้ขนาดเล็กประกอบด้วยความรู้ใหม่ช้า ๆ .
3 สังหรณ์ใจ ฮณสามารถตีความเป็นปุ่มที่ใช้ควบคุมความสำคัญอนาคตรางวัลจะเทียบรางวัลทันที ค่า Y ที่มีขนาดใหญ่แนะนำมองอนาคตมากขึ้นค่าใช้จ่ายฝึกอบรมยาว
ครั้ง.

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

3.1.2 รางวัลโครงสร้าง
ซึ่งจะช่วยในการสั่งซื้อเพื่อการสำรวจ สภาพแวดล้อม ที่ตัวจัดตารางเวลาจะใช้กลไกการสำรวจซึ่งเป็นที่รู้จักกันในชื่อการเลือกɛ - ความ โลภ การดำเนินการทุกรอบ DRAM ขนาดเล็กพร้อมด้วยความเป็นไปได้ที่ɛตัวจัดตารางเวลาได้รับการดำเนินการแบบสุ่ม(กฎหมาย)ที่เวลาอื่นๆทั้งหมดได้รับ(กฎหมาย)การดำเนินการที่มี Q - ค่าที่โรงแรมแห่งนี้รับประกันได้ว่ามีโอกาสไม่ใช่ - ไม่มีที่เที่ยวชมรายการทุกครั้งในรายการ Q - ค่า
การดำเนินการแต่ละคนจะมีความเกี่ยวข้องกับรางวัลที่ได้ในทันที เมื่อการดำเนินการที่จะไปรับท่านและรางวัลได้ทันทีที่มีการกำหนดการทำนาย Q - ความคุ้มค่าที่เกี่ยวเนื่องกับรัฐ - การดำเนินการจับคู่
( St - 1 ที่ 1 )ที่ได้รับในรอบก่อนหน้า T - 1 จะสามารถได้รับการปรับปรุงโดยใช้ sarsa [ 32 ]ดังนี้ Q ( ST 1ที่ 1 )  ( 1 - ∝) Q ( St - 1 - 1 )∝[ γq Rt ( ST ที่)]ที่∝คืออัตราการเรียนรู้เชิงประจักษ์ที่กำหนด 2 Rt เป็นรางวัลในทันทีที่เก็บรวบรวมได้ในการดำเนินการและ 0 :≤γ< 1 เป็นปัจจัยส่วนลดที่จะทำให้ผลตอบแทนในอนาคตจะถูกนำมารวมไว้ในรูปแบบของรูปทรงเรขาคณิต series แคช 3

-------------------------------------- ที่2 การเรียนรู้สูงอัตราดอกเบี้ยได้อย่างรวดเร็วผ่านมาใช้แทนความรู้พร้อมด้วยข้อมูลใหม่ในขณะที่อัตราการเรียนรู้ขนาดเล็กที่กลมกลืนเข้ากับความรู้ใหม่อย่างช้าๆ
3 เร่งฮณสามารถได้รับการตีความเมื่อหมุนปุ่มไปที่ทำหน้าที่ควบคุมการรับรางวัลสำคัญอย่างไรในอนาคตจะมีความสัมพันธ์กันเพื่อรับรางวัลทันทีค่า Y ขนาดใหญ่แนะนำมองการณ์ไกลมากขึ้นด้วยค่าใช้จ่ายของการฝึกอบรมอีกต่อไป
ครั้ง

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.