The effects of the reinforcement sc

The effects of the reinforcement schedule Our analytical calculation demonstrated that for the special case where the forgetting rate αF equals the learning rate αL, the regression coefficient is determined independent of the task structure, i.e., the reinforcement schedule. For the general case where αL ̸= αF , however, the reinforcement schedule may affect the influence of the previous reward history because the impact of the reward history depends on the number of the same choices after the reward is given, as shown in Eq. (21). To examine this effect, first, we conducted a simulation with varying reward probabilities for the optimal option (pr ) from 0.5 to 0.9 (with reward probability for the non-optimal option being 1−pr ). Fig. 4(A) shows the regression coefficients obtained by the simulation. The closer to 0.5 that pr was (the more difficult it is to discriminate the optimal choice), the smaller the decay of the regression coefficients, although the effect was weak. This result is explained as follows. When the difference in reward probabilities of two options is small, the difference between two action values tends to be small; thus, the model is likely to switch the choice. Therefore, the number times the same option is repeated becomes smaller, which leads to a smaller decay of the influence of reward history.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ผลของการกำหนดการเสริมแรงการคำนวณวิเคราะห์ของเราแสดงว่า สำหรับกรณีพิเศษที่การลืมอัตรา αF เท่ากับที่การเรียนรู้อันดับ αL ค่าสัมประสิทธิ์การถดถอยจะถูกกำหนดขึ้นอยู่กับงานโครงสร้าง เช่น กำหนดการเสริมแรงการ สำหรับกรณีทั่วไปซึ่ง αL ̸ = αF อย่างไรก็ตาม กำหนดการเสริมอาจมีผลต่ออิทธิพลของประวัติรางวัลก่อนหน้านี้เนื่องจากผลกระทบของประวัติรางวัลขึ้นอยู่กับจำนวนตัวเลือกเดียวกันหลังจากได้รับรางวัล ดังที่แสดงใน Eq. (21) เพื่อตรวจสอบลักษณะพิเศษนี้ แรก เราดำเนินการจำลองกับรางวัลกิจกรรมสำหรับตัวเลือกที่ดีที่สุด (ประชาสัมพันธ์) แตกต่างกันจาก 0.5 กับ 0.9 (ด้วยความน่าเป็นรางวัลสำหรับตัวไม่เหมาะสมที่เป็น 1−pr) Fig. 4(A) แสดงสัมประสิทธิ์การถดถอยที่ได้รับ โดยการจำลอง ใกล้จะถึง 0.5 pr ที่ได้ (ยากที่จะเหยียดตัวเลือกดีที่สุด), ผุขนาดเล็กของสัมประสิทธิ์การถดถอย แม้ว่าคืออ่อนแอ ผลนี้มีอธิบายดังนี้ เมื่อความแตกต่างในกิจกรรมรางวัลสองอ็อพชันมีขนาดเล็ก ความแตกต่างระหว่างค่าสองค่าดำเนินการมีแนวโน้มที่มีขนาดเล็ก ดังนั้น แบบมีโอกาสที่จะสลับตัวเลือก ดังนั้น เลขตัวเดียวเวลามีซ้ำกลายเป็นเล็ก ซึ่งนำไปสู่การผุเล็กมีอิทธิพลสะสมประวัติศาสตร์

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ผลของการเสริมแรงการคำนวณกำหนดเวลาการวิเคราะห์ของเราแสดงให้เห็นว่าเป็นกรณีพิเศษที่อัตราลืมαFเท่ากับอัตราการเรียนรู้αLค่าสัมประสิทธิ์การถดถอยจะถูกกำหนดเป็นอิสระจากโครงสร้างงานคือช่วงเวลาที่การเสริมแรง สำหรับกรณีทั่วไปที่αL̸ = αF แต่ตารางเวลาการเสริมแรงอาจมีผลต่ออิทธิพลของประวัติศาสตร์รางวัลก่อนหน้านี้เนื่องจากผลกระทบของประวัติศาสตร์รางวัลขึ้นอยู่กับจำนวนของตัวเลือกเดียวกันหลังจากที่ได้รับรางวัลจะได้รับดังแสดงในสมการ (21) เพื่อตรวจสอบผลกระทบนี้เป็นครั้งแรกที่เราได้ทำการจำลองที่แตกต่างกันน่าจะเป็นรางวัลสำหรับการที่ดีที่สุดตัวเลือก (PR) 0.5-0.9 (มีความน่าจะเป็นรางวัลสำหรับตัวเลือกที่ไม่เหมาะสมเป็น 1 ราคา) รูป 4 (A) แสดงให้เห็นว่าค่าสัมประสิทธิ์การถดถอยที่ได้จากการจำลอง ใกล้ชิดกับ 0.5 ที่ราคาเป็น (ที่ยากขึ้นก็คือการเลือกปฏิบัติทางเลือกที่ดีที่สุด) ที่มีขนาดเล็กการสลายตัวของค่าสัมประสิทธิ์การถดถอยแม้ว่าผลที่อ่อนแอ ผลที่ได้นี้จะมีการอธิบายดังต่อไปนี้ เมื่อความแตกต่างในความน่าจะเป็นรางวัลของสองตัวเลือกที่มีขนาดเล็กแตกต่างระหว่างสองค่าการกระทำที่มีแนวโน้มที่จะมีขนาดเล็ก; ดังนั้นรูปแบบที่มีแนวโน้มที่จะเปลี่ยนทางเลือก ดังนั้นจำนวนครั้งตัวเลือกเดียวซ้ำแล้วซ้ำอีกจะมีขนาดเล็กซึ่งนำไปสู่การสลายตัวที่มีขนาดเล็กที่มีอิทธิพลของประวัติศาสตร์รางวัล

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ผลของการเสริมแรงตารางการคำนวณการวิเคราะห์ของเราแสดงให้เห็นว่าสำหรับพิเศษกรณีที่ลืมคะแนนα F เท่ากับอัตราαผมการเรียนรู้ การกำหนดค่าอิสระของโครงสร้างงานเช่น การกำหนดการ สำหรับกรณีทั่วไปที่αผม̸ = α F , อย่างไรก็ตามเสริมตารางอาจส่งผลกระทบต่ออิทธิพลของประวัติรางวัลก่อนหน้านี้เนื่องจากผลกระทบของรางวัลประวัติศาสตร์ขึ้นอยู่กับจำนวนของตัวเลือกเดียวกันหลัง รางวัลที่ได้รับ ดังแสดงในอีคิว ( 21 ) เพื่อศึกษาผลกระทบนี้ครั้งแรก เราทำการจำลองซึ่งน่าจะเป็นรางวัลสำหรับตัวเลือกที่เหมาะสม ( PR ) จาก 0.5 เป็น 09 ( กับรางวัลความน่าจะเป็นเพื่อไม่ที่ดีที่สุดตัวเลือก 1 − PR ) รูปที่ 4 ( ก ) แสดงสัมประสิทธิ์ถดถอยที่ได้จากการจำลอง ใกล้ถึง 0.5 ที่ประชาสัมพันธ์ ( ยากมันคือทางเลือกที่เหมาะสมการจำแนก ) ที่มีการสลายตัวของสัมประสิทธิ์ถดถอย แม้ว่าผลอ่อน ผลที่ได้นี้ มีอธิบายดังนี้เมื่อความแตกต่างในความน่าจะเป็นของรางวัลสองตัวเลือกมีขนาดเล็ก ความแตกต่างระหว่างสองการกระทำค่ามีแนวโน้มที่จะมีขนาดเล็ก ดังนั้น รูปแบบมีแนวโน้มที่จะเปลี่ยนเลือก ดังนั้นจำนวนครั้งเหมือนกันตัวเลือกซ้ำกลายเป็นเล็ก ซึ่งจะนำไปสู่ฟันผุขนาดเล็กของอิทธิพลของประวัติศาสตร์รางวัล

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.