Below, we summarize how the RL-mode

Below, we summarize how the RL-model parameters are related to the history dependence of choice; a portion of these results
was obtained in the present study. First, the learning rate αL
largely
controls how the weights for past outcomes are balanced, i.e., how
much the model weighs more recent outcomes compared to outcomes in the more distant past. In the F-Q model (αL = αF ), the learning rate does not influence the total weight (the sum of the
regression coefficients for reward history). However, we demonstrated that if the learning rate and the forgetting rate differ, then
the total weight can be a decreasing function of the learning rate.
This finding implies that increasing αL does not necessarily lead
to an increase in the cumulative effect of the recent reward history. Therefore, the value of the learning rate should be interpreted
with caution. The inverse temperature β and the outcome value κ
had essentially the same effect on the history dependence unless
the outcome values varied for different outcomes. These parameters uniformly and multiplicatively control the weights for past
events. Thus, the summed influence of the past reward history is a
monotonically increasing function of these parameters. The residual choice-autocorrelation factor Ci(t) has an additive effect on the
dependence on choice history. In the general case, this factor may
modulate the dependence on reward history.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ด้านล่าง เราสรุปวิธีพารามิเตอร์ RL รุ่นเกี่ยวข้องกับการพึ่งพาประวัติของเลือก ส่วนของผลลัพธ์เหล่านี้ได้รับในการศึกษา ครั้งแรก การเรียนรู้อัตรา αLส่วนใหญ่ควบคุมวิธีน้ำหนักผลที่ผ่านมามีความสมดุล เช่น วิธีมากรูปแบบน้ำหนักเมื่อเทียบกับผลที่ได้ในอดีตไกลกว่าผลล่าสุด ในรูปแบบ F Q (αL = αF), อัตราการเรียนรู้มีอิทธิพลต่อน้ำหนักรวม (ผลรวมของการสัมประสิทธิ์ของปัญหาสำหรับรางวัลประวัติ) อย่างไรก็ตาม เราแสดงให้เห็นว่าถ้าอัตราการเรียนรู้และอัตราลืมแตกต่างกัน แล้วน้ำหนักรวมได้ฟังก์ชันลดลงของอัตราการเรียนรู้พบนี้บ่งชี้ว่า เพิ่ม αL ไม่จำเป็นต้องนำเพื่อการเพิ่มผลสะสมของประวัติรางวัลล่าสุด ดังนั้น มูลค่าของอัตราการเรียนรู้ควรจะตีความด้วยความระมัดระวัง Βอุณหภูมิผกผันและκค่าผลการมีหลักเดียวกันผลกระทบต่อการพึ่งพาประวัติเว้นแต่ค่าผลลัพธ์ที่แตกต่างกันสำหรับผลแตกต่างกัน พารามิเตอร์เหล่านี้อย่างสม่ำเสมอ และ multiplicatively ควบคุมน้ำหนักสำหรับอดีตเหตุการณ์ อิทธิพล summed ของประวัติรางวัลในอดีตจึงเป็นเส้นเพิ่มฟังก์ชันของพารามิเตอร์เหล่านี้ ปัจจัยเหลือเลือก-autocorrelation Ci(t) มีผลสารเติมแต่งพึ่งเลือกประวัติ ในกรณีทั่วไป ปัจจัยนี้อาจปรับพึ่งประวัติรางวัล

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ด้านล่างเราสรุปว่าค่าพารามิเตอร์ RL-รูปแบบที่เกี่ยวข้องกับการพึ่งพาประวัติศาสตร์ของทางเลือก เป็นส่วนหนึ่งของผลเหล่านี้
ได้รับการศึกษาในปัจจุบัน ครั้งแรกที่อัตราการเรียนรู้αL
ส่วนใหญ่
จะควบคุมน้ำหนักสำหรับผลที่ผ่านมามีความสมดุลคือวิธี
มากรุ่นน้ำหนักผลที่ผ่านมาเมื่อเทียบกับผลในอดีตไกลมากขึ้น ในรูปแบบ FQ นี้ (αL = αF) อัตราการเรียนรู้ไม่ได้มีผลต่อน้ำหนักรวม (ผลรวมของ
ค่าสัมประสิทธิ์การถดถอยสำหรับประวัติรางวัล) แต่เราแสดงให้เห็นว่าหากอัตราการเรียนรู้และอัตราลืมที่แตกต่างกันแล้ว
น้ำหนักรวมอาจจะเป็นฟังก์ชั่นการลดลงของอัตราการเรียนรู้.
การค้นพบนี้แสดงให้เห็นว่าการเพิ่มαLไม่จำเป็นต้องนำไปสู่
การเพิ่มขึ้นของผลสะสมของรางวัลเมื่อเร็ว ๆ นี้ ประวัติศาสตร์ ดังนั้นค่าของอัตราการเรียนรู้ควรจะตีความ
ด้วยความระมัดระวัง βอุณหภูมิผกผันและκค่าผลที่
มีหลักผลเช่นเดียวกันกับการพึ่งพาประวัติศาสตร์เว้นแต่
ค่าผลที่แตกต่างกันสำหรับผลลัพธ์ที่แตกต่าง พารามิเตอร์เหล่านี้อย่างสม่ำเสมอและ multiplicatively ควบคุมน้ำหนักสำหรับที่ผ่านมา
เหตุการณ์ที่เกิดขึ้น ดังนั้นอิทธิพลสรุปของประวัติศาสตร์ที่ผ่านมาได้รับรางวัลเป็น
ฟังก์ชั่นที่เพิ่มขึ้นของ monotonically พารามิเตอร์เหล่านี้ การตกค้างทางเลือกอัตปัจจัย Ci (t) มีผลกระทบสารเติมแต่งใน
การพึ่งพาประวัติศาสตร์ทางเลือก ในกรณีทั่วไปปัจจัยนี้อาจ
ปรับเปลี่ยนการพึ่งพาประวัติศาสตร์รางวัล

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ด้านล่าง , เราสรุปแล้วรุ่น RL พารามิเตอร์ที่เกี่ยวข้องกับประวัติศาสตร์การเลือก ส่วนของผลลัพธ์เหล่านี้ได้ในการศึกษาปัจจุบัน แรกอัตราการเรียนรู้α lส่วนใหญ่การควบคุมวิธีน้ำหนักผลที่ผ่านมามีความสมดุล คือ อย่างไรมากแบบหนักผลล่าสุดเมื่อเทียบกับผลในอดีตที่ไกลมากขึ้น . ใน f-q แบบ ( α L = α F ) อัตราการเรียนรู้ไม่ได้มีผลต่อน้ำหนักรวม ( ผลรวมของสัมประสิทธิ์ถดถอยประวัติศาสตร์รางวัล ) อย่างไรก็ตาม เราพบว่าถ้าอัตราการเรียนรู้และการลืมคะแนนแตกต่างกัน แล้วน้ำหนักรวมจะเป็นฟังก์ชันลดของอัตราการเรียนรู้ค้นหาการเพิ่มαผมเห็นว่าไม่จำเป็นต้องนำการเพิ่มขึ้นของผลสะสมของประวัติศาสตร์รางวัลล่าสุด ดังนั้นค่าอัตราการเรียนรู้ ควร จะ แปลด้วยความระมัดระวัง อุณหภูมิผกผันและผลค่าκบีตามีหลักเดียวกันมีผลต่อการพึ่งพาประวัติศาสตร์ เว้นแต่ผลค่าแตกต่างกันสำหรับผลลัพธ์ที่แตกต่างกัน พารามิเตอร์เหล่านี้อย่างสม่ำเสมอ ควบคุมน้ำหนัก และ multiplicatively ในอดีตเหตุการณ์ ดังนั้น สรุปอิทธิพลของประวัติศาสตร์ที่ผ่านมา เป็นรางวัลฟังก์ชันเพิ่มทางเดียวฟังก์ชันของพารามิเตอร์เหล่านี้ ที่เหลือเลือกข้อมูลปัจจัย CI ( T ) มีลักษณะพิเศษการบวกบนพึ่งพาประวัติศาสตร์ทางเลือก ในกรณีทั่วไป ปัจจัยนี้อาจการพึ่งพาประวัติศาสตร์รางวัล

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.