One limitation of the present study is that it only concerned learning tasks without state transition dynamics that can be formulated as Markov decision processes. Although much research in psychology and neuroscience has been conducted using simplified Q-learning models without state variables, as discussed in the Introduction, several studies using RL model-based analyses have examined RL models that incorporate state variables (Daw, Gershman, Seymour, Dayan, & Dolan, 2011; Glไscher, Daw, Dayan, & O’Doherty, 2010). In addition, we have focused on a specific algorithm of RL, i.e., Q-learning. Other algorithms for RL have been used for model-based analyses of choice behavior, e.g., actor-critic algorithm (O’Doherty et al., 2004). Although the scope of the present study is limited, the basic results found here can be applied to the more general case. Other algorithms that incorporate learning state transitions (Daw et al., 2011; Glไscher et al., 2010) essentially employ a sequential update rule, such as a delta rule (as in Q-learning); thus, these algorithms likely produce exponential decay in history dependence. The main results of the present study are the findings that if all of the variables decay at the same speed, then the history dependence can be represented using an appropriate regression model, but if the speeds differ or if updating is stopped when the variable is irrelevant to the current experience, then the history dependency would be more complicated. Future studies are needed to investigate the history dependence of choices in more general RL models, including models that include state variables and models with different learning algorithms.
ข้อ จำกัด ของการศึกษาคือการเรียนรู้งานที่เกี่ยวข้องเฉพาะการเปลี่ยนแปลงได้โดยไม่ต้องเปลี่ยนสภาพที่สามารถนำมาเป็นสูตรกระบวนการตัดสินใจมาร์คอฟ แม้ว่าการวิจัยมากในด้านจิตวิทยาและประสาทได้รับการดำเนินการโดยใช้ง่ายรุ่น Q-การเรียนรู้โดยไม่ต้องตัวแปรของรัฐตามที่กล่าวไว้ในเบื้องต้นการศึกษาหลายการใช้ชีวิตการวิเคราะห์ตามรูปแบบที่มีการตรวจสอบรุ่น RL ที่รวมตัวแปรของรัฐ (นาง, Gershman มัวร์ Dayan และ Dolan 2011; Gl ไ Scher, นาง, Dayan และโดเฮอร์ตี้, 2010) นอกจากนี้เรามีความสำคัญกับขั้นตอนวิธีการที่เฉพาะเจาะจงของ RL เช่น Q-การเรียนรู้ ขั้นตอนวิธีการอื่น ๆ สำหรับ RL ได้ถูกนำมาใช้สำหรับการวิเคราะห์ตามรูปแบบของพฤติกรรมทางเลือกเช่นอัลกอริทึมนักแสดงนักวิจารณ์ (โดเฮอร์ตี้ et al., 2004) แม้ว่าขอบเขตของการศึกษาครั้งนี้มีข้อ จำกัด ผลเบื้องต้นพบว่าที่นี่สามารถนำมาใช้กับกรณีทั่วไปมากขึ้น ขั้นตอนวิธีการอื่น ๆ ที่รวมการเรียนรู้การเปลี่ยนสถานะ (นาง et al, 2011;. Gl. ไ Scher et al, 2010) เป็นหลักจ้างปรับปรุงกฎลำดับเช่นกฎของเดลต้า (ในขณะที่ Q-การเรียนรู้); ดังนั้นขั้นตอนวิธีการเหล่านี้มีแนวโน้มที่ผลิตผุชี้แจงในประวัติศาสตร์การพึ่งพาอาศัยกัน ผลหลักของการศึกษาในปัจจุบันที่มีการค้นพบว่าถ้าทั้งหมดของตัวแปรการสลายตัวที่ความเร็วเดียวกันแล้วพึ่งพาประวัติศาสตร์สามารถแสดงโดยใช้รูปแบบการถดถอยที่เหมาะสม แต่ถ้าความเร็วแตกต่างกันหรือถ้าปรับปรุงจะหยุดการทำงานเมื่อตัวแปรที่ไม่เกี่ยวข้อง ประสบการณ์ในปัจจุบันแล้วพึ่งพาประวัติศาสตร์จะซับซ้อนมากขึ้น การศึกษาในอนาคตที่มีความจำเป็นในการตรวจสอบการพึ่งพาประวัติศาสตร์ของทางเลือกในรูปแบบ RL ทั่วไปมากขึ้นรวมทั้งรุ่นที่มีตัวแปรรัฐและรูปแบบการเรียนรู้กับขั้นตอนวิธีที่แตกต่างกัน
การแปล กรุณารอสักครู่..
หนึ่งข้อ จำกัด ของการศึกษาที่เกี่ยวข้องเท่านั้น โดยไม่มีการเปลี่ยนสถานะของการเรียนรู้งานที่สามารถกำหนดเป็นกระบวนการการตัดสินใจของมาร์คอฟ ถึงแม้ว่าการวิจัยในจิตวิทยาและประสาทวิทยาศาสตร์ได้กำหนดใช้ง่าย q-learning รุ่นโดยไม่ต้องตัวแปรสภาวะ ตามที่กล่าวไว้ในเบื้องต้นการศึกษาหลายแห่งใช้สำหรับตรวจวิเคราะห์มี RL RL รุ่นที่รวมตัวแปรสถานะ ( ดอว์เซย์ดายัน , Admin , , , & Dolan , 2011 ; GL ไ Scher , นางดายัน , & o'doherty , 2010 ) นอกจากนี้ เราต้องเน้นขั้นตอนวิธีการเฉพาะของ RL ( q-learning . ขั้นตอนวิธีอื่นๆสำหรับ RL ได้ใช้สำหรับวิเคราะห์พฤติกรรมของทางเลือกเช่นนักแสดงนักวิจารณ์ขั้นตอนวิธี ( o'doherty et al . , 2004 ) ถึงแม้ว่าขอบเขตของการศึกษาจะ จำกัด ผลลัพธ์เบื้องต้นพบที่นี่สามารถใช้ได้กับกรณีทั่วไปมากขึ้น อัลกอริทึมอื่น ๆที่จะรวมการเรียนรู้ รัฐเปลี่ยน ( นาง et al . , 2011 ; GL ไ เชอร์ et al . , 2010 ) เป็นหลัก ใช้กฎปรับปรุงต่อเนื่อง เช่น เดลต้า กฎ ( เช่นใน q-learning ) ; ดังนั้นขั้นตอนวิธีการเหล่านี้อาจสร้างผุชี้แจงในการพึ่งพาประวัติศาสตร์ ผลลัพธ์หลักของการศึกษาปัจจุบันมีการค้นพบว่า ถ้าตัวแปรทั้งหมดสลายที่ความเร็วเดียวกันแล้วพึ่งพาประวัติศาสตร์สามารถแสดงโดยใช้รูปแบบสมการถดถอยที่เหมาะสม แต่ถ้าความเร็วที่แตกต่างกัน หรือ ถ้าปรับปรุงจะหยุดเมื่อตัวแปรที่ไม่เกี่ยวข้องกับประสบการณ์ปัจจุบันแล้วอ้างอิงประวัติศาสตร์จะซับซ้อนมากขึ้น การศึกษาในอนาคตจะต้องตรวจสอบประวัติของการเลือกในรุ่น RL ทั่วไปมากขึ้นรวมถึงโมเดลที่ประกอบด้วยตัวแปรสถานะและรูปแบบการเรียนรู้ที่แตกต่างกัน อัลกอริทึม
การแปล กรุณารอสักครู่..