One limitation of the present study

One limitation of the present study is that it only concerned learning tasks without state transition dynamics that can be formulated as Markov decision processes. Although much research in psychology and neuroscience has been conducted using simplified Q-learning models without state variables, as discussed in the Introduction, several studies using RL model-based analyses have examined RL models that incorporate state variables (Daw, Gershman, Seymour, Dayan, & Dolan, 2011; Glไscher, Daw, Dayan, & O’Doherty, 2010). In addition, we have focused on a specific algorithm of RL, i.e., Q-learning. Other algorithms for RL have been used for model-based analyses of choice behavior, e.g., actor-critic algorithm (O’Doherty et al., 2004). Although the scope of the present study is limited, the basic results found here can be applied to the more general case. Other algorithms that incorporate learning state transitions (Daw et al., 2011; Glไscher et al., 2010) essentially employ a sequential update rule, such as a delta rule (as in Q-learning); thus, these algorithms likely produce exponential decay in history dependence. The main results of the present study are the findings that if all of the variables decay at the same speed, then the history dependence can be represented using an appropriate regression model, but if the speeds differ or if updating is stopped when the variable is irrelevant to the current experience, then the history dependency would be more complicated. Future studies are needed to investigate the history dependence of choices in more general RL models, including models that include state variables and models with different learning algorithms.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ข้อจำกัดหนึ่งของการศึกษาปัจจุบันคือ ว่า มันเฉพาะเกี่ยวข้องเรียนรู้งาน โดย dynamics เปลี่ยนสถานะที่สามารถจะถูกกำหนดเป็นกระบวนการตัดสินใจของ Markov แม้ว่างานวิจัยมากในจิตวิทยาและประสาทวิทยาศาสตร์ได้ดำเนิน การใช้ตามที่อธิบายไว้ในบทนำ ศึกษาหลายใช้ RL รุ่น Q-เรียนรู้ภาษา โดยตัวแปรรัฐ วิเคราะห์ตามแบบจำลองมีตรวจสอบรุ่น RL ที่แปรรัฐ (โอ Gershman ซีมัวร์ ดายัน และ Dolan, 2011 Glไscher โอ ดายัน & O'Doherty, 2010) นอกจากนี้ เราได้เน้นอัลกอริทึมเฉพาะของ RL เช่น Q-เรียนรู้ มีการใช้อัลกอริทึมอื่น ๆ สำหรับ RL สำหรับวิเคราะห์ตามรูปแบบของพฤติกรรมทาง เช่น นักวิจารณ์อัลกอริทึม (O'Doherty et al., 2004) แม้ว่าขอบเขตของการศึกษาปัจจุบันถูกจำกัด ผลลัพธ์เบื้องต้นที่พบที่นี่สามารถใช้กับกรณีทั่วไป อัลกอริทึมอื่น ๆ ที่รวมเรียนเปลี่ยนสถานะ (โอร้อยเอ็ด al., 2011 Glไscher et al., 2010) เป็นใช้กฎการปรับปรุงตามลำดับ เช่นกฎเดลต้า (ใน Q-เรียน); ดังนั้น กระบวนการเหล่านี้มีแนวโน้มผลิตผุเนนในประวัติพึ่งพา ผลลัพธ์หลักของการศึกษาปัจจุบันมีผลการวิจัยที่ ถ้าตัวแปรทั้งหมดเสื่อมสลายที่ความเร็วเดียวกัน แล้วสามารถแสดงการอาศัยประวัติโดยใช้แบบจำลองถดถอยที่เหมาะสม แต่ ถ้าความเร็วแตกต่างกัน หรือ ถ้าปรับปรุงจะหยุดเมื่อตัวแปรมีความเกี่ยวข้องกับประสบการณ์ปัจจุบัน นั้นอ้างอิงประวัติศาสตร์จะซับซ้อนมากขึ้น การศึกษาในอนาคตจำเป็นต้องตรวจสอบประวัติการอาศัยตัวเลือกในรุ่น RL ทั่วไป รวมถึงแบบจำลองที่มีตัวแปรรัฐและรุ่นที่ มีอัลกอริทึมการเรียนรู้ที่แตกต่างกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ข้อ จำกัด ของการศึกษาคือการเรียนรู้งานที่เกี่ยวข้องเฉพาะการเปลี่ยนแปลงได้โดยไม่ต้องเปลี่ยนสภาพที่สามารถนำมาเป็นสูตรกระบวนการตัดสินใจมาร์คอฟ แม้ว่าการวิจัยมากในด้านจิตวิทยาและประสาทได้รับการดำเนินการโดยใช้ง่ายรุ่น Q-การเรียนรู้โดยไม่ต้องตัวแปรของรัฐตามที่กล่าวไว้ในเบื้องต้นการศึกษาหลายการใช้ชีวิตการวิเคราะห์ตามรูปแบบที่มีการตรวจสอบรุ่น RL ที่รวมตัวแปรของรัฐ (นาง, Gershman มัวร์ Dayan และ Dolan 2011; Gl ไ Scher, นาง, Dayan และโดเฮอร์ตี้, 2010) นอกจากนี้เรามีความสำคัญกับขั้นตอนวิธีการที่เฉพาะเจาะจงของ RL เช่น Q-การเรียนรู้ ขั้นตอนวิธีการอื่น ๆ สำหรับ RL ได้ถูกนำมาใช้สำหรับการวิเคราะห์ตามรูปแบบของพฤติกรรมทางเลือกเช่นอัลกอริทึมนักแสดงนักวิจารณ์ (โดเฮอร์ตี้ et al., 2004) แม้ว่าขอบเขตของการศึกษาครั้งนี้มีข้อ จำกัด ผลเบื้องต้นพบว่าที่นี่สามารถนำมาใช้กับกรณีทั่วไปมากขึ้น ขั้นตอนวิธีการอื่น ๆ ที่รวมการเรียนรู้การเปลี่ยนสถานะ (นาง et al, 2011;. Gl. ไ Scher et al, 2010) เป็นหลักจ้างปรับปรุงกฎลำดับเช่นกฎของเดลต้า (ในขณะที่ Q-การเรียนรู้); ดังนั้นขั้นตอนวิธีการเหล่านี้มีแนวโน้มที่ผลิตผุชี้แจงในประวัติศาสตร์การพึ่งพาอาศัยกัน ผลหลักของการศึกษาในปัจจุบันที่มีการค้นพบว่าถ้าทั้งหมดของตัวแปรการสลายตัวที่ความเร็วเดียวกันแล้วพึ่งพาประวัติศาสตร์สามารถแสดงโดยใช้รูปแบบการถดถอยที่เหมาะสม แต่ถ้าความเร็วแตกต่างกันหรือถ้าปรับปรุงจะหยุดการทำงานเมื่อตัวแปรที่ไม่เกี่ยวข้อง ประสบการณ์ในปัจจุบันแล้วพึ่งพาประวัติศาสตร์จะซับซ้อนมากขึ้น การศึกษาในอนาคตที่มีความจำเป็นในการตรวจสอบการพึ่งพาประวัติศาสตร์ของทางเลือกในรูปแบบ RL ทั่วไปมากขึ้นรวมทั้งรุ่นที่มีตัวแปรรัฐและรูปแบบการเรียนรู้กับขั้นตอนวิธีที่แตกต่างกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

หนึ่งข้อ จำกัด ของการศึกษาที่เกี่ยวข้องเท่านั้น โดยไม่มีการเปลี่ยนสถานะของการเรียนรู้งานที่สามารถกำหนดเป็นกระบวนการการตัดสินใจของมาร์คอฟ ถึงแม้ว่าการวิจัยในจิตวิทยาและประสาทวิทยาศาสตร์ได้กำหนดใช้ง่าย q-learning รุ่นโดยไม่ต้องตัวแปรสภาวะ ตามที่กล่าวไว้ในเบื้องต้นการศึกษาหลายแห่งใช้สำหรับตรวจวิเคราะห์มี RL RL รุ่นที่รวมตัวแปรสถานะ ( ดอว์เซย์ดายัน , Admin , , , & Dolan , 2011 ; GL ไ Scher , นางดายัน , & o'doherty , 2010 ) นอกจากนี้ เราต้องเน้นขั้นตอนวิธีการเฉพาะของ RL ( q-learning . ขั้นตอนวิธีอื่นๆสำหรับ RL ได้ใช้สำหรับวิเคราะห์พฤติกรรมของทางเลือกเช่นนักแสดงนักวิจารณ์ขั้นตอนวิธี ( o'doherty et al . , 2004 ) ถึงแม้ว่าขอบเขตของการศึกษาจะ จำกัด ผลลัพธ์เบื้องต้นพบที่นี่สามารถใช้ได้กับกรณีทั่วไปมากขึ้น อัลกอริทึมอื่น ๆที่จะรวมการเรียนรู้ รัฐเปลี่ยน ( นาง et al . , 2011 ; GL ไ เชอร์ et al . , 2010 ) เป็นหลัก ใช้กฎปรับปรุงต่อเนื่อง เช่น เดลต้า กฎ ( เช่นใน q-learning ) ; ดังนั้นขั้นตอนวิธีการเหล่านี้อาจสร้างผุชี้แจงในการพึ่งพาประวัติศาสตร์ ผลลัพธ์หลักของการศึกษาปัจจุบันมีการค้นพบว่า ถ้าตัวแปรทั้งหมดสลายที่ความเร็วเดียวกันแล้วพึ่งพาประวัติศาสตร์สามารถแสดงโดยใช้รูปแบบสมการถดถอยที่เหมาะสม แต่ถ้าความเร็วที่แตกต่างกัน หรือ ถ้าปรับปรุงจะหยุดเมื่อตัวแปรที่ไม่เกี่ยวข้องกับประสบการณ์ปัจจุบันแล้วอ้างอิงประวัติศาสตร์จะซับซ้อนมากขึ้น การศึกษาในอนาคตจะต้องตรวจสอบประวัติของการเลือกในรุ่น RL ทั่วไปมากขึ้นรวมถึงโมเดลที่ประกอบด้วยตัวแปรสถานะและรูปแบบการเรียนรู้ที่แตกต่างกัน อัลกอริทึม

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.