We have discussed the similarities and differences between
RL models and regression models. Which approach researchers
should use depends on the goals and actual computational pro-cesses of the decision-maker. The functional forms of the dependence on reward history in the Q-learning model are restricted
to exponential decay by the model structure, whereas in regression models, the dependence on reward history can take any form.
If the pattern of decay is not exponential, for example, if it is a
heavy-tailed, double-exponential form (Corrado et al., 2005), and
if the goal is to predict a future choice, a linear regression model
may be more appropriate and may provide a better prediction.
In contrast, if the actual learning process is similar to that in the
general Q-learning model rather than that in the F-Q model, the
Q-learning model may provide better predictions. In addition, the
Q-learning model may provide a better prediction when the model
has a smaller number of parameters than the regression model
does. Moreover, as the RL model can represent the value update
rule explicitly, one can easily grasp the computational process with
this representation. For example, it is not straightforward how the
computational process can lead to a double-exponential decay pattern, and several computational models have been generated to
attempt to explain this pattern (eg., Saito, Katahira, Okanoya, &
Okada, 2014). Most importantly, the variables in the RL model, such
as action values and reward prediction errors, can provide a regressor of neural activities that can be used to find the corresponding
neural substrates (Daw, 2011; O’Doherty et al., 2007). Furthermore,
including a factor that can affect behavior and testing the effects
of such a factor, based on data, are often straightforward with RL
model-based approaches compared to regression approaches.
เราได้กล่าวถึงความคล้ายคลึงและความแตกต่างระหว่างRL รุ่นได้แก่รุ่น ซึ่งวิธีการที่นักวิจัยควรจะใช้ขึ้นอยู่กับเป้าหมายและจริงคอมพิวเตอร์ โปร cesses ของคน . รูปแบบการทำงานของการพึ่งพารางวัลในประวัติศาสตร์ q-learning แบบจำลองจะถูก จำกัดเพื่อสลายชี้แจงโดยโครงสร้างโมเดล และโมเดลการถดถอย , การพึ่งพาประวัติศาสตร์รางวัลสามารถใช้รูปแบบใดถ้ารูปแบบของการสลายตัวไม่ได้ชี้แจง , ตัวอย่างเช่น , ถ้ามันเป็นหนักหางคู่แบบฟอร์ม ( คอร์ราโด et al . , 2005 ) และถ้าเป้าหมายคือการทำนายทางเลือกในอนาคต การถดถอยแบบเชิงเส้นอาจจะเหมาะสมกว่า และอาจให้ทายดีกว่าในทางตรงกันข้ามถ้ากระบวนการเรียนรู้ที่แท้จริงจะคล้ายกับในทั่วไป q-learning รูปแบบมากกว่าที่ใน f-q ตัวอย่างq-learning นางแบบอาจมีการคาดการณ์ที่ดีกว่า นอกจากนี้q-learning รูปแบบอาจให้ทำนายได้ดีขึ้นเมื่อรูปแบบมีขนาดเล็กจำนวนของพารามิเตอร์ของแบบจำลองการถดถอยมากกว่าไม่ นอกจากนี้แบบจำลองสามารถแสดงเป็น RL ค่าอัพเดทกฎอย่างชัดเจนอย่างใดอย่างหนึ่งได้อย่างง่ายดายสามารถเข้าใจกระบวนการในการคำนวณด้วยการแสดงนี้ ตัวอย่างเช่น จะไม่ตรงไปตรงมาว่ากระบวนการที่คอมพิวเตอร์สามารถนำรูปแบบการสลายตัวแบบคู่ และการคำนวณได้ถูกสร้างขึ้นเพื่อหลายรุ่นพยายามที่จะอธิบายรูปแบบนี้ ( เช่น ไซโตะ คาตาฮิระ okanoya , และ ,โอคาดะ ปี 2014 ) ที่สำคัญที่สุดคือ ตัวแปรใน RL รูปแบบเช่นเป็นค่าดำเนินการและรางวัลข้อผิดพลาดการพยากรณ์ สามารถให้ regressor กิจกรรมประสาทที่สามารถใช้เพื่อค้นหาที่เกี่ยวข้องประสาทพื้นผิว ( สิงหาคม 2011 ; o"doherty et al . , 2007 ) นอกจากนี้รวมทั้งปัจจัยที่มีผลต่อพฤติกรรมและการทดสอบผลเช่น ตัวแปร บนพื้นฐานของข้อมูลที่มักจะตรงไปตรงมากับ RLสำหรับแนวทางการเปรียบเทียบกับวิธี
การแปล กรุณารอสักครู่..
