4. Results
We performed numerical simulations to confirm the validity of the analytical calculations and to investigate the relation be-tween the RL and regression models.Throughout the simulations,
we adopted the following procedures. First, we generated the choice data from the Q-learning models that performed hypothe-ical decision-making tasks. We subsequently fitted the parame-ters of the logistic regression model to the simulated data using
the maximum likelihood method. We set the history length as Mr = 10 and Mc = 10. For the majority of the simulations, the
Q-learning models performed a simple, probabilistic learning task,
unless otherwise stated. In the probabilistic learning task, one of the options was associated with a higher reward probability, pr
,
compared with the other option that had a reward probability of
1 − pr
. With the probability for the chosen option, the reward was
given (R(t) = κ); otherwise, no reward was given (R(t) = 0). We
used pr = 0.7 and κ = 1.0, unless otherwise stated. After each 50-trial block, the contingencies of the two stimuli were reversed, and
the model performed 500 trials in total (thus, there were 9 rever-sals in one session).We generated data for 5,000 sessions per con-dition, which resulted in 2,500,000 trials per condition. The use of a
large data set reduces the estimation error of the regression coeff-cient. We confirmed that the confidence intervals of all regression
coefficients were less than 0.05. Therefore, the statistical estima-tion error can be neglected in the interpretation of the results.
4. ResultsWe performed numerical simulations to confirm the validity of the analytical calculations and to investigate the relation be-tween the RL and regression models.Throughout the simulations,we adopted the following procedures. First, we generated the choice data from the Q-learning models that performed hypothe-ical decision-making tasks. We subsequently fitted the parame-ters of the logistic regression model to the simulated data usingthe maximum likelihood method. We set the history length as Mr = 10 and Mc = 10. For the majority of the simulations, theQ-learning models performed a simple, probabilistic learning task,unless otherwise stated. In the probabilistic learning task, one of the options was associated with a higher reward probability, pr,compared with the other option that had a reward probability of1 − pr. With the probability for the chosen option, the reward wasgiven (R(t) = κ); otherwise, no reward was given (R(t) = 0). Weused pr = 0.7 and κ = 1.0, unless otherwise stated. After each 50-trial block, the contingencies of the two stimuli were reversed, andthe model performed 500 trials in total (thus, there were 9 rever-sals in one session).We generated data for 5,000 sessions per con-dition, which resulted in 2,500,000 trials per condition. The use of alarge data set reduces the estimation error of the regression coeff-cient. We confirmed that the confidence intervals of all regressioncoefficients were less than 0.05. Therefore, the statistical estima-tion error can be neglected in the interpretation of the results.
การแปล กรุณารอสักครู่..

4 . ผลลัพธ์เราทำการจำลองเชิงตัวเลขเพื่อยืนยันความถูกต้องของการคำนวณ วิเคราะห์ และเพื่อศึกษาความสัมพันธ์จะทวีรุ่น RL และถดถอย ตลอดจำลอง ,เราใช้ขั้นตอนต่อไปนี้ ครั้งแรกที่เราสร้างขึ้น ข้อมูลที่เลือกจาก q-learning รุ่นที่แสดง hypothe เกี่ยวกับการตัดสินใจงาน เราสามารถติดตั้ง parame ters ของตัวแบบการถดถอยโลจิสติกเพื่อใช้จำลองข้อมูลวิธีความควรจะเป็นสูงสุด เราตั้งค่าความยาวประวัตินาย = 10 และ MC = 10 สำหรับส่วนใหญ่ของจำลอง ,q-learning แบบใช้ความน่าจะเป็นเรียนรู้งานง่ายเว้นแต่ที่ระบุไว้เป็นอย่างอื่น ในงานเรียนรู้การ หนึ่งในตัวเลือกที่เกี่ยวข้องกับความน่าจะเป็นผลตอบแทนสูงกว่า พีอาร์,เมื่อเทียบกับตัวเลือกอื่น ๆที่ได้รางวัล .1 −พีอาร์. กับความน่าจะเป็นสำหรับตัวเลือกที่ถูกเลือก รางวัลคือกำหนด ( R ( t ) = κ ) ; อย่างอื่น , ไม่มีรางวัลให้ ( R ( , t ) = 0 ) เราใช้ PR = 0.7 และκ = 1.0 , เว้นแต่จะระบุไว้เป็นอย่างอื่น หลังจากที่แต่ละ 50 การทดลองบล็อก ภาระผูกพันของทั้งสองอาจถูกย้อนกลับและแบบจำลองแสดง 500 การทดลองทั้งหมด ( ซึ่งมี 9 Rever sals ในเซสชันเดียว ) เราสร้างข้อมูลสำหรับ 5 , 000 รอบต่อ con dition ซึ่งมีผลใน 2500000 ทดลองต่อเงื่อนไข ใช้ของชุดข้อมูลที่มีขนาดใหญ่ช่วยลดข้อผิดพลาดของการถดถอย coeff cient . เรายืนยันว่า ช่วงความเชื่อมั่นของการถดถอยมีค่าน้อยกว่า 0.05 ดังนั้น สถิติ ติมา ผ่านข้อผิดพลาดสามารถที่ถูกทอดทิ้งในการแปลความหมายของผลลัพธ์
การแปล กรุณารอสักครู่..
