We have discussed the similarities

We have discussed the similarities and differences between
RL models and regression models. Which approach researchers
should use depends on the goals and actual computational pro-cesses of the decision-maker. The functional forms of the dependence on reward history in the Q-learning model are restricted
to exponential decay by the model structure, whereas in regression models, the dependence on reward history can take any form.
If the pattern of decay is not exponential, for example, if it is a
heavy-tailed, double-exponential form (Corrado et al., 2005), and
if the goal is to predict a future choice, a linear regression model
may be more appropriate and may provide a better prediction.
In contrast, if the actual learning process is similar to that in the
general Q-learning model rather than that in the F-Q model, the
Q-learning model may provide better predictions. In addition, the
Q-learning model may provide a better prediction when the model
has a smaller number of parameters than the regression model
does. Moreover, as the RL model can represent the value update
rule explicitly, one can easily grasp the computational process with
this representation. For example, it is not straightforward how the
computational process can lead to a double-exponential decay pattern, and several computational models have been generated to
attempt to explain this pattern (eg., Saito, Katahira, Okanoya, &
Okada, 2014). Most importantly, the variables in the RL model, such
as action values and reward prediction errors, can provide a regressor of neural activities that can be used to find the corresponding
neural substrates (Daw, 2011; O’Doherty et al., 2007). Furthermore,
including a factor that can affect behavior and testing the effects
of such a factor, based on data, are often straightforward with RL
model-based approaches compared to regression approaches.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เราได้กล่าวถึงความเหมือนและความแตกต่างระหว่างรุ่น RL และรุ่นถดถอย นักวิจัยซึ่งวิธีควรใช้ขึ้นอยู่กับเป้าหมายและ cesses คำนวณ pro แท้จริงของผู้ตัดสินใจ พึ่งประวัติรางวัลในรุ่น Q การเรียนแบบทำงานถูกจำกัดการผุเนนโดยโครงสร้างแบบจำลอง ในขณะที่ในแบบจำลองถดถอย พึ่งประวัติรางวัลสามารถใช้รูปแบบใดถ้ารูปแบบของผุไม่เนน เช่น ถ้าเป็นแบบฟอร์ม หางหนัก คู่เนน (โคโรราโด et al. 2005), และถ้าเป้าหมายคือการ ทำนายทางเลือกในอนาคต แบบจำลองถดถอยเชิงเส้นอาจจะเพิ่มเติมที่เหมาะสม และอาจให้การคาดการณ์ที่ดีกว่าในความคมชัด ถ้ากระบวนการเรียนรู้ที่แท้จริงจะคล้ายกับในการทั่วไปรุ่น Q-การเรียนรู้มากกว่าที่ในรูปแบบ F Q การรุ่น Q-การเรียนรู้อาจให้คาดคะเนได้ดี นอกจากนี้ การรุ่น Q การเรียนอาจมีการคาดเดาที่ดีกว่าเมื่อแบบจำลองมีพารามิเตอร์จำนวนน้อยกว่าแบบจำลองถดถอยไม่ นอกจากนี้ เป็นรุ่น RL สามารถเป็นตัวแทนการปรับปรุงค่ากฎอย่างชัดเจน หนึ่งได้อย่างง่ายดายสามารถเข้าใจขั้นตอนการคำนวณด้วยการแสดงนี้อยู่ ตัวอย่างเช่น ไม่ตรงไปตรงมาว่ากระบวนการสามารถนำไปสู่รูปแบบผุใหญ่เนน และสร้างแบบจำลองเชิงคำนวณหลายการคำนวณพยายามที่จะอธิบายรูปแบบนี้ (เช่น., ไซโต Katahira, Okanoya, &โอกาดะ 2014) ตัวแปรที่สำคัญที่สุดคือ ในรุ่น RL เช่นเป็นค่าดำเนินการและข้อผิดพลาดในการทำนายรางวัล สามารถให้ regressor ของกิจกรรมของระบบประสาทที่สามารถใช้เพื่อค้นหาเกี่ยวข้องพื้นผิวของระบบประสาท (Daw, 2011 O'Doherty et al. 2007) นอกจากนี้รวมทั้งปัจจัยที่มีผลต่อพฤติกรรมและการทดสอบผลกระทบของดังกล่าวเป็นปัจจัย อิงข้อมูล มักตรงไปตรงมากับ RLรุ่นตามวิธีเปรียบเทียบกับวิธีการถดถอย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เราได้กล่าวถึงความเหมือนและความแตกต่างระหว่าง
รุ่น RL และรูปแบบการถดถอย วิธีการที่นักวิจัย
ควรใช้ขึ้นอยู่กับเป้าหมายและเกิดขึ้นจริงในการคำนวณโปร cesses ของผู้มีอำนาจตัดสินใจ รูปแบบการทำงานของการพึ่งพาประวัติศาสตร์รางวัลในรูปแบบ Q-learning ถูก จำกัด
เพื่อชี้แจงสลายโครงสร้างรูปแบบในขณะที่ในรุ่นถดถอยพึ่งพาประวัติศาสตร์รางวัลสามารถใช้รูปแบบใด ๆ .
หากรูปแบบของการสลายตัวไม่ได้ชี้แจงสำหรับ ตัวอย่างเช่นถ้าเป็น
หนักเทลด์รูปแบบดับเบิลชี้แจง (Corrado et al., 2005) และ
ถ้าเป้าหมายคือการทำนายเป็นทางเลือกในอนาคตรูปแบบการถดถอยเชิงเส้น
อาจจะเหมาะสมกว่าและอาจจัดให้มีการคาดการณ์ที่ดีกว่า.
ใน ตรงกันข้ามถ้ากระบวนการเรียนรู้ที่เกิดขึ้นจริงจะคล้ายกับว่าใน
รุ่น Q-การเรียนรู้ทั่วไปมากกว่าว่าในรูปแบบ FQ ที่
รุ่น Q-การเรียนรู้อาจให้การคาดการณ์ที่ดีกว่า นอกจากนี้
รูปแบบการเรียนรู้ที่ Q-อาจจัดให้มีการคาดการณ์ที่ดีขึ้นเมื่อรุ่น
มีจำนวนที่น้อยกว่าของพารามิเตอร์กว่ารุ่นถดถอย
ไม่ นอกจากนี้ยังเป็นรุ่น RL สามารถเป็นตัวแทนของการปรับปรุงค่า
กฎอย่างชัดเจนหนึ่งสามารถเข้าใจกระบวนการการคำนวณกับ
การแสดงนี้ ยกตัวอย่างเช่นมันไม่ได้ตรงไปตรงมาว่า
ขั้นตอนการคำนวณสามารถนำไปสู่การสลายตัวของรูปแบบดับเบิลชี้แจงและหลายรูปแบบการคำนวณที่ได้รับการสร้างขึ้นเพื่อ
พยายามที่จะอธิบายรูปแบบนี้ (เช่น. ไซโตะ Katahira, Okanoya และ
Okada 2014) สิ่งสำคัญที่สุดคือตัวแปรในรุ่น RL เช่น
เป็นค่าดำเนินการและข้อผิดพลาดรางวัลทำนายสามารถให้ regressor ของกิจกรรมประสาทที่สามารถนำมาใช้เพื่อหาสิ่งที่สอดคล้องกัน
พื้นผิวประสาท (นาง 2011. โดเฮอร์ตี้, et al, 2007) . นอกจากนี้
รวมถึงปัจจัยที่มีผลต่อพฤติกรรมและการทดสอบผลกระทบ
ของปัจจัยดังกล่าวอยู่บนพื้นฐานของข้อมูลที่มักจะตรงไปตรงมากับ RL
วิธีการแบบที่ใช้เมื่อเทียบกับวิธีการถดถอย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เราได้กล่าวถึงความคล้ายคลึงและความแตกต่างระหว่างRL รุ่นได้แก่รุ่น ซึ่งวิธีการที่นักวิจัยควรจะใช้ขึ้นอยู่กับเป้าหมายและจริงคอมพิวเตอร์ โปร cesses ของคน . รูปแบบการทำงานของการพึ่งพารางวัลในประวัติศาสตร์ q-learning แบบจำลองจะถูก จำกัดเพื่อสลายชี้แจงโดยโครงสร้างโมเดล และโมเดลการถดถอย , การพึ่งพาประวัติศาสตร์รางวัลสามารถใช้รูปแบบใดถ้ารูปแบบของการสลายตัวไม่ได้ชี้แจง , ตัวอย่างเช่น , ถ้ามันเป็นหนักหางคู่แบบฟอร์ม ( คอร์ราโด et al . , 2005 ) และถ้าเป้าหมายคือการทำนายทางเลือกในอนาคต การถดถอยแบบเชิงเส้นอาจจะเหมาะสมกว่า และอาจให้ทายดีกว่าในทางตรงกันข้ามถ้ากระบวนการเรียนรู้ที่แท้จริงจะคล้ายกับในทั่วไป q-learning รูปแบบมากกว่าที่ใน f-q ตัวอย่างq-learning นางแบบอาจมีการคาดการณ์ที่ดีกว่า นอกจากนี้q-learning รูปแบบอาจให้ทำนายได้ดีขึ้นเมื่อรูปแบบมีขนาดเล็กจำนวนของพารามิเตอร์ของแบบจำลองการถดถอยมากกว่าไม่ นอกจากนี้แบบจำลองสามารถแสดงเป็น RL ค่าอัพเดทกฎอย่างชัดเจนอย่างใดอย่างหนึ่งได้อย่างง่ายดายสามารถเข้าใจกระบวนการในการคำนวณด้วยการแสดงนี้ ตัวอย่างเช่น จะไม่ตรงไปตรงมาว่ากระบวนการที่คอมพิวเตอร์สามารถนำรูปแบบการสลายตัวแบบคู่ และการคำนวณได้ถูกสร้างขึ้นเพื่อหลายรุ่นพยายามที่จะอธิบายรูปแบบนี้ ( เช่น ไซโตะ คาตาฮิระ okanoya , และ ,โอคาดะ ปี 2014 ) ที่สำคัญที่สุดคือ ตัวแปรใน RL รูปแบบเช่นเป็นค่าดำเนินการและรางวัลข้อผิดพลาดการพยากรณ์ สามารถให้ regressor กิจกรรมประสาทที่สามารถใช้เพื่อค้นหาที่เกี่ยวข้องประสาทพื้นผิว ( สิงหาคม 2011 ; o"doherty et al . , 2007 ) นอกจากนี้รวมทั้งปัจจัยที่มีผลต่อพฤติกรรมและการทดสอบผลเช่น ตัวแปร บนพื้นฐานของข้อมูลที่มักจะตรงไปตรงมากับ RLสำหรับแนวทางการเปรียบเทียบกับวิธี

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.