Thirdly, the recent differentiation of model-free and model-based RL brings the two most important but separated fields,cognition and reward learning/decision making together. This enables novel synthesis and may generate valuable insights regarding learning and behavior. The differentiation also perfectly resembles popular dual-process theories of decision making, learning and memory, such as the models of automatic and controlled processing (Shiffrin and Schneider, 1977), feeling and thinking(Zajonc, 1982), experiential and cognitive processing (Epstein,1994), system 1 and system 2 (Kahneman, 2011), habitual and goal-directed control (Dickinson and Charnock, 1985; Balleine, 2005;Balleine and O’Doherty, 2010) and non declarative and declarative memory (Squire and Zola, 1996) (for an insightful review, seeDayan, 2009). Thus the computational approach provides a powerful and parsimonious tool to address these theories.
ประการที่สาม ความแตกต่างการล่าของ RL รุ่นฟรี และรุ่นที่ใช้นำสองที่สำคัญที่สุดแต่การแยกเขตข้อมูล ความรู้ความเข้าใจ และรางวัลการเรียนรู้/ตัดสินใจร่วมกัน นี้ทำให้นวนิยายสังเคราะห์ และอาจสร้างลึกเกี่ยวกับลักษณะการทำงานและการเรียนรู้ ความแตกต่างที่มีลักษณะสมบูรณ์นิยมคู่กระบวนการทฤษฎีของการตัดสินใจ การเรียนรู้และหน่วยความจำ เช่นรุ่นอัตโนมัติ และการควบคุมการประมวลผล (Shiffrin และชไนเดอร์ 1977) ความรู้สึกและความคิด (Zajonc, 1982), ประมวลผลประสบการณ์ และองค์ความรู้ (เอ็ป 1994), ระบบ 1 และ 2 (Kahneman, 2011), ระบบควบคุมเขา และ กำกับเป้าหมาย (สันและ Charnock, 1985 Balleine, 2005 Balleine และ O'Doherty, 2010) และไม่เปิดเผย และประกาศหน่วยความจำ (Squire และ Zola, 1996) สำหรับความลึกรีวิว seeDayan, 2009) ดังนั้น วิธีการคำนวณให้เป็นเครื่องมือที่มีประสิทธิภาพ และ parsimonious การทฤษฎีเหล่านี้
การแปล กรุณารอสักครู่..

ประการที่สามความแตกต่างที่ผ่านมาของรูปแบบฟรีและ RL แบบที่ใช้นำสองเขตข้อมูลที่สำคัญที่สุด แต่แยกความรู้ความเข้าใจและได้รับรางวัลการเรียนรู้ / การตัดสินใจร่วมกัน ซึ่งจะช่วยให้การสังเคราะห์ที่แปลกใหม่และอาจสร้างข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับการเรียนรู้และพฤติกรรม ความแตกต่างยังที่ดีที่สุดที่มีลักษณะคล้ายกับที่นิยมทฤษฎีกระบวนการที่สองของการตัดสินใจ, การเรียนรู้และความจำเช่นรูปแบบของการประมวลผลอัตโนมัติและการควบคุม (Shiffrin และชไนเดอ 1977), ความรู้สึกและความคิด (Zajonc, 1982), ประสบการณ์และการประมวลผลองค์ความรู้ (Epstein , 1994) ระบบที่ 1 และ 2 ระบบ (Kahneman 2011), การควบคุมนิสัยและเป้าหมายของการกำกับ (ดิกคินสันและ Charnock 1985; Balleine 2005; Balleine และโดเฮอร์ตี้, 2010) และไม่เปิดเผยและหน่วยความจำที่เปิดเผย (นายและ Zola , 1996) (สำหรับการตรวจสอบลึกซึ้ง seeDayan 2009) ดังนั้นวิธีการคำนวณให้เป็นเครื่องมือที่มีประสิทธิภาพและประหยัดเพื่อแก้ไขทฤษฎีเหล่านี้
การแปล กรุณารอสักครู่..

ประการที่สาม การล่าสุดของรูปแบบฟรีและสำหรับ RL หอบสองที่สำคัญที่สุดแต่แยกเขต ทางปัญญา และรางวัลเรียน / การตัดสินใจร่วมกัน นี้ช่วยในการสังเคราะห์นวนิยาย และอาจมีการสร้างข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับการเรียนรู้และพฤติกรรม ความแตกต่างยังสมบูรณ์ คล้ายกับกระบวนการที่นิยมสองทฤษฎีการตัดสินใจ การเรียนรู้ และความจำ เช่น แบบอัตโนมัติ และควบคุมการประมวลผล ( shiffrin และ Schneider , 1977 ) , รู้สึกและคิด ( zajonc , 1982 ) , ประสบการณ์ และการประมวลผล ( Epstein , 1994 ) และระบบที่ 1 ระบบที่ 2 ( Kahneman , 2011 ) นิสัยและที่ดำเนินไปสู่เป้าประสงค์ ( และควบคุมยาก ชาร์น็อค , 1985 ; balleine , 2005 ; และ balleine o"doherty , 2010 ) และไม่จัดเก็บจัดเก็บและความทรงจำ ( และเจ้าหนูโซล่า , 1996 ) ( สำหรับการตรวจทาน เจะ seedayan , 2009 ) ดังนั้นวิธีการคำนวณให้เครื่องมือที่มีประสิทธิภาพและความตระหนี่ที่อยู่ ทฤษฎีเหล่านี้
การแปล กรุณารอสักครู่..
