Discussion
We tested several mechanisms from the current literature on
modelling individual variation in the form of Pavlovian conditioned
responses (ST vs GT) that emerge using a classical
autoshaping procedure, and the role of dopamine in both the
acquisition and expression of these CRs. Benefiting from a rich set
of data, we identified key mechanisms that are sufficient to account
for specific properties of the observed behaviours. The resulting
model relies on two major concepts: Dual learning systems and
factored representations. Figure 4 summarizes the role of each
mechanism in the model.
Conclusion
Here we have presented a model that accounts for variations in
the form of Pavlovian conditioned approach behaviour seen
during autoshaping in rats; that is, the development of a signtracking
vs goal-tracking CR. This works adds to an emerging set
of studies suggesting the presence and collaboration of multiple RL
systems in the brain. It questions the classical paradigm of state
representation and suggests that further investigation of factored
representations in RL models of Pavlovian and instrumental
conditioning experiments may be useful.
Methods
Modelling the autoshaping experiment
In the classical reinforcement learning theory [1], tasks are
usually described as Markov Decision Processes (MDPs). As the
proposed model is based on RL algorithms, we use the MDP
formalism to computationally describe the Pavlovian autoshaping
procedure used in all simulations.
An MDP describes the interactions of an agent with its
environment and the rewards it might receive. An agent being
in a state s can execute an action a which results in a new state s’
and the possible retrieval of some reward r. More precisely, an
agent can be in a finite set of states S, in which it can perform a
finite set of discrete actions A, the consequences of which are
defined by a transition function T : S|A?P(S), where P(S) is
the probability distribution P(s’Ds,a) of reaching state s’ doing
action a in state s. Additionally, the reward function R : S|A?R
is the reward R(s,a) for doing action a in state s. Importantly,
MDPs should theoretically comply with the Markov property: the probability of reaching state s’ should only depend on the last state
s and the last action a. An MDP is defined as episodic if it includes
at least one state which terminates the current episode.
Figure 1 shows the deterministic MDP used to simulate the
autoshaping procedure. Given the variable time schedule (30–
150s) and the net difference observed in behaviours in inter-trial
intervals, we can reasonably assume that each experimental trial
can be simulated with a finite horizon episode.
The agent starts from an empty state (s0) where there is nothing
to do but explore. At some point the lever appears (s1) and the
agent must make a critical choice: It can either go to the lever (s2)
and engage with it (s5), go to the magazine (s4) and engage with it
(s7) or just keep exploring (s3,s6). At some point, the lever is
retracted and food is delivered. If the agent is far from the
magazine (s5,s7), it first needs to get closer. Once close (s7), it
consumes the food. It ends in an empty state (s0) which symbolizes
the start of the inter-trial interval (ITI): no food, no lever and an
empty but still present magazine.
The MDP in Figure 1 is common to all of the simulations and
independent of the reinforcement learning systems we use. STs
should favour the red path, while GTs should favour the shorter
blue path. All of the results rely mainly on the action taken at the
lever appearance (s1), when choosing to go to either the lever, the
magazine, or to explore. Exploring can be understood as not going
to the lever nor to the magazine.
To fit with the requirements of the MDP framework, we
introduce two limitations in our description, which also simplify
our analyses. We assume that engagement is necessarily exclusive
to one or no stimulus, and we make no use of the precise timing of
the procedure – the ITI duration nor the CS duration – in our
simulations.
สนทนาเราทดสอบกลไกต่าง ๆ จากวรรณกรรมปัจจุบันในแบบจำลองการเปลี่ยนแปลงในแบบฟอร์ม Pavlovian ปรับอากาศแต่ละตอบ (เซนต์เทียบกับ GT) นั้นใช้แบบคลาสสิกกระบวนการ autoshaping และบทบาทของโดพามีนในทั้งสองซื้อและนิพจน์ของเหล่า CRs เกียรติยศจากชุดรวยข้อมูล เราระบุกลไกสำคัญที่เพียงพอต่อการบัญชีสำหรับคุณสมบัติเฉพาะของพฤติกรรมที่สังเกต การส่งผลแบบจำลองอาศัยแนวคิดหลักที่สอง: เรียนรู้ระบบสอง และแยกตัวประกอบนำเสนอ รูปที่ 4 สรุปบทบาทของแต่ละกลไกในรูปแบบบทสรุปที่นี่เราได้นำเสนอแบบจำลองที่บัญชีสำหรับการเปลี่ยนแปลงในแบบฟอร์ม Pavlovian ปรับอากาศเห็นพฤติกรรมวิธีการระหว่าง autoshaping ในหนู นั่นคือ การพัฒนาของ signtrackingเทียบกับ CR ติดตามเป้าหมาย งานนี้เพิ่มชุดการเกิดใหม่ศึกษาแนะนำการแสดงและทำงานร่วมกันของหลาย RLระบบในสมอง มันถามกระบวนทัศน์คลาสสิกของรัฐนำเสนอ และแนะนำให้ ตรวจสอบการแยกตัวประกอบใช้แทนในรุ่น RL Pavlovian และเพลงบรรเลงปรับทดลองอาจเป็นประโยชน์วิธีการแบบจำลองทดลอง autoshapingงานมีในเหล็กเสริมคลาสสิกที่เรียนทฤษฎี [1],มักจะอธิบายว่า กระบวนการตัดสินใจของ Markov (MDPs) เป็นการนำเสนอขึ้นอยู่กับอัลกอริทึม RL เราใช้ MDPformalism computationally อธิบาย Pavlovian autoshapingขั้นตอนที่ใช้ในการจำลองสถานการณ์ทั้งหมดMDP เป็นอธิบายการโต้ตอบของตัวแทนด้วยการสภาพแวดล้อมและรางวัลที่ได้อาจได้รับ ตัวแทนการในสถานะสามารถดำเนินการดำเนินการซึ่งผลลัพธ์ใน s มีสถานะใหม่ 'และเรียกได้ของ r บางรางวัล เพิ่มแม่นยำ การตัวแทนสามารถตั้งค่าจำกัดของอเมริกา S ซึ่งสามารถทำการชุดแยกกันกระทำ A ผลกระทบที่มีจำกัดกำหนด โดยฟังก์ชันการเปลี่ยน T: S| A P (S), P (S) อยู่ที่ไหนการแจกแจงความน่าเป็น P(s'Ds,a) ของการเข้าถึงสถานะ s' ทำนอกจากนี้ s. รัฐในการดำเนินการฟังก์ชันรางวัล R: S| A Rคือ รางวัล R(s,a) ทำการรัฐใน s. ที่สำคัญMDPs ควรให้สอดคล้องกับคุณสมบัติ Markov ครั้งแรกราคา: ความเป็นไปได้ถึงสถานะ s' ควรขึ้นอยู่กับสภาวะสุดท้ายเท่านั้นs และการดำเนินการสุดท้าย MDP เป็นไว้เป็น episodic ถ้ารวมรัฐน้อยซึ่งยุติตอนปัจจุบันรูปที่ 1 แสดง MDP deterministic ที่ใช้ในการจำลองการขั้นตอน autoshaping กำหนดตารางเวลาตัวแปร (30-150s) และผลต่างสุทธิที่สังเกตในอากัปกิริยาในระหว่างทดลองช่วง เราสามารถสมสมมตินั่นละทดลองทดลองสามารถจำลองกับตอนฮอไรซอนจำกัด แทนเริ่มต้นจากสถานะว่าง (s0) ไม่มีอะไรเพื่อ ได้สำรวจ ในบางจุด คันโยกปรากฏ (s1) และตัวแทนต้องทำการเลือกที่สำคัญ: มันสามารถจะไปคาน (s2)และมีส่วนร่วมกับมัน (s5), ไปที่นิตยสาร (s4) และต่อสู้กับมัน(s7) หรือเพียงเก็บสำรวจ (s3, s6) ในบางจุด คันโยกเป็นหด และส่งอาหาร ถ้าตัวแทนไม่ไกลจากนิตยสาร (s5, s7), แรกต้องได้ใกล้ชิด เมื่อปิด (s7), มันใช้อาหาร สิ้นสุดในสถานะว่าง (s0) ซึ่งสัญลักษณ์จุดเริ่มต้นของช่วงระหว่างทดลอง (ตัล): อาหารไม่ ไม่มีคานและนิตยสารว่าง แต่ยังคงมีอยู่MDP ในรูปที่ 1 ใช้ร่วมกับแบบจำลองทั้งหมด และเสริมสร้างระบบการเรียนรู้ขึ้นอยู่กับเราใช้ STsควรโปรดปรานเส้นทางสีแดง ในขณะที่งานจีทีเอสควรโปรดปรานสั้นลงเส้นทางสีน้ำเงิน ทั้งหมดผลใช้หลักในการดำเนินการในการลิ่มลักษณะ (s1), เมื่อต้องไปแบบคันโยกนิตยสาร หรือ ให้บริการ สำรวจสามารถเข้าใจว่าเป็นไปไม่การคันโยก ไม่ ให้วารสารให้พอดีกับความต้องการของกรอบ MDP เราแนะนำข้อจำกัดสองในคำอธิบายของเรา ซึ่งยัง ทำให้ง่ายขึ้นเราวิเคราะห์ เราสมมติว่า ความผูกพันเป็นพิเศษจำเป็นต้องกระตุ้นหนึ่ง หรือไม่ และเราต้องไม่ใช้การกำหนดเวลาที่ชัดเจนของตอน –ตัลระยะเวลาหรือระยะเวลา CS – ในของเราจำลอง
การแปล กรุณารอสักครู่..