IntroductionStandard Reinforcement Learning (RL) [1] is a widely usedn การแปล - IntroductionStandard Reinforcement Learning (RL) [1] is a widely usedn ไทย วิธีการพูด

IntroductionStandard Reinforcement

Introduction
Standard Reinforcement Learning (RL) [1] is a widely used
normative framework for modelling conditioning experiments
[2,3]. Different RL systems, mainly Model-Based and Model-Free
systems, have often been combined to better account for a variety
of observations suggesting that multiple valuation processes coexist
in the brain [4–6]. Model-Based systems employ an explicit model
of consequences of actions, making it possible to evaluate
situations by forward inference. Such systems best explain goaldirected
behaviours and rapid adaptation to novel or changing
environments [7–9]. In contrast, Model-Free systems do not rely
on internal models and directly associate values to actions or states
by experience such that higher valued situations are favoured.
Such systems best explain habits and persistent behaviours [9–11].

Of significant interest, learning in Model-Free systems relies on a
computed reinforcement signal, the reward prediction error
(RPE). This signal parallels the observed shift of dopamine
neurons’ response from the time of an initially unexpected reward
– an outcome that is better or worse than expected – to the time of
the conditioned stimulus that precedes it, which, in Pavlovian
conditioning experiments, is fully predictive of the reward [12,13].
However recent work by Flagel et al. [14], raises questions
about the exclusive use of classical RL Model-Free methods to
account for data in Pavlovian conditioning experiments. Using an
autoshaping procedure, a lever-CS was presented for 8 seconds,
followed immediately by delivery of a food pellet into an adjacent
food magazine. With training, some rats (sign-trackers; STs)
learned to rapidly approach and engage the lever-CS. However,
others (goal-trackers; GTs) learned to approach the food magazine
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
แนะนำมาตรฐานเหล็กเสริมการเรียนรู้ (RL) [1] ถูกใช้กันอย่างแพร่หลายกรอบ normative สำหรับแบบจำลองการปรับทดลอง[2,3] . ระบบต่าง RL ส่วนใหญ่ ตามรุ่น และรุ่นฟรีมักจะมีการรวมระบบ บัญชีดีกว่าสำหรับสังเกตแนะนำหาหลายที่ เริ่มกระบวนการในสมอง [4-6] ตามแบบจำลองระบบจ้างแบบจำลองอย่างชัดเจนของผลการดำเนินการ ทำให้สามารถประเมินสถานการณ์โดยส่งข้อ ระบบดีที่สุดอธิบาย goaldirectedพฤติกรรมและการปรับตัวนวนิยายหรือการเปลี่ยนแปลงอย่างรวดเร็วสภาพแวดล้อม [7-9] ในทางตรงกันข้าม ระบบฟรีแบบไม่ใช้รูปแบบภายในและค่าดำเนินการหรือรัฐภาคีโดยตรงโดยสัมผัสเช่นสถานการณ์สูงบริษัทมี favouredระบบดีที่สุดอธิบายพฤติกรรมและอากัปกิริยาแบบถาวร [9-11]น่าสนใจสำคัญ เรียนรู้ระบบฟรีแบบอาศัยการคำนวณเหล็กเสริมสัญญาณ ข้อผิดพลาดทายผลรางวัล(RPE) สัญญาณนี้ parallels กะสังเกตของโดปามีนตอบสนองของ neurons จากของรางวัลไม่คาดคิดตอนเริ่มต้น-ผลที่ดีกว่า หรือแย่กว่าที่คาดไว้ – เวลาของกระตุ้นปรับที่ก่อนหน้านี้ ซึ่ง ใน Pavlovianปรับทดลอง เป็นงานทั้งหมดของสะสม [12,13]อย่างไรก็ตาม ล่าสุดผลิตโดย Flagel et al. [14], เพิ่มคำถามเกี่ยวกับการใช้เอกสิทธิ์ของคลาสสิก RL รุ่นฟรีวิธีการบัญชีสำหรับข้อมูลในการทดลองปรับ Pavlovian โดยใช้การกระบวนการ autoshaping แสดงผลใน 8 วินาที คาน-CSตามทันที โดยส่งเม็ดอาหารเป็นการติดอาหารนิตยสาร ด้วยการฝึกอบรม (เครื่องหมายติดตามของ หนูบาง STs)เรียนรู้วิธี และต่อสู้ CS คันโยกอย่างรวดเร็ว อย่างไรก็ตามอื่น ๆ (การติดตามของเป้าหมาย งานจีทีเอส) เรียนรู้วิธีการเข้าหานิตยสารอาหาร
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
บทนำ
มาตรฐานการเรียนรู้เสริม ( RL ) [ 1 ] เป็นใช้อย่างกว้างขวางสำหรับการปรับกรอบอ้างอิง
3
[ การทดลอง ] ระบบ RL ที่แตกต่างกันส่วนใหญ่ใช้รูปแบบและรูปแบบระบบฟรี
, มักจะมีรวมกว่าบัญชีเพื่อความหลากหลาย
สังเกตว่ากระบวนการมูลค่าหลายอยู่ร่วม
ในสมอง [ 4 – 6 ) รุ่นที่ใช้ระบบจ้าง
แบบชัดเจนจากผลของการกระทำ ทำให้สามารถประเมิน
สถานการณ์โดยการอนุมานไปข้างหน้า ระบบที่ดีที่สุดอธิบายพฤติกรรมและการปรับตัวอย่างรวดเร็วเพื่อ goaldirected

[ นวนิยาย หรือการเปลี่ยนแปลงสภาพแวดล้อม 7 – 9 ] ในทางตรงกันข้าม ระบบ ฟรี แบบไม่พึ่ง
ในรูปแบบภายในและค่าเชื่อมโยงโดยตรงกับการกระทำโดยรัฐหรือ
ประสบการณ์ดังกล่าวสูงกว่ามูลค่าสถานการณ์
ชอบ .ระบบที่ดีที่สุดอธิบายนิสัยและพฤติกรรมถาวร [ 9 – 11 ] .

น่าสนใจที่สําคัญ การเรียนรู้ในระบบอิสระแบบอาศัย
คำนวณเสริมสัญญาณ , รางวัลทำนายผิดพลาด
( RPE ) สัญญาณนี้เทียบกะของโดพามีน neurons )
' คำตอบจากเวลาของการเริ่มต้นที่ไม่คาดคิดรางวัล
–ผลที่ดีขึ้นหรือแย่ลงกว่าที่คาดไว้และให้เวลาของ
ส่วนสิ่งเร้าเงื่อนไขที่นำหน้ามัน ซึ่งในการทดลองปรับ pavlovian
, เต็มที่เพื่อรางวัล [ 12 , 13 ‘ ] .
แต่ผลงานล่าสุดโดย flagel et al . [ 14 ] , เพิ่มคำถามเกี่ยวกับการใช้รูปแบบพิเศษ


RL คลาสสิกวิธีการฟรีบัญชีสำหรับข้อมูลในการทดลองปรับ pavlovian . ใช้
autoshaping ขั้นตอน คันโยก CS นำเสนอ
8 วินาทีตามมาทันที โดยส่ง อาหารเม็ดเป็นอาหารนิตยสารติดกัน

ด้วยการฝึกอบรมบางตัว ( ป้ายติดตาม ; STS )
เรียนรู้วิธีการอย่างรวดเร็วและต่อสู้คันโยก cs อย่างไรก็ตาม
คนอื่น ( เป้าหมายติดตาม ; GTS ) เรียนรู้วิธีการอาหาร
นิตยสาร
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2024 I Love Translation. All reserved.

E-mail: