The reason the dependence on choice

The reason the dependence on choice history arose is explained
as follows. Consider an extreme case where no reward was given
in the last Mr trials (R(t − 1) = · · · = R(t − Mr) = 0). In this
case, the regression model in which only reward history is included
predicts that the subject chose option 1 with a probability of 0.5,
i.e., P(a(t) = 1) = 0.5. However, this consequence differs from the
actual behavior of the Q-learning model. In the Q-learning model
with αF < αL
, the value of the unchosen option remains unchanged
(when αF = 0) or decays slowly compared with the chosen option
(when αF > 0). In contrast, the value of the chosen option decays,
and the tendency for switching the option increases. Thus, the
regression coefficients for the choice history, bc
, become negative.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

อธิบายเหตุผลที่เกิดพึ่งเลือกประวัติดังนี้ พิจารณากรณีรุนแรงที่ได้รับรางวัลไม่ในการทดลองครั้งสุดท้ายของนาย (R (t − 1) =· = R(t − Mr) = 0) ในการนี้กรณี แบบถดถอยซึ่งประวัติรางวัลเท่านั้นรวมอยู่คาดการณ์ว่า เรื่องเลือกตัวเลือกที่ 1 มีความน่าเป็น 0.5เช่น P(a(t) = 1) = 0.5 อย่างไรก็ตาม ผลนี้แตกต่างจากการลักษณะการทำงานจริงของรูปแบบการเรียน Q ในรูปแบบการเรียน Qกับ αF < αLค่าของตัวเลือก unchosen ยังคงไม่เปลี่ยนแปลง(เมื่อ αF = 0) หรือสลายที่ช้าเมื่อเทียบกับตัวเลือกใน(เมื่อ αF > 0) ตรงกันข้าม ค่าของตัวเลือกในมันและแนวโน้มสำหรับการสลับตัวเลือกเพิ่มขึ้น ดังนั้น การค่าสัมประสิทธิ์การถดถอยสำหรับเลือกประวัติ bcกลายเป็นค่าลบ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เหตุผลที่การพึ่งพาประวัติศาสตร์ทางเลือกที่เกิดขึ้นจะมีการอธิบาย
ดังต่อไปนี้ พิจารณากรณีที่รุนแรงที่ไม่ได้รับรางวัล
ในการทดลองที่ผ่านมานาย (R (T - 1) = ··· = R (T - นาย) = 0) ในการนี้
กรณีรูปแบบการถดถอยซึ่งมีเพียงรางวัลแก่ประวัติศาสตร์จะรวม
คาดการณ์ว่าอาจมีตัวเลือกที่ 1 เลือกที่มีความน่าจะเป็นของ 0.5,
IE, P (A (t) = 1) = 0.5 แต่ผลที่ตามมานี้แตกต่างจาก
พฤติกรรมที่แท้จริงของรูปแบบการเรียนรู้ Q- ในรูปแบบการเรียนรู้ Q-
กับαF <αL
ค่าของตัวเลือก unchosen ยังคงไม่เปลี่ยนแปลง
(เมื่อαF = 0) หรือสลายตัวช้าลงเมื่อเทียบกับตัวเลือกที่เลือก
(เมื่อαF> 0) ในทางตรงกันข้ามค่าของตัวเลือกที่เลือกสลายตัว,
และแนวโน้มสำหรับการสลับตัวเลือกเพิ่มขึ้น ดังนั้น
ค่าสัมประสิทธิ์การถดถอยสำหรับประวัติทางเลือก, BC
กลายเป็นเชิงลบ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เหตุผลที่พึ่งลุกขึ้นอธิบายประวัติศาสตร์ทางเลือกดังนี้ พิจารณาคดีมากที่ไม่มีรางวัลได้รับเมื่อคุณทดลอง ( R ( T − 1 ) = · · · = R ( T −คุณ ) = 0 ) ในนี้กรณี , แบบจำลองการถดถอยในที่ประวัติศาสตร์รางวัลเดียวคือรวมคาดการณ์ว่า เรื่องเลือกตัวเลือกที่ 1 กับความน่าจะเป็น 0.5 ,โดย P ( A ( t ) = 1 ) = 0.5 อย่างไรก็ตาม ผลนี้จะแตกต่างจากพฤติกรรมที่แท้จริงของ q-learning นางแบบ ใน q-learning รุ่นกับα F < α l, ค่าของตัวเลือก unchosen ยังคงไม่เปลี่ยนแปลง( เมื่อα F = 0 ) หรือสลายตัวช้าเมื่อเทียบกับตัวเลือกที่ถูกเลือก( เมื่อα F > 0 ) ในทางตรงกันข้ามค่าของตัวเลือกที่เลือกสลายตัวและแนวโน้มสำหรับการเลือกที่เพิ่มขึ้น ดังนั้นสัมประสิทธิ์ถดถอยเพื่อเลือกประวัติศาสตร์ พ.ศ.เป็นลบ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.