The conceptual framework is then as follows: the process starts at the first
stage j = 1 with some initial state s1 ∈ S where a decision x1 ∈ D(1, s1) is
made whereupon the process moves to the next stage j = 2 where the state
s2 = T (1, s1, x1) ∈ S is observed. Then the second decision x2 ∈ D(2, s2) is
made whereupon the process moves to the next stage j = 3 where the state
S3 = T (2, s2, x2) ∈ S is observed, and so on. The process terminates at stage
j = n where the final decision xn ∈ D(n, sn) is made whereupon the process
moves to the final stage j = n + 1 where the final state sn+1 = T (n, sn, xn) ∈ S
is observed and a reward r(sn+1) is incurred. Note that no decision is made at
the final stage n + 1.
กรอบแนวคิดจะเป็นดังนี้: การเริ่มต้นครั้งแรกขั้นตอน j = 1 กับบางสถานะเริ่มต้น s1 ∈ S ซึ่งเป็นการตัดสินใจ x 1 ∈ D (1, s1)ทำ whereupon การย้ายไปเจขั้นถัดไป = 2 ซึ่งรัฐs2 = T (1, s1, x 1) ∈ S จะสังเกต แล้วสองตัดสินใจ x 2 ∈ D (2, s2) เป็นทำ whereupon การย้ายไปเจขั้นถัดไป = 3 ที่รัฐS3 = T (2, s2, x 2) ∈ S มีสังเกต และอื่น ๆ กระบวนการยุติในขั้นตอนj = n ซึ่งทำการตัดสินใจขั้นสุดท้าย xn ∈ D (n, sn) whereupon กระบวนการย้ายไปขั้นตอนสุดท้ายเจ = n + 1 สุดท้ายรัฐ sn + 1 = T (n, sn, xn) ∈ Sจะสังเกต และ r(sn+1) สะสมเกิดขึ้น หมายเหตุที่ตัดสินใจไม่ถูกที่ขั้นตอนสุดท้าย n + 1
การแปล กรุณารอสักครู่..

กรอบแนวคิดเป็นแล้วดังต่อไปนี้ขั้นตอนการเริ่มต้นที่แรกที่
เวทีเจ = 1 กับบางสถานะเริ่มต้น s1 ∈ S โดยที่การตัดสินใจ x1 ∈ D (1, s1) จะ
ทำให้กระบวนการครั้นแล้วย้ายไปยังขั้นตอนต่อไปเจ = 2 ที่ รัฐ
s2 T = (1, s1, x1) ∈ S เป็นที่สังเกต จากนั้นตัดสินใจที่สอง x2 ∈ D (2, s2) จะ
ทำให้กระบวนการครั้นแล้วย้ายไปยังขั้นตอนต่อไปที่ j = 3 ที่รัฐ
S3 = T (2, s2, x2) ∈ S เป็นที่สังเกตและอื่น ๆ กระบวนการยุติในขั้นตอน
ที่ j = n ที่ xn ตัดสินใจขั้นสุดท้าย∈ D (n, SN) ครั้นแล้วทำขั้นตอนการ
ย้ายไปยังขั้นตอนสุดท้ายเจ = 1 + n ที่ SN รัฐสุดท้าย + 1 = T (n, SN, xn ) ∈ S
เป็นที่สังเกตและอารางวัล (SN + 1) จะเกิดขึ้น โปรดทราบว่าไม่มีการตัดสินใจที่จะทำใน
ขั้นตอนสุดท้าย 1 + n
การแปล กรุณารอสักครู่..

กรอบแนวคิดแล้ว ดังนี้ กระบวนการเริ่มต้นที่ขั้นตอนแรก
J = 1 ด้วยสถานะเริ่มต้น S1 ∈ ที่ตัดสินใจ∈ x1 D ( 1 , S1 )
ทำดังนั้นกระบวนการย้ายไปยังขั้นตอนต่อไป J = 2 ซึ่งรัฐ
S2 = T ( 1 , S1 , X1 ) ∈ S เป็นที่สังเกต แล้ววินาทีที่ตัดสินใจ∈ X2 D ( 2 , S2 )
ให้นำกระบวนการย้ายไปยังขั้นตอนต่อไป J = 3 ซึ่งรัฐ
S3 t ( S2 = 2X2 ) ∈ S เป็นที่สังเกตและ กระบวนการสิ้นสุดลงที่เวที
J = ที่การตัดสินใจขั้นสุดท้ายคริสเตียน∈ D ( SN ) ได้ ซึ่งกระบวนการ
ย้ายไปยังขั้นตอนสุดท้าย J = N 1 ซึ่งสุดท้ายรัฐ SN 1 = T ( N , SN , คริสเตียน ) ∈ S
เป็นที่สังเกตและ R ( SN ) 1 รางวัล เป็น ที่เกิด โปรดทราบว่าไม่มีการตัดสินใจทำในขั้นตอนสุดท้าย N
1 .
การแปล กรุณารอสักครู่..
