The function J˜ will be called the scoring function, and the value J˜(j, r) will be
called the score of state j. The general form of J˜ is known and is such that once
the parameter vector r is determined, the evaluation of J˜(j, r) of any state j is
fairly simple.
We note that in some problems the minimization over u of the expression
may be too complicated or too time-consuming for making decisions in realtime,
even if the scores J˜(j, r) are simply calculated. In such problems we may
use a related technique, whereby we approximate the expression minimized in
Bellman’s equation,which is known as the Q-factor corresponding to (i, u). In particular, we replace
Q(i, u) with a suitable approximation Q˜(i, u, r), where r is a vector ofparameters. We then use at state i the (suboptimal) control that minimizes the
approximate Q-factor corresponding to i:
ฟังก์ชัน J˜ จะถูกเรียกว่าฟังก์ชันการให้คะแนน และจะมีค่า J˜ (j, r)เรียกว่าคะแนนของรัฐเจ แบบทั่วไปของ J˜ เป็นที่รู้จัก และเป็นเช่นว่ากำหนดพารามิเตอร์เวกเตอร์ r การประเมินผลของ J˜ (j, r) ของเจรัฐใด ๆค่อนข้างง่ายเราสังเกตว่า ในปัญหาการลดกว่า u ของนิพจน์อาจจะซับซ้อนเกินไป หรือใช้เวลานานเกินไปสำหรับการตัดสินใจในเรียลไทม์แม้ว่าคะแนน J˜ (j, r) จะคำนวณก็ ในปัญหาดังกล่าว เราอาจใช้เทคนิคที่เกี่ยวข้อง โดยเราประมาณการย่อเล็กสุดในนิพจน์สมการของบริการ ที่เรียกว่า Q-ปัจจัยที่สอดคล้องกับ (i, u) โดยเฉพาะอย่างยิ่ง เราแทนQ (i, u) มีประมาณเหมาะ Q˜ (ฉัน u, r), ซึ่งจะเป็น ofparameters เวกเตอร์ เราใช้ที่รัฐฉันควบคุม (สภาพ) ที่ช่วยลดการประมาณ Q-ปัจจัยที่สอดคล้องกับ i:
การแปล กรุณารอสักครู่..

ฟังก์ชันเจ˜จะเรียกว่าฟังก์ชันการให้คะแนน และค่า˜ J ( J , R ) จะเรียกคะแนนของรัฐ
J . รูปแบบทั่วไปของเจ˜เป็นที่รู้จักและเป็นเช่นนั้นเมื่อ
พารามิเตอร์เวกเตอร์ r พิจารณา การประเมิน˜ J ( J , R ) ของรัฐใด ๆ
J
ค่อนข้างง่าย เราทราบว่ามีปัญหาในการจบ U ของการแสดงออก
บางอาจจะซับซ้อนเกินไป หรือต้องใช้เวลามากในการตัดสินใจในเรียลไทม์ ,
แม้ว่าคะแนน˜ J ( J , R ) เป็นเพียงการคํานวณ ในปัญหาดังกล่าวเราอาจ
ใช้เทคนิคที่เกี่ยวข้อง ซึ่งเรามีการแสดงออกลดลงใน
สมการยาม ซึ่งเป็นที่รู้จักกันเป็น q-factor สอดคล้องกัน ( , u ) โดยเฉพาะอย่างยิ่งเราแทน
Q ( i , U ) ที่เหมาะสมประมาณ Q ˜ ( I , u , r )ที่ r คือเวกเตอร์การสกัด . เราก็ใช้อยู่ที่ผม ( suboptimal ) การควบคุมที่ลด
q-factor โดยประมาณที่สอดคล้องกับผม :
การแปล กรุณารอสักครู่..
