where j is the state subsequent to

where j is the state subsequent to i, and E{· | i, u} denoted expected value with
respect to j, given i and u. Generally, at each state i, it is optimal to use a
control u that attains the minimum above. Thus, decisions are ranked based on
the sum of the expected cost of the present period, and the optimal expected
cost of all subsequent periods.
The objective of DP is to calculate numerically the optimal cost function
J
∗
. This computation can be done off-line, i.e., before the real system starts
operating. An optimal policy, that is, an optimal choice of u for each i, is
computed either simultaneously with J
∗
, or in real time by minimizing in the
right-hand side of Bellman’s equation. It is well known, however, that for many
important problems the computational requirements of DP are overwhelming,
mainly because of a very large number of states and controls (Bellman’s “curse
of dimensionality”). In such situations a suboptimal solution is required.
Cost Approximations in Dynamic Programming
NDP methods are suboptimal methods that center around the approximate
evaluation of the optimal cost function J
∗
, possibly through the use of neural
networks and/or simulation. In particular, we replace the optimal cost J
∗
(j)
with a suitable approximation J˜(j, r), where r is a vector of parameters, and
we use at state i the (suboptimal) control ˜µ(i) that attains the minimum in the
(approximate) right-hand side of Bellman’s equation

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ที่เจเป็นรัฐ subsequent to i และ E {· | i, u } สามารถบุค่าคาดหมายเคารพการเจ คุณและฉัน ทั่วไป ในแต่ละรัฐ มันจะใช้การควบคุม u ที่ attains ต่ำข้างต้น ดังนั้น การตัดสินใจมีการจัดอันดับตามผลรวมของต้นทุนของรอบระยะเวลาปัจจุบัน และสูงสุดที่คาดไว้ต้นทุนของรอบระยะเวลาต่อมาทั้งหมดวัตถุประสงค์ของ DP จะคำนวณฟังก์ชันต้นทุนเหมาะสมเรียงตามตัวเลขเจ∗. คำนวณนี้ก็เริ่มต้นออฟไลน์ เช่น ก่อนระบบจริงปฏิบัติงาน นโยบายดีที่สุด คือ การให้บริการทางของคุณสำหรับแต่ละ iคำนวณอย่างใดอย่างหนึ่งพร้อมกับเจ∗หรือ ในเวลาจริงโดยย่อในการด้านขวามือของสมการของบริการ มันเป็นที่รู้จัก อย่างไรก็ตาม ที่สำหรับหลายปัญหาสำคัญที่ต้องคำนวณของ DP จะครอบงำส่วนใหญ่เป็น เพราะจำนวนมากของอเมริกาและการควบคุม (บริการของ "สาปแช่งของ dimensionality") ในสถานการณ์เช่น สภาพปัญหานั้นจำเป็นต้องเพียงการประมาณต้นทุนในการเขียนโปรแกรมแบบไดนามิกวิธี NDP มีวิธีสภาพศูนย์สถานโดยประมาณการประเมินของต้นทุนที่เหมาะสมที่สุดฟังก์ชัน J∗อาจผ่านการใช้ประสาทเครือข่าย/ การจำลอง โดยเฉพาะอย่างยิ่ง เราแทนต้นทุนสูงสุด J∗(เจ)มีความเหมาะสมประมาณ J˜ (j, r), ซึ่งจะเป็นเวกเตอร์ของพารามิเตอร์ และเราใช้ที่รัฐฉัน ˜µ(i) ควบคุม (สภาพ) ที่ attains ปริมาณต่ำสุดในการ(โดยประมาณ) ด้านขวามือของสมการของบริการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ที่เจเป็นรัฐภายหลังจาก i และ E {· | i, u}
แสดงค่าที่คาดหวังด้วยความเคารพญให้ฉันและu
โดยทั่วไปที่รัฐแต่ละฉันมันเป็นที่ดีที่สุดที่จะใช้ยูควบคุมที่บรรลุขั้นต่ำดังกล่าวข้างต้น ดังนั้นการตัดสินใจที่มีการจัดอันดับขึ้นอยู่กับผลรวมของค่าใช้จ่ายที่คาดหวังของยุคปัจจุบันและคาดว่าดีที่สุดค่าใช้จ่ายในระยะเวลาต่อมาทั้งหมด. วัตถุประสงค์ของ DP คือการคำนวณตัวเลขค่าใช้จ่ายในการทำงานที่ดีที่สุดJ * การคำนวณนี้สามารถทำได้แบบ off-line คือก่อนที่จะเริ่มต้นที่แท้จริงของระบบปฏิบัติการ นโยบายที่ดีที่สุดที่เป็นทางเลือกที่ดีที่สุดของท่านสำหรับแต่ละฉันจะคำนวณทั้งพร้อมกันกับ J * หรือในเวลาจริงโดยการลดในด้านขวามือของสมการของยาม มันเป็นที่รู้จักกันดี แต่ที่หลายปัญหาที่สำคัญในการคำนวณความต้องการของDP เป็นครอบงำส่วนใหญ่เป็นเพราะจำนวนมากของรัฐและการควบคุม(ยามของ "คำสาปแช่งของมิติ") ในสถานการณ์เช่นการแก้ปัญหาที่ก่อให้เกิดผลลัพธ์ที่จะต้อง. ประการค่าใช้จ่ายในการเขียนโปรแกรมแบบไดนามิกวิธี NDP จะก่อให้เกิดผลลัพธ์ที่วิธีการศูนย์รอบประมาณการประเมินผลการทำงานของค่าใช้จ่ายที่ดีที่สุดJ * อาจจะผ่านการใช้ประสาทเครือข่ายและ / หรือการจำลอง โดยเฉพาะอย่างยิ่งเราแทนที่ค่าใช้จ่ายที่ดีที่สุด J * (ญ) กับ J~ ประมาณที่เหมาะสม (เจอา) ที่ r คือเวกเตอร์ของพารามิเตอร์และเราจะใช้ที่รัฐฉัน(ที่ก่อให้เกิดผลลัพธ์) การควบคุม~μ (i) ที่ บรรลุขั้นต่ำที่(โดยประมาณ) ด้านขวามือของสมการของยาม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ที่ J รัฐภายหลังฉันและ e u } { ด้วย | ผม กล่าวคือ คาดว่ามูลค่ากับ
เคารพเจให้ผมและสหรัฐอเมริกา โดยในแต่ละสภาพผม มันเป็นที่เหมาะสมที่จะใช้
U ที่ได้ควบคุมต่ำสุดข้างต้น ดังนั้น การตัดสินใจจะถูกจัดอันดับตามคาด
ผลรวมของต้นทุนของช่วงเวลาปัจจุบัน และคาดว่าค่าใช้จ่ายของรอบระยะเวลาที่เหมาะสม

ตามมาทั้งหมดวัตถุประสงค์ของ DP คือการคํานวณเชิงตัวเลขฟังก์ชันต้นทุนที่เหมาะสม∗ J

การคำนวณนี้สามารถทำได้ในประเทศ เช่น ก่อนที่ระบบที่แท้จริง
ปฏิบัติการ ที่เหมาะสม นโยบายที่เป็นทางเลือกที่ดีที่สุดของคุณสำหรับแต่ละชั้น จะคำนวณให้พร้อมกันกับ J

∗หรือในเวลาจริงโดยการลดใน
ขวามือของสมการยาม . มันเป็นที่รู้จักกันเป็นอย่างดี อย่างไรก็ตาม หลาย
ปัญหาที่สำคัญความต้องการคอมพิวเตอร์ของ DP เป็นอย่างดี
เพราะส่วนใหญ่ของตัวเลขขนาดใหญ่ของรัฐและการควบคุม ( ยามเป็น " คำสาปของ dimensionality
" ) ในสถานการณ์ดังกล่าวเป็นโซลูชั่น suboptimal .
ต้นทุนการในวิธีการ NDP พลวัต
วิธีการ suboptimal ที่ศูนย์รอบการประเมินที่เหมาะสมของฟังก์ชันต้นทุนโดยประมาณ
J
∗
,อาจจะผ่านการใช้เครือข่ายประสาท
และ / หรือจำลอง โดยเฉพาะอย่างยิ่งเราทดแทนต้นทุนที่เหมาะสม∗ J

( J )
กับเหมาะประมาณ J ˜ ( J , R ) โดยที่ r คือเวกเตอร์ของตัวแปรและ
เราใช้ที่สภาพผม ( suboptimal ) ˜µควบคุม ( ผม ) ที่ได้น้อยที่สุดใน
( โดยประมาณ ) ด้านขวามือของพนักงานของสมการ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.