The DP formalism encodes informatio

The DP formalism encodes information in the form of a "reward-to-go" function (see Puterman, 1994, for details) and chooses an action that maximizes the sum of the immediate reward and the expected "reward- to-go". Thus, to compute the optimal action in any given state the "reward-to-go" function for all the future states must be known. In many applications of DP, the number of states and actions available in each state are large; consequently, the computational e®ort required to compute the optimal policy for a DP can be overwhelming { Bellman's "curse of dimensionality". For this reason, considerable recent research e®ort has focused on developing algorithms that compute an approximately optimal policy e±ciently (Bertsekas and Tsitsiklis, 1996; de Farias and Van Roy, 2002).

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

DP formalism จแมปข้อมูลในรูปแบบของ "รางวัลการไป" ทำงาน (ดู Puterman, 1994 รายละเอียด) และเลือกการดำเนินการที่วางผลรวมของรางวัลทันทีและคาดว่า "รางวัลการไป" ดังนั้น การคำนวณการดำเนินการที่เหมาะสมที่สุดในรัฐใดกำหนดฟังก์ชัน "รางวัลเพื่อไป" ของอเมริกาในอนาคตทั้งหมดต้องทราบ ในโปรแกรมประยุกต์ที่มากมายของ DP จำนวนของอเมริกาและดำเนินการในแต่ละรัฐมีขนาดใหญ่ ดังนั้น อีคำนวณ ® ต้องคำนวณนโยบายเหมาะสมที่สุดสำหรับ DP สามารถครอบงำ ort {บริการของ "คำสาปของ dimensionality" ด้วยเหตุนี้ จำนวนมากล่าสุดวิจัยอี ® ort ได้เน้นพัฒนาอัลกอริทึมที่คำนวณเป็นนโยบายที่เหมาะสมประมาณ e±ciently (Bertsekas และ Tsitsiklis, 1996; de Farias และรอยรถตู้ 2002)

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

พิธี DP เข้ารหัสข้อมูลในรูปแบบของ "รางวัลต่อไป" ฟังก์ชั่น (ดู Puterman 1994 สำหรับรายละเอียด) และเลือกการกระทำที่เพิ่มผลรวมของรางวัลทันทีและคาดว่า "reward- ต่อไป" ดังนั้นในการคำนวณการดำเนินการที่ดีที่สุดในรัฐใดก็ตาม "รางวัลต่อไป" ฟังก์ชั่นสำหรับทุกรัฐในอนาคตจะต้องรู้จัก ในการใช้งานหลาย DP, จำนวนของรัฐและการกระทำที่มีอยู่ในแต่ละรัฐที่มีขนาดใหญ่ ดังนั้นe®ortคำนวณที่จำเป็นในการคำนวณนโยบายที่ดีที่สุดสำหรับ DP สามารถครอบงำ {ยามของ "คำสาปแช่งของมิติ" ด้วยเหตุนี้การวิจัยล่าสุดe®ortมากได้มุ่งเน้นไปที่การพัฒนาอัลกอริทึมที่คำนวณนโยบายที่เหมาะสมประมาณ±อี ciently (Bertsekas และ Tsitsiklis 1996; เด Farias และ Van Roy, 2002)

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

DP แบบเข้ารหัสข้อมูลในรูปแบบของ " รางวัลไป " ฟังก์ชัน ( ดู puterman 1994 รายละเอียด ) และเลือกการกระทำที่เพิ่มจำนวนรางวัลทันที และคาดว่า " รางวัล - ไป " ดังนั้น ในการคำนวณการกระทำที่ดีที่สุดในรัฐใด ๆที่ได้รับ " รางวัลไป " ฟังก์ชันสำหรับอนาคตรัฐจะต้องรู้จัก ในการใช้งานหลายของ DP ,หมายเลขของรัฐและการกระทำที่มีอยู่ในแต่ละรัฐมีขนาดใหญ่ ดังนั้น การคำนวณ E ®สถานต้องหานโยบายที่เหมาะสมสำหรับ DP จะยุ่งยาก { ยามเป็น " คำสาปของ dimensionality " ด้วยเหตุผลนี้มากการวิจัยล่าสุด E ®สถานได้มุ่งเน้นการพัฒนาอัลกอริทึมที่ค่าประมาณที่เหมาะสมนโยบาย E ± ciently ( bertsekas และ tsitsiklis , 1996 ;เดอ farias และ Van Roy , 2002 )

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.