This paper is concerned with sequen

This paper is concerned with sequential decision making in uncertain environments. Decisions are made in stages and each decision, in addition to providing an immediate reward, changes the context of future decisions; thereby aﬀecting the future rewards. Due to the uncertain nature of the environment, there is limited information about both the immediate reward from each decision and the resulting future state. In order to achieve a good performance over all the stages the decision maker has to trade-oﬀ the immediate payoﬀ with future payoﬀs. Dynamic programming (DP) is the mathematical framework that allows the decision maker to eﬃciently compute a good overall strategy by succinctly encoding the evolving information state. In the DP formalism the uncertainty in the environment is modeled by a Markov process whose transition probability depends both on the information state and the action taken by the decision maker. It is assumed that the transition probability corresponding to each state-action pair is known to the decision maker, and the goal is to choose a policy, i.e. a rule that maps states to actions, that maximizes some performance measure. Puterman (1994) provides a excellent introduction to the DP formalism and its various applications. In this paper, we assume that the reader has some prior knowledge of DP.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

กระดาษนี้จะเกี่ยวข้องกับการตัดสินใจลำดับในสภาพแวดล้อมที่ไม่แน่นอน ตัดสินใจในขั้นตอน และตัดสินใจแต่ละ เรามีรางวัลทันที เปลี่ยนบริบทของการตัดสินใจในอนาคต จึง aﬀecting อนาคตสะสม°รีวอร์ด เนื่องจากลักษณะไม่แน่นอนของสิ่งแวดล้อม มีข้อมูลที่จำกัดเกี่ยวกับรางวัลทั้งสองทันทีจากการตัดสินใจแต่ละรัฐในอนาคตได้ เพื่อให้บรรลุประสิทธิภาพที่ดีกว่าทุกขั้นตอน การตัดสินใจได้ค้า oﬀ payoﬀ ทันทีกับในอนาคต payoﬀs การเขียนโปรแกรมแบบไดนามิก (DP) เป็นกรอบงานทางคณิตศาสตร์ที่ช่วยให้การตัดสินใจกับ eﬃciently คำนวณกลยุทธ์โดยรวมดี โดย succinctly เข้ารหัสสถานะข้อมูลเกิดขึ้น DP formalism จำลองความไม่แน่นอนในสิ่งแวดล้อมโดยกระบวน Markov ความน่าเป็นช่วงที่มีขึ้นอยู่ทั้ง ในสถานะข้อมูลและการดำเนินการ โดยการตัดสินใจ ก็จะสรุปได้ว่า ความเปลี่ยนแปลงที่สอดคล้องกับแต่ละคู่ดำเนินการรัฐเป็นที่รู้จักการตัดสินใจ และมีเป้าหมายที่จะ เลือกนโยบาย เช่นกฎให้แผนที่อเมริกาการกระทำ ที่วางบางวัดประสิทธิภาพ Puterman (1994) แนะนำแห่ง DP formalism และโปรแกรมประยุกต์ต่าง ๆ ของทาง ในเอกสารนี้ เราคิดว่า ผู้อ่านมีความรู้บางเดิมของ DP

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

กระดาษนี้จะเกี่ยวข้องกับการตัดสินใจตามลำดับในสภาพแวดล้อมที่มีความไม่แน่นอน การตัดสินใจที่จะทำในขั้นตอนและการตัดสินใจของแต่ละนอกเหนือจากการให้รางวัลทันทีเปลี่ยนแปลงบริบทของการตัดสินใจในอนาคต; จึง FF ecting ผลตอบแทนในอนาคต เนื่องจากลักษณะความไม่แน่นอนของสภาพแวดล้อมที่มีข้อมูลที่ จำกัด เกี่ยวกับทั้งรางวัลทันทีจากการตัดสินใจของแต่ละคนและส่งผลให้รัฐในอนาคต เพื่อให้บรรลุผลงานที่ดีกว่าในทุกขั้นตอนการตัดสินใจที่มีการค้า o ฉฉฉฉ Payo ทันทีที่มี Payo อนาคตฉฉ s การเขียนโปรแกรมแบบไดนามิก (DP) เป็นกรอบทางคณิตศาสตร์ที่ช่วยให้ตัดสินใจยัง e FFI ciently คำนวณกลยุทธ์โดยรวมที่ดีโดยชัดถ้อยชัดคำเข้ารหัสข้อมูลการพัฒนาของรัฐ ในพิธี DP ความไม่แน่นอนในสภาพแวดล้อมที่มีการสร้างแบบจำลองโดยกระบวนการมาร์คอฟที่มีการเปลี่ยนแปลงขึ้นอยู่กับความน่าจะเป็นทั้งในรัฐข้อมูลและการดำเนินการโดยการตัดสินใจ มันจะสันนิษฐานว่าน่าจะเป็นการเปลี่ยนแปลงที่สอดคล้องกับแต่ละคู่ที่รัฐดำเนินการเป็นที่รู้จักกันตัดสินใจและเป้าหมายก็คือการเลือกนโยบายคือกฎที่แผนที่รัฐเพื่อการกระทำที่ช่วยเพิ่มประสิทธิภาพการทำงานของบางวัด Puterman (1994) ให้แนะนำที่ดีกับพิธี DP และการใช้งานต่างๆ ในบทความนี้เราคิดว่าผู้อ่านที่มีความรู้ก่อน DP

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

บทความนี้เกี่ยวข้องกับลําดับการตัดสินใจในสภาพแวดล้อมที่ไม่แน่นอน การตัดสินใจในแต่ละขั้นตอน และการตัดสินใจ นอกจากการให้รางวัลทันที การเปลี่ยนแปลงบริบทของการตัดสินใจในอนาคต จึงเป็นﬀ ecting ผลตอบแทนในอนาคต เนื่องจากลักษณะที่ไม่แน่นอนของสิ่งแวดล้อมมีการ จำกัด ข้อมูลเกี่ยวกับ ทันที การตัดสินใจ และผลรางวัลจากแต่ละรัฐในอนาคต เพื่อบรรลุประสิทธิภาพที่ดีกว่าทุกขั้นตอนตัดสินใจได้ trade-o ﬀที่ payo ﬀทันทีกับอนาคต payo ﬀ sการเขียนโปรแกรมแบบไดนามิก ( DP ) เป็นกรอบทางคณิตศาสตร์ที่ช่วยให้ผู้ตัดสินใจที่จะ e ﬃ ciently คำนวณโดยรวมดี กลยุทธ์การพัฒนาโดยรัดกุมเข้ารหัสข้อมูลรัฐ ใน DP แบบความไม่แน่นอนในสภาพแวดล้อมแบบโดยกระบวนการมาร์คอฟ ซึ่งน่าจะเป็นการเปลี่ยนจะขึ้นอยู่กับทั้งข่าวสารของรัฐและการกระทำที่ถ่ายโดยผู้ตัดสินใจมันจะสันนิษฐานว่าน่าจะเป็นการกระทำที่สอดคล้องกับแต่ละรัฐคู่เป็นที่รู้จักกันเพื่อตัดสินใจ และมีเป้าหมายที่จะเลือกนโยบาย คือ กฎที่แผนที่รัฐกระทำที่เพิ่มประสิทธิภาพบางวัด puterman ( 1994 ) มีการแนะนำที่ดีกับ DP แบบและโปรแกรมต่าง ๆ ในกระดาษนี้เราสันนิษฐานว่า ผู้อ่านมีความรู้เดิมของ DP .

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.