In this paper we propose a robust f

In this paper we propose a robust formulation for discrete time dynamic programming (DP). The
objective of the robust formulation is to systematically mitigate the sensitivity of the DP optimal policy
to ambiguity in the underlying transition probabilities. The ambiguity is modeled by associating a
set of conditional measures with each state-action pair. Consequently, in the robust formulation each
policy has a set of measures associated with it. We prove that when this set of measures has a certain
“Rectangularity” property all the main results for finite and infinite horizon DP extend to natural robust
counterparts. We identify families of sets of conditional measures for which the computational complexity
of solving the robust DP is only modestly larger than solving the DP, typically logarithmic in the size
of the state space. These families of sets are constructed from the confidence regions associated with
density estimation, and therefore, can be chosen to guarantee any desired level of confidence in the robust
optimal policy. Moreover, the sets can be easily parameterized from historical data. We contrast the
performance of robust and non-robust DP on small numerical examples

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ในเอกสารนี้ เราเสนอกำหนดที่แข็งแกร่งสำหรับการเขียนโปรแกรมแบบเวลาไม่ต่อเนื่อง (DP) ที่วัตถุประสงค์ของการกำหนดประสิทธิภาพจะลดความไวของนโยบายสูงสุดของ DP อย่างเป็นระบบการย่อในกิจกรรมเปลี่ยนแปลงต้นแบบ เป็นจำลองที่ย่อ โดยเชื่อมโยงการชุดของมาตรการเงื่อนไขกับแต่ละคู่ดำเนินการรัฐ ดังนั้น ในแข็งแกร่งแบ่งแต่ละนโยบายมีชุดของมาตรการที่เกี่ยวข้อง เราพิสูจน์ว่า เมื่อนี้ตั้งมาตรการมีความบางคุณสมบัติ "rectangularity" ขยายผลหลักทั้งหมดในขอบเขตจำกัด และอนันต์ DP เพื่อธรรมชาติแข็งแกร่งคู่ เราระบุครอบครัวชุดมาตรการเงื่อนไขที่ซับซ้อนคำนวณแก้ไข DP แข็งแกร่งขึ้นเท่านั้นทั้งกว่าแก้ DP ลอการิทึมโดยทั่วไปในขนาดพื้นที่รัฐ ครอบครัวของชุดเหล่านี้จะสร้างจากขอบเขตความเชื่อมั่นเกี่ยวข้องกับการประเมินความหนาแน่น และดังนั้น สามารถเลือกการรับประกันใด ๆ ที่ต้องการระดับความเชื่อมั่นในแข็งแกร่งนโยบายดีที่สุด นอกจากนี้ ชุดสามารถจะได้ค่าพารามิเตอร์จากข้อมูลประวัติศาสตร์ เราความคมชัดประสิทธิภาพของ DP ไม่แข็งแรง และแข็งแกร่งในตัวอย่างเป็นตัวเลขขนาดเล็ก

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ในบทความนี้เรานำเสนอสูตรที่แข็งแกร่งต่อเนื่องในช่วงเวลาเขียนโปรแกรมแบบไดนามิก (DP)
วัตถุประสงค์ของการกำหนดที่แข็งแกร่งคือการมีระบบลดความไวของนโยบายที่ดีที่สุด DP
ความกำกวมในการเปลี่ยนแปลงความน่าจะเป็นพื้นฐาน ความคลุมเครือเป็นแบบจำลองโดยการเชื่อมโยง
ชุดของมาตรการเงื่อนไขกับแต่ละคู่รัฐกระทำ ดังนั้นในการกำหนดที่แข็งแกร่งในแต่ละ
นโยบายที่ได้มีการกำหนดมาตรการที่เกี่ยวข้องกับมัน เราพิสูจน์ให้เห็นว่าเมื่อชุดของมาตรการนี้มีบางอย่าง
"Rectangularity" ในสถานที่ทั้งหมดผลหลักสำหรับขอบฟ้า จำกัด และอนันต์ DP ขยายไปยังแข็งแกร่งธรรมชาติ
ลูกน้อง เราระบุครอบครัวของชุดของมาตรการที่มีเงื่อนไขที่ซับซ้อนในการคำนวณ
ของการแก้ DP ที่แข็งแกร่งเป็นเพียงสุภาพขนาดใหญ่กว่าการแก้ DP โดยทั่วไปลอการิทึมในขนาด
ของพื้นที่ของรัฐ ครอบครัวเหล่านี้ชุดถูกสร้างขึ้นจากความเชื่อมั่นของภูมิภาคที่เกี่ยวข้องกับ
การประมาณค่าความหนาแน่นและดังนั้นจึงสามารถเลือกที่จะรับประกันใด ๆ ในระดับที่ต้องการความเชื่อมั่นในประสิทธิภาพ
ของนโยบายที่ดีที่สุด นอกจากนี้ยังมีชุดที่สามารถแปรได้อย่างง่ายดายจากข้อมูลทางประวัติศาสตร์ เราแตกต่าง
ของผลการดำเนินงานที่แข็งแกร่งและ DP ที่ไม่แข็งแกร่งในตัวอย่างตัวเลขที่มีขนาดเล็ก

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ในกระดาษนี้เราเสนอสูตรที่แข็งแกร่งสำหรับแบ่งแยกเวลาพลวัต ( DP )
วัตถุประสงค์ของการกำหนดที่แข็งแกร่งระบบลดความไวของ DP ที่ดีที่สุดนโยบาย
ความกำกวมในการเปลี่ยนสถานะเป็นต้น . ความคลุมเครือเป็นแบบประกอบเป็นชุดของมาตรการตามเงื่อนไข
กับแต่ละรัฐกระทำคู่ จากนั้นในการกำหนดนโยบายที่แข็งแกร่งแต่ละ
มีชุดของมาตรการที่เกี่ยวข้องกับมัน เราพิสูจน์ได้ว่า เมื่อชุดของมาตรการนี้มีบางอย่าง
" ซึ่งเป็นรูปสี่เหลี่ยมมุมฉาก " คุณสมบัติหลักทั้งหมดผลจำกัดและอนันต์ขอบฟ้า DP ขยายคู่ที่แข็งแกร่ง
ธรรมชาติ เราระบุชุดของครอบครัวของมาตรการตามเงื่อนไขที่
ความซับซ้อนเชิงคำนวณแก้ไข DP ที่แข็งแกร่งเพียงอย่างถ่อมตัวมากกว่าการแก้ปัญหา DP โดยปกติลอการิทึมในขนาด
สภาพอวกาศ เหล่านี้ชุดของครอบครัวจะถูกสร้างขึ้นจากความมั่นใจในภูมิภาคที่เกี่ยวข้องกับ
ประมาณความหนาแน่น และดังนั้นจึง สามารถเลือกที่จะรับประกันระดับที่ต้องการความมั่นใจในนโยบายที่แข็งแกร่งที่สุด

นอกจากนี้ ชุดสามารถได้อย่างง่ายดายพารามิเตอร์จากข้อมูลทางประวัติศาสตร์ตรงกันข้ามเรา
ประสิทธิภาพคงทนและไม่คงทนในตัวอย่างขนาดเล็ก ( ดีพี

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.