Markov Decision Processes (MDPs) ar

Markov Decision Processes (MDPs) are a powerful tool
for planning in the presence of uncertainty. MDPs provide
a theoretically sound means of achieving optimal rewards
in uncertain domains. The standard MDP problem
is to find a policy π : S → A that maps states to actions
such that the cumulative long-term reward is maximized according
to some objective function. Over an infinite time
horizon, the objective function is typically a sum of discounted
rewards or the average reward rate as t → ∞(?;
?). Over a finite time horizon, a discount factor is not
needed, and the objective function is typically the sum of
the rewards achieved at each time step.
Our work is motivated by zero-sum games with score and
limited time; in particular, robot soccer. In timed, zerosum
games, winning against the opponent is more important
than the final score. Therefore, a team that is losing
near the end of the game should play aggressively to
Copyright c 2007, Association for the Advancement of Artificial
Intelligence (www.aaai.org). All rights reserved.
try to even the score even if an aggressive strategy allows
the opponent to score more easily. McMillen and Veloso
discuss how a team of soccer-playing robots can change
plays (high-level team strategies) based on factors such as
the time remaining in a game and the score difference (?;
?). However, this strategy selection was hand-tuned, using
simple rules such as, “If our team is losing and there is less
than one minute remaining, play aggressively”.
In this paper, we consider an alternative objective function
for finite-horizon MDPs. Rather than maximizing the
cumulative reward over h time steps, we apply a threshold
function f to the final cumulative reward and seek to maximize
the value of f. We call this the thresholded rewards
objective function. This objective function allows us to derive
optimal strategy selections for timed, zero-sum games,
such as robot soccer, in which the goal is to win: to be ahead
of the opponent after some number of time steps. The optimal
policy for such a domain is one that maximizes the
probability of being ahead at the end of the game. Such a
policy will generally be nonstationary: the optimal action
from a given state depends on the number of timesteps remaining
and the current score difference. In this paper, we
present an exact algorithm for finding optimal policies for
thresholded-rewards MDPs. However, the running time of
this algorithm has a quadratic dependence on the number of
states in the MDP and the length of the time horizon. For
MDPs with large state spaces or long time horizons, the exact
algorithm may be intractable. We therefore investigate a
variety of approximate solution techniques.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

กระบวนการตัดสินใจของ Markov (MDPs) เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวางแผนในต่อหน้าของความไม่แน่นอน MDPs ให้หมายถึงเสียงตามหลักวิชาของการบรรลุเป้าหมายผลตอบแทนที่เหมาะสมในโดเมนที่ไม่แน่นอน ปัญหา MDP มาตรฐานคือ หาπนโยบาย: S → A ที่แผนที่อเมริกากับการดำเนินการที่สะสมระยะยาวสะสมถูกขยายตามบางฟังก์ชันวัตถุประสงค์ เวลาเป็นอนันต์ขอบฟ้า ฟังก์ชันวัตถุประสงค์โดยทั่วไปคือ ผลรวมของส่วนลดผลตอบแทนหรืออัตราผลตอบแทนเฉลี่ยเป็น t →∞(?;?). เหนือขอบฟ้าเวลามีจำกัด ตัวคูณส่วนลดไม่ได้จำ และฟังก์ชันวัตถุประสงค์โดยทั่วไปคือ ผลรวมของรางวัลที่ได้รับในแต่ละขั้นตอนเวลางานของเรามีแรงจูงใจจากเกมผลรวม–ศูนย์มีคะแนน และเวลาจำกัด ในฟุตบอลหุ่นยนต์เฉพาะ ในเวลาที่กำหนด zerosumเกม ชนะกับฝ่ายตรงข้ามเป็นสำคัญกว่าคะแนนสุดท้าย ดังนั้น ทีมที่มีการสูญเสียใกล้ที่สุดของเกมควรเล่นอุกอาจลิขสิทธิ์ 2007 c สมาคมเพื่อความก้าวหน้าของเทียมปัญญา (www.aaai.org) สงวนลิขสิทธิ์ทั้งหมดพยายามแม้คะแนนแม้ว่าจะช่วยให้การใช้กลยุทธ์เชิงรุกฝ่ายตรงข้ามจะได้คะแนนได้ง่ายขึ้น McMillen และ Velosoสนทนาสามารถเปลี่ยนทีมหุ่นยนต์เล่นฟุตบอลบทละคร (กลยุทธ์ทีมระดับ) ขึ้นอยู่กับปัจจัยเช่นเวลาเหลืออยู่ในเกมและผลต่างของคะแนน (?;?). อย่างไรก็ตาม การเลือกกลยุทธ์นี้เป็นมือปรับ ใช้ง่ายกฎเช่น "ถ้าทีมงานของเราจะสูญเสียมีน้อยกว่าหนึ่งนาทีที่เหลือ เล่นอุกอาจ"ในเอกสารนี้ เราพิจารณาฟังก์ชันวัตถุประสงค์ทางการในขอบเขตจำกัด MDPs. Rather กว่าเพิ่มรางวัลสะสมผ่านขั้นตอนเวลา h เราใช้มีขีดจำกัดฟังก์ชัน f จะสะสมรางวัลสุดท้าย และพยายามให้มากที่สุดค่าของ f เราเรียกนี้รางวัล thresholdedฟังก์ชันวัตถุประสงค์ ฟังก์ชันวัตถุประสงค์นี้ทำให้เราได้รับเลือกกลยุทธ์ที่เหมาะสมที่สุดสำหรับเวลา ศูนย์–รวมเกมเช่นหุ่นยนต์ฟุตบอล เป้าหมายคือการ ชนะ: จะเจริญก้าวหน้าของฝ่ายตรงข้ามหลังจากจำนวนเวลาขั้นตอน ดีที่สุดนโยบายสำหรับโดเมนดังกล่าวเป็นที่วางความน่าเป็นการล่วงหน้าในตอนท้ายของเกม ดังกล่าวเป็นนโยบายโดยทั่วไปจะเป็น nonstationary: การดำเนินการที่เหมาะสมจากสิ่งที่กำหนดขึ้นอยู่กับจำนวนที่เหลือ timestepsและความแตกต่างคะแนนปัจจุบัน ในเอกสารนี้ เรานำอัลกอริทึมแน่นอนสำหรับนโยบายที่เหมาะสมที่สุดสำหรับการค้นหารางวัล thresholded MDPs อย่างไรก็ตาม เวลาทำงานของอัลกอริทึมนี้ได้พึ่งจำนวนกำลังสองอเมริกา MDP และความยาวของขอบเขตเวลา สำหรับMDPs ช่องว่างรัฐขนาดใหญ่หรือยาวเวลาฮอลิซันส์ ตรงอัลกอริทึมอาจ intractable เราจึงตรวจสอบการหลากหลายเทคนิคการแก้ปัญหาโดยประมาณ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

กระบวนการตัดสินใจมาร์คอฟ (MDPs)
เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวางแผนในการปรากฏตัวของความไม่แน่นอน MDPs
ให้หมายถึงเสียงในทางทฤษฎีของการบรรลุผลตอบแทนที่ดีที่สุดในโดเมนที่มีความไม่แน่นอน
ปัญหา MDP
มาตรฐานคือการหานโยบายπ: S
→ที่แผนที่รัฐเพื่อการกระทำดังกล่าวว่าผลตอบแทนในระยะยาวที่สะสมขยายตามไปบางส่วนฟังก์ชันวัตถุประสงค์
ในช่วงเวลาที่ไม่มีที่สิ้นสุดขอบฟ้า, ฟังก์ชั่นวัตถุประสงค์โดยทั่วไปจะมีผลรวมของการลดผลตอบแทนหรืออัตราผลตอบแทนเฉลี่ยที่เป็นเสื้อ→∞ (?;?) ช่วงระยะเวลาที่ จำกัด ปัจจัยส่วนลดไม่จำเป็นและฟังก์ชั่นวัตถุประสงค์โดยทั่วไปจะมีผลรวมของผลตอบแทนที่ได้รับในแต่ละขั้นตอนเวลา. การทำงานของเรามีแรงบันดาลใจจากเกมศูนย์รวมมีคะแนนและเวลาที่ จำกัด ; โดยเฉพาะอย่างยิ่งฟุตบอลหุ่นยนต์ ในเวลาที่กำหนด, zerosum เกมชนะกับฝ่ายตรงข้ามที่มีความสำคัญมากขึ้นกว่าคะแนนสุดท้าย ดังนั้นทีมงานที่มีการสูญเสียใกล้ถึงจุดสิ้นสุดของเกมที่ควรจะเล่นเชิงรุกเพื่อลิขสิทธิ์ค2007 สมาคมเพื่อความก้าวหน้าของเทียมหน่วยสืบราชการลับ(www.aaai.org) สงวนลิขสิทธิ์. พยายามที่จะได้คะแนนแม้ว่ากลยุทธ์เชิงรุกช่วยให้ฝ่ายตรงข้ามที่จะทำคะแนนได้ง่ายขึ้น McMillen เบโลโซและหารือเกี่ยวกับวิธีการที่ทีมของหุ่นยนต์ฟุตบอลเล่นสามารถเปลี่ยนบทละคร(ทีมงานระดับสูงกลยุทธ์) ตามปัจจัยต่าง ๆ เช่นเวลาที่เหลืออยู่ในเกมและความแตกต่างคะแนน(?) อย่างไรก็ตามการเลือกใช้กลยุทธ์นี้เป็นมือปรับใช้กฎง่ายๆเช่น"ถ้าทีมงานของเราคือการสูญเสียและมีน้อยกว่าหนึ่งนาทีที่เหลือเล่นอย่างจริงจัง". ในบทความนี้เราจะพิจารณาฟังก์ชันวัตถุประสงค์ทางเลือกสำหรับ MDPs จำกัด ขอบฟ้า . มากกว่าการเพิ่มรางวัลสะสมในช่วงชั่วโมงขั้นตอนเวลาที่เราใช้เกณฑ์ฟังก์ชั่นf เพื่อรางวัลสะสมขั้นสุดท้ายและพยายามที่จะเพิ่มมูลค่าของf เราเรียกวิธีนี้ผลตอบแทน thresholded ฟังก์ชันวัตถุประสงค์ ฟังก์ชั่นนี้จะช่วยให้เรามีวัตถุประสงค์ที่จะได้รับการเลือกกลยุทธ์ที่ดีที่สุดสำหรับหมดเวลาเกมศูนย์รวม, เช่นหุ่นยนต์ฟุตบอลซึ่งมีเป้าหมายที่จะเป็นผู้ชนะ: จะไปข้างหน้าของฝ่ายตรงข้ามหลังจากที่จำนวนขั้นตอนบางเวลา การเสนอนโยบายดังกล่าวโดเมนเป็นสิ่งหนึ่งที่ช่วยเพิ่มความน่าจะเป็นของการเป็นไปข้างหน้าในตอนท้ายของเกม เช่นนโยบายโดยทั่วไปจะไม่คงที่: การดำเนินการที่เหมาะสมจากรัฐได้รับขึ้นอยู่กับจำนวนtimesteps ที่เหลือและความแตกต่างของคะแนนปัจจุบัน ในบทความนี้เราจะนำเสนอขั้นตอนวิธีการที่แน่นอนสำหรับการค้นหานโยบายที่เหมาะสมสำหรับผลตอบแทน-thresholded MDPs แต่เวลาทำงานของอัลกอริทึมนี้มีการพึ่งพาอาศัยสมการกำลังสองกับจำนวนของรัฐในMDP และความยาวของขอบฟ้าเวลา สำหรับMDPs ที่มีช่องว่างขนาดใหญ่ของรัฐหรือขอบฟ้าเวลานานที่แน่นอนขั้นตอนวิธีการอาจจะยาก ดังนั้นเราจึงตรวจสอบความหลากหลายของเทคนิควิธีการแก้ปัญหาโดยประมาณ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

กระบวนการตัดสินใจแบบ ( mdps ) เป็นเครื่องมือที่มีประสิทธิภาพสำหรับ
วางแผนในการแสดงตนของความไม่แน่นอน mdps ให้
เสียงตามทฤษฎี หมายถึงการบรรลุที่ดีที่สุดรางวัล
ในความไม่แน่นอน โดเมน
ปัญหา MDP มาตรฐานคือการหานโยบายπ : S → keyboard - key - name ที่แผนที่ระบุการกระทำดังกล่าวว่า ผลตอบแทนระยะยาวสะสม

บางถูกขยายใหญ่สุดตามวัตถุประสงค์ของฟังก์ชัน เหนือขอบฟ้าเวลา
อนันต์ฟังก์ชันวัตถุประสงค์โดยรวมของลดราคา
รางวัลหรืออัตราเฉลี่ยรางวัลเป็น T → keyboard - key - name ∞ ( ? ;
) ? เมื่อขอบฟ้าเวลา จำกัด ปัจจัยส่วนลดไม่
ต้องการและเป้าหมายการทำงานปกติคือผลรวมของผลตอบแทนที่ได้รับในแต่ละครั้ง

ตอน งานของเราคือ motivated โดยซีโร่ซัมเกมด้วยคะแนนและ
เวลาที่จำกัด โดยเฉพาะหุ่นยนต์ฟุตบอล ในการตั้งเวลา zerosum
เกมส์ชนะคู่แข่งสำคัญ
มากกว่าคะแนนสุดท้าย ดังนั้น ทีมที่แพ้
ใกล้จบของเกมที่ควรจะเล่นเลยเถิด

ลิขสิทธิ์ C 2007 สมาคมเพื่อความก้าวหน้าของปัญญาประดิษฐ์
( www.aaai . org ) สงวนลิขสิทธิ์ .
พยายามแม้คะแนนแม้ว่ากลยุทธ์ที่ก้าวร้าวให้
ฝ่ายตรงข้ามได้ง่ายขึ้น คะแนน ตํา และ เวโลโซ
หารือถึงวิธีการที่ทีมเล่นฟุตบอลหุ่นยนต์สามารถเปลี่ยน
เล่น ( กลยุทธ์ทีมระดับสูง ) ขึ้นอยู่กับปัจจัยต่างๆเช่น
เวลาที่เหลือในเกมและคะแนนที่แตกต่าง ? ;
) ? อย่างไรก็ตาม การเลือกกลยุทธ์นี้เป็นมือจูนโดยใช้
กฎเช่นง่าย " ถ้าทีมเรากำลังจะแพ้ และมีน้อย
กว่า 1 นาทีที่เหลือ เล่นเลยเถิด " .
ในกระดาษนี้เราพิจารณา
ฟังก์ชันวัตถุประสงค์ทางเลือกสำหรับ mdps ฮอไรซอนจำกัด มากกว่าการเพิ่มรางวัลสะสมมากกว่า
H เวลาขั้นตอน เราใช้ฟังก์ชันเกณฑ์
F เพื่อรางวัลสะสมสุดท้ายและแสวงหาเพื่อเพิ่ม
ค่า F . เราเรียกนี้ thresholded รางวัล
วัตถุประสงค์ของฟังก์ชัน นี้มีฟังก์ชั่นช่วยให้เราได้รับการเลือกกลยุทธ์ที่เหมาะสมสำหรับ

หมด ศูนย์รวมเกมเช่นหุ่นยนต์เล่นฟุตบอล ซึ่งมีเป้าหมายที่จะชนะ : จะไปข้างหน้า
ของฝ่ายตรงข้ามหลังจากขั้นตอนที่เวลา นโยบายที่ดีที่สุด
เช่นโดเมนเป็นหนึ่งที่เพิ่มความน่าจะเป็นของการ
ล่วงหน้าที่ส่วนท้ายของเกม เช่น
นโยบายทั่วไปจะติจิ : เหมาะสมกระทำ
จากให้รัฐขึ้นอยู่กับจำนวน timesteps ที่เหลือ
และผลต่างคะแนนปัจจุบันในกระดาษนี้เรา
ปัจจุบันแน่นอนขั้นตอนวิธีสำหรับการหานโยบายที่เหมาะสมสำหรับ mdps รางวัล
thresholded . อย่างไรก็ตาม เวลาทํางานของ
ขั้นตอนวิธีนี้มียอดการพึ่งพาจำนวน
รัฐใน MDP และความยาวของเวลาที่ขอบฟ้า สำหรับ
mdps ที่มีขนาดใหญ่ของรัฐเป็นหรือขอบเขตเวลาที่แน่นอนขั้นตอนวิธี
อาจจะแก่นแก้ว เราจึงศึกษา
เทคนิคที่หลากหลายโซลูชั่นประมาณ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.