Markov Decision Processes (MDPs) are a powerful toolfor planning in th การแปล - Markov Decision Processes (MDPs) are a powerful toolfor planning in th ไทย วิธีการพูด

Markov Decision Processes (MDPs) ar

Markov Decision Processes (MDPs) are a powerful tool
for planning in the presence of uncertainty. MDPs provide
a theoretically sound means of achieving optimal rewards
in uncertain domains. The standard MDP problem
is to find a policy π : S → A that maps states to actions
such that the cumulative long-term reward is maximized according
to some objective function. Over an infinite time
horizon, the objective function is typically a sum of discounted
rewards or the average reward rate as t → ∞(?;
?). Over a finite time horizon, a discount factor is not
needed, and the objective function is typically the sum of
the rewards achieved at each time step.
Our work is motivated by zero-sum games with score and
limited time; in particular, robot soccer. In timed, zerosum
games, winning against the opponent is more important
than the final score. Therefore, a team that is losing
near the end of the game should play aggressively to
Copyright c 2007, Association for the Advancement of Artificial
Intelligence (www.aaai.org). All rights reserved.
try to even the score even if an aggressive strategy allows
the opponent to score more easily. McMillen and Veloso
discuss how a team of soccer-playing robots can change
plays (high-level team strategies) based on factors such as
the time remaining in a game and the score difference (?;
?). However, this strategy selection was hand-tuned, using
simple rules such as, “If our team is losing and there is less
than one minute remaining, play aggressively”.
In this paper, we consider an alternative objective function
for finite-horizon MDPs. Rather than maximizing the
cumulative reward over h time steps, we apply a threshold
function f to the final cumulative reward and seek to maximize
the value of f. We call this the thresholded rewards
objective function. This objective function allows us to derive
optimal strategy selections for timed, zero-sum games,
such as robot soccer, in which the goal is to win: to be ahead
of the opponent after some number of time steps. The optimal
policy for such a domain is one that maximizes the
probability of being ahead at the end of the game. Such a
policy will generally be nonstationary: the optimal action
from a given state depends on the number of timesteps remaining
and the current score difference. In this paper, we
present an exact algorithm for finding optimal policies for
thresholded-rewards MDPs. However, the running time of
this algorithm has a quadratic dependence on the number of
states in the MDP and the length of the time horizon. For
MDPs with large state spaces or long time horizons, the exact
algorithm may be intractable. We therefore investigate a
variety of approximate solution techniques.
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
Markov Decision Processes (MDPs) are a powerful toolfor planning in the presence of uncertainty. MDPs providea theoretically sound means of achieving optimal rewardsin uncertain domains. The standard MDP problemis to find a policy π : S → A that maps states to actionssuch that the cumulative long-term reward is maximized accordingto some objective function. Over an infinite timehorizon, the objective function is typically a sum of discountedrewards or the average reward rate as t → ∞(?;?). Over a finite time horizon, a discount factor is notneeded, and the objective function is typically the sum ofthe rewards achieved at each time step.Our work is motivated by zero-sum games with score andlimited time; in particular, robot soccer. In timed, zerosumgames, winning against the opponent is more importantthan the final score. Therefore, a team that is losingnear the end of the game should play aggressively toCopyright c 2007, Association for the Advancement of ArtificialIntelligence (www.aaai.org). All rights reserved.try to even the score even if an aggressive strategy allowsthe opponent to score more easily. McMillen and Velosodiscuss how a team of soccer-playing robots can changeplays (high-level team strategies) based on factors such asthe time remaining in a game and the score difference (?;?). However, this strategy selection was hand-tuned, usingsimple rules such as, “If our team is losing and there is lessกว่าหนึ่งนาทีที่เหลือ เล่นอุกอาจ"ในเอกสารนี้ เราพิจารณาฟังก์ชันวัตถุประสงค์ทางการในขอบเขตจำกัด MDPs. Rather กว่าเพิ่มรางวัลสะสมผ่านขั้นตอนเวลา h เราใช้มีขีดจำกัดฟังก์ชัน f จะสะสมรางวัลสุดท้าย และพยายามให้มากที่สุดค่าของ f เราเรียกนี้รางวัล thresholdedฟังก์ชันวัตถุประสงค์ ฟังก์ชันวัตถุประสงค์นี้ทำให้เราได้รับเลือกกลยุทธ์ที่เหมาะสมที่สุดสำหรับเวลา ศูนย์–รวมเกมเช่นหุ่นยนต์ฟุตบอล เป้าหมายคือการ ชนะ: จะเจริญก้าวหน้าของฝ่ายตรงข้ามหลังจากจำนวนเวลาขั้นตอน ดีที่สุดนโยบายสำหรับโดเมนดังกล่าวเป็นที่วางความน่าเป็นการล่วงหน้าในตอนท้ายของเกม ดังกล่าวเป็นนโยบายโดยทั่วไปจะเป็น nonstationary: การดำเนินการที่เหมาะสมจากสิ่งที่กำหนดขึ้นอยู่กับจำนวนที่เหลือ timestepsและความแตกต่างคะแนนปัจจุบัน ในเอกสารนี้ เรานำอัลกอริทึมแน่นอนสำหรับนโยบายที่เหมาะสมที่สุดสำหรับการค้นหารางวัล thresholded MDPs อย่างไรก็ตาม เวลาทำงานของอัลกอริทึมนี้ได้พึ่งจำนวนกำลังสองอเมริกา MDP และความยาวของขอบเขตเวลา สำหรับMDPs ช่องว่างรัฐขนาดใหญ่หรือยาวเวลาฮอลิซันส์ ตรงอัลกอริทึมอาจ intractable เราจึงตรวจสอบการหลากหลายเทคนิคการแก้ปัญหาโดยประมาณ
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
กระบวนการตัดสินใจมาร์คอฟ (MDPs)
เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวางแผนในการปรากฏตัวของความไม่แน่นอน MDPs
ให้หมายถึงเสียงในทางทฤษฎีของการบรรลุผลตอบแทนที่ดีที่สุดในโดเมนที่มีความไม่แน่นอน
ปัญหา MDP
มาตรฐานคือการหานโยบายπ: S
→ที่แผนที่รัฐเพื่อการกระทำดังกล่าวว่าผลตอบแทนในระยะยาวที่สะสมขยายตามไปบางส่วนฟังก์ชันวัตถุประสงค์
ในช่วงเวลาที่ไม่มีที่สิ้นสุดขอบฟ้า, ฟังก์ชั่นวัตถุประสงค์โดยทั่วไปจะมีผลรวมของการลดผลตอบแทนหรืออัตราผลตอบแทนเฉลี่ยที่เป็นเสื้อ→∞ (?;?) ช่วงระยะเวลาที่ จำกัด ปัจจัยส่วนลดไม่จำเป็นและฟังก์ชั่นวัตถุประสงค์โดยทั่วไปจะมีผลรวมของผลตอบแทนที่ได้รับในแต่ละขั้นตอนเวลา. การทำงานของเรามีแรงบันดาลใจจากเกมศูนย์รวมมีคะแนนและเวลาที่ จำกัด ; โดยเฉพาะอย่างยิ่งฟุตบอลหุ่นยนต์ ในเวลาที่กำหนด, zerosum เกมชนะกับฝ่ายตรงข้ามที่มีความสำคัญมากขึ้นกว่าคะแนนสุดท้าย ดังนั้นทีมงานที่มีการสูญเสียใกล้ถึงจุดสิ้นสุดของเกมที่ควรจะเล่นเชิงรุกเพื่อลิขสิทธิ์ค2007 สมาคมเพื่อความก้าวหน้าของเทียมหน่วยสืบราชการลับ(www.aaai.org) สงวนลิขสิทธิ์. พยายามที่จะได้คะแนนแม้ว่ากลยุทธ์เชิงรุกช่วยให้ฝ่ายตรงข้ามที่จะทำคะแนนได้ง่ายขึ้น McMillen เบโลโซและหารือเกี่ยวกับวิธีการที่ทีมของหุ่นยนต์ฟุตบอลเล่นสามารถเปลี่ยนบทละคร(ทีมงานระดับสูงกลยุทธ์) ตามปัจจัยต่าง ๆ เช่นเวลาที่เหลืออยู่ในเกมและความแตกต่างคะแนน(?) อย่างไรก็ตามการเลือกใช้กลยุทธ์นี้เป็นมือปรับใช้กฎง่ายๆเช่น"ถ้าทีมงานของเราคือการสูญเสียและมีน้อยกว่าหนึ่งนาทีที่เหลือเล่นอย่างจริงจัง". ในบทความนี้เราจะพิจารณาฟังก์ชันวัตถุประสงค์ทางเลือกสำหรับ MDPs จำกัด ขอบฟ้า . มากกว่าการเพิ่มรางวัลสะสมในช่วงชั่วโมงขั้นตอนเวลาที่เราใช้เกณฑ์ฟังก์ชั่นf เพื่อรางวัลสะสมขั้นสุดท้ายและพยายามที่จะเพิ่มมูลค่าของf เราเรียกวิธีนี้ผลตอบแทน thresholded ฟังก์ชันวัตถุประสงค์ ฟังก์ชั่นนี้จะช่วยให้เรามีวัตถุประสงค์ที่จะได้รับการเลือกกลยุทธ์ที่ดีที่สุดสำหรับหมดเวลาเกมศูนย์รวม, เช่นหุ่นยนต์ฟุตบอลซึ่งมีเป้าหมายที่จะเป็นผู้ชนะ: จะไปข้างหน้าของฝ่ายตรงข้ามหลังจากที่จำนวนขั้นตอนบางเวลา การเสนอนโยบายดังกล่าวโดเมนเป็นสิ่งหนึ่งที่ช่วยเพิ่มความน่าจะเป็นของการเป็นไปข้างหน้าในตอนท้ายของเกม เช่นนโยบายโดยทั่วไปจะไม่คงที่: การดำเนินการที่เหมาะสมจากรัฐได้รับขึ้นอยู่กับจำนวนtimesteps ที่เหลือและความแตกต่างของคะแนนปัจจุบัน ในบทความนี้เราจะนำเสนอขั้นตอนวิธีการที่แน่นอนสำหรับการค้นหานโยบายที่เหมาะสมสำหรับผลตอบแทน-thresholded MDPs แต่เวลาทำงานของอัลกอริทึมนี้มีการพึ่งพาอาศัยสมการกำลังสองกับจำนวนของรัฐในMDP และความยาวของขอบฟ้าเวลา สำหรับMDPs ที่มีช่องว่างขนาดใหญ่ของรัฐหรือขอบฟ้าเวลานานที่แน่นอนขั้นตอนวิธีการอาจจะยาก ดังนั้นเราจึงตรวจสอบความหลากหลายของเทคนิควิธีการแก้ปัญหาโดยประมาณ








































การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
กระบวนการตัดสินใจแบบ ( mdps ) เป็นเครื่องมือที่มีประสิทธิภาพสำหรับ
วางแผนในการแสดงตนของความไม่แน่นอน mdps ให้
เสียงตามทฤษฎี หมายถึงการบรรลุที่ดีที่สุดรางวัล
ในความไม่แน่นอน โดเมน
ปัญหา MDP มาตรฐานคือการหานโยบายπ : S → keyboard - key - name ที่แผนที่ระบุการกระทำดังกล่าวว่า ผลตอบแทนระยะยาวสะสม

บางถูกขยายใหญ่สุดตามวัตถุประสงค์ของฟังก์ชัน เหนือขอบฟ้าเวลา
อนันต์ฟังก์ชันวัตถุประสงค์โดยรวมของลดราคา
รางวัลหรืออัตราเฉลี่ยรางวัลเป็น T → keyboard - key - name ∞ ( ? ;
) ? เมื่อขอบฟ้าเวลา จำกัด ปัจจัยส่วนลดไม่
ต้องการและเป้าหมายการทำงานปกติคือผลรวมของผลตอบแทนที่ได้รับในแต่ละครั้ง

ตอน งานของเราคือ motivated โดยซีโร่ซัมเกมด้วยคะแนนและ
เวลาที่จำกัด โดยเฉพาะหุ่นยนต์ฟุตบอล ในการตั้งเวลา zerosum
เกมส์ชนะคู่แข่งสำคัญ
มากกว่าคะแนนสุดท้าย ดังนั้น ทีมที่แพ้
ใกล้จบของเกมที่ควรจะเล่นเลยเถิด

ลิขสิทธิ์  C 2007 สมาคมเพื่อความก้าวหน้าของปัญญาประดิษฐ์
( www.aaai . org ) สงวนลิขสิทธิ์ .
พยายามแม้คะแนนแม้ว่ากลยุทธ์ที่ก้าวร้าวให้
ฝ่ายตรงข้ามได้ง่ายขึ้น คะแนน ตํา และ เวโลโซ
หารือถึงวิธีการที่ทีมเล่นฟุตบอลหุ่นยนต์สามารถเปลี่ยน
เล่น ( กลยุทธ์ทีมระดับสูง ) ขึ้นอยู่กับปัจจัยต่างๆเช่น
เวลาที่เหลือในเกมและคะแนนที่แตกต่าง ? ;
) ? อย่างไรก็ตาม การเลือกกลยุทธ์นี้เป็นมือจูนโดยใช้
กฎเช่นง่าย " ถ้าทีมเรากำลังจะแพ้ และมีน้อย
กว่า 1 นาทีที่เหลือ เล่นเลยเถิด " .
ในกระดาษนี้เราพิจารณา
ฟังก์ชันวัตถุประสงค์ทางเลือกสำหรับ mdps ฮอไรซอนจำกัด มากกว่าการเพิ่มรางวัลสะสมมากกว่า
H เวลาขั้นตอน เราใช้ฟังก์ชันเกณฑ์
F เพื่อรางวัลสะสมสุดท้ายและแสวงหาเพื่อเพิ่ม
ค่า F . เราเรียกนี้ thresholded รางวัล
วัตถุประสงค์ของฟังก์ชัน นี้มีฟังก์ชั่นช่วยให้เราได้รับการเลือกกลยุทธ์ที่เหมาะสมสำหรับ

หมด ศูนย์รวมเกมเช่นหุ่นยนต์เล่นฟุตบอล ซึ่งมีเป้าหมายที่จะชนะ : จะไปข้างหน้า
ของฝ่ายตรงข้ามหลังจากขั้นตอนที่เวลา นโยบายที่ดีที่สุด
เช่นโดเมนเป็นหนึ่งที่เพิ่มความน่าจะเป็นของการ
ล่วงหน้าที่ส่วนท้ายของเกม เช่น
นโยบายทั่วไปจะติจิ : เหมาะสมกระทำ
จากให้รัฐขึ้นอยู่กับจำนวน timesteps ที่เหลือ
และผลต่างคะแนนปัจจุบันในกระดาษนี้เรา
ปัจจุบันแน่นอนขั้นตอนวิธีสำหรับการหานโยบายที่เหมาะสมสำหรับ mdps รางวัล
thresholded . อย่างไรก็ตาม เวลาทํางานของ
ขั้นตอนวิธีนี้มียอดการพึ่งพาจำนวน
รัฐใน MDP และความยาวของเวลาที่ขอบฟ้า สำหรับ
mdps ที่มีขนาดใหญ่ของรัฐเป็นหรือขอบเขตเวลาที่แน่นอนขั้นตอนวิธี
อาจจะแก่นแก้ว เราจึงศึกษา
เทคนิคที่หลากหลายโซลูชั่นประมาณ
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2025 I Love Translation. All reserved.

E-mail: