Markov Decision Processes (MDPs) are a powerful tool
for planning in the presence of uncertainty. MDPs provide
a theoretically sound means of achieving optimal rewards
in uncertain domains. The standard MDP problem
is to find a policy π : S → A that maps states to actions
such that the cumulative long-term reward is maximized according
to some objective function. Over an infinite time
horizon, the objective function is typically a sum of discounted
rewards or the average reward rate as t → ∞(?;
?). Over a finite time horizon, a discount factor is not
needed, and the objective function is typically the sum of
the rewards achieved at each time step.
Our work is motivated by zero-sum games with score and
limited time; in particular, robot soccer. In timed, zerosum
games, winning against the opponent is more important
than the final score. Therefore, a team that is losing
near the end of the game should play aggressively to
Copyright c 2007, Association for the Advancement of Artificial
Intelligence (www.aaai.org). All rights reserved.
try to even the score even if an aggressive strategy allows
the opponent to score more easily. McMillen and Veloso
discuss how a team of soccer-playing robots can change
plays (high-level team strategies) based on factors such as
the time remaining in a game and the score difference (?;
?). However, this strategy selection was hand-tuned, using
simple rules such as, “If our team is losing and there is less
than one minute remaining, play aggressively”.
In this paper, we consider an alternative objective function
for finite-horizon MDPs. Rather than maximizing the
cumulative reward over h time steps, we apply a threshold
function f to the final cumulative reward and seek to maximize
the value of f. We call this the thresholded rewards
objective function. This objective function allows us to derive
optimal strategy selections for timed, zero-sum games,
such as robot soccer, in which the goal is to win: to be ahead
of the opponent after some number of time steps. The optimal
policy for such a domain is one that maximizes the
probability of being ahead at the end of the game. Such a
policy will generally be nonstationary: the optimal action
from a given state depends on the number of timesteps remaining
and the current score difference. In this paper, we
present an exact algorithm for finding optimal policies for
thresholded-rewards MDPs. However, the running time of
this algorithm has a quadratic dependence on the number of
states in the MDP and the length of the time horizon. For
MDPs with large state spaces or long time horizons, the exact
algorithm may be intractable. We therefore investigate a
variety of approximate solution techniques.
Markov Decision Processes (MDPs) are a powerful toolfor planning in the presence of uncertainty. MDPs providea theoretically sound means of achieving optimal rewardsin uncertain domains. The standard MDP problemis to find a policy π : S → A that maps states to actionssuch that the cumulative long-term reward is maximized accordingto some objective function. Over an infinite timehorizon, the objective function is typically a sum of discountedrewards or the average reward rate as t → ∞(?;?). Over a finite time horizon, a discount factor is notneeded, and the objective function is typically the sum ofthe rewards achieved at each time step.Our work is motivated by zero-sum games with score andlimited time; in particular, robot soccer. In timed, zerosumgames, winning against the opponent is more importantthan the final score. Therefore, a team that is losingnear the end of the game should play aggressively toCopyright c 2007, Association for the Advancement of ArtificialIntelligence (www.aaai.org). All rights reserved.try to even the score even if an aggressive strategy allowsthe opponent to score more easily. McMillen and Velosodiscuss how a team of soccer-playing robots can changeplays (high-level team strategies) based on factors such asthe time remaining in a game and the score difference (?;?). However, this strategy selection was hand-tuned, usingsimple rules such as, “If our team is losing and there is lessกว่าหนึ่งนาทีที่เหลือ เล่นอุกอาจ"ในเอกสารนี้ เราพิจารณาฟังก์ชันวัตถุประสงค์ทางการในขอบเขตจำกัด MDPs. Rather กว่าเพิ่มรางวัลสะสมผ่านขั้นตอนเวลา h เราใช้มีขีดจำกัดฟังก์ชัน f จะสะสมรางวัลสุดท้าย และพยายามให้มากที่สุดค่าของ f เราเรียกนี้รางวัล thresholdedฟังก์ชันวัตถุประสงค์ ฟังก์ชันวัตถุประสงค์นี้ทำให้เราได้รับเลือกกลยุทธ์ที่เหมาะสมที่สุดสำหรับเวลา ศูนย์–รวมเกมเช่นหุ่นยนต์ฟุตบอล เป้าหมายคือการ ชนะ: จะเจริญก้าวหน้าของฝ่ายตรงข้ามหลังจากจำนวนเวลาขั้นตอน ดีที่สุดนโยบายสำหรับโดเมนดังกล่าวเป็นที่วางความน่าเป็นการล่วงหน้าในตอนท้ายของเกม ดังกล่าวเป็นนโยบายโดยทั่วไปจะเป็น nonstationary: การดำเนินการที่เหมาะสมจากสิ่งที่กำหนดขึ้นอยู่กับจำนวนที่เหลือ timestepsและความแตกต่างคะแนนปัจจุบัน ในเอกสารนี้ เรานำอัลกอริทึมแน่นอนสำหรับนโยบายที่เหมาะสมที่สุดสำหรับการค้นหารางวัล thresholded MDPs อย่างไรก็ตาม เวลาทำงานของอัลกอริทึมนี้ได้พึ่งจำนวนกำลังสองอเมริกา MDP และความยาวของขอบเขตเวลา สำหรับMDPs ช่องว่างรัฐขนาดใหญ่หรือยาวเวลาฮอลิซันส์ ตรงอัลกอริทึมอาจ intractable เราจึงตรวจสอบการหลากหลายเทคนิคการแก้ปัญหาโดยประมาณ
การแปล กรุณารอสักครู่..
