Neuro-Dynamic Programming
The name neuro-dynamic programming expresses the reliance of the methods
of this article on both DP and neural network concepts. In the artificial
intelligence community, where the methods originated, the name reinforcement
learning is also used. In common artificial intelligence terms, the methods allow
systems to “learn how to make good decisions by observing their own behavior,
and use built-in mechanisms for improving their actions through a reinforcement
mechanism.” In more mathematical terms, “observing their own behavior”
relates to simulation, and “improving their actions through a reinforcement
mechanism” relates to iterative schemes for improving the quality of approximation
of the optimal cost function, or the Q-factors, or the optimal policy.
There has been a gradual realization that reinforcement learning techniques
can be fruitfully motivated and interpreted in terms of classical DP concepts
such as value and policy iteration; see the nice survey by Barto, Bradtke, and
Singh [BBS93], and the book by Sutton and Barto [SuB98], which point out the
connections between the artificial intelligence/reinforcement learning viewpoint
and the control theory/DP viewpoint, and give many references.
Two fundamental DP algorithms, policy iteration and value iteration, are
the starting points for the NDP methodology. The most straightforward adaptation
of the policy iteration method operates as follows: we start with a given
policy (some rule for choosing a decision u at each possible state i), and we
approximately evaluate the cost of that policy (as a function of the current
state) by least-squares-fitting a scoring function J˜(·, r) to the results of many
simulated system trajectories using that policy. A new policy is then defined by
minimization in Bellman’s equation, where the optimal cost is replaced by the
calculated scoring function, and the process is repeated. This type of algorithm
typically generates a sequence of policies that eventually oscillates in a neighborhood
of an optimal policy. The resulting deviation from optimality depends
on a variety of factors, principal among which is the ability of the architecture
J˜(·, r) to accurately approximate the cost functions of various policies (the book
by Bertsekas and Tsitsiklis [BeT96] makes this point more precise).
The approximate policy iteration method described above calculates many
simulated sample trajectories before changing the parameter vector r of the scoring
function J˜(j, r). Another popular NDP methodology adjusts the parameter
vector r more frequently, as it produces sample state trajectories
ชื่อประสาทประสาทพลวัตพลวัตแสดงความเชื่อมั่นในวิธี
บทความนี้ทั้ง DP และแนวคิดเครือข่ายประสาท ในประดิษฐ์
ชุมชนข่าวกรองที่วิธีการกำเนิด ชื่อเสริม
เรียนยังใช้ ในแง่ทั่วไปปัญญาประดิษฐ์ วิธีการให้
ระบบเพื่อ " เรียนรู้วิธีที่จะทำให้การตัดสินใจที่ดี โดยการสังเกตพฤติกรรมของตนเอง และใช้กลไกในตัวสำหรับเพิ่ม
) การกระทำของพวกเขาผ่านกลไก " ในแง่คณิตศาสตร์เพิ่มเติม , " สังเกตพฤติกรรมของตัวเอง "
เกี่ยวข้องกับการจำลองแบบและปรับปรุงการกระทำของพวกเขาผ่านกลไกการเสริมแรง
" เกี่ยวข้องกับโครงร่างของการปรับปรุง คุณภาพของการประมาณ
ของค่าใช้จ่ายในการทำงานที่เหมาะสม หรือ q-factors หรือนโยบายที่เหมาะสม .
มีรับรู้ทีละส่วนที่เสริมการเรียนรู้เทคนิค
สามารถกระตุ้นประสพผลสำเร็จด้วยและตีความในแง่ของแนวคิด DP คลาสสิก
เช่นค่าซ้ำ นโยบาย ดูดี การสำรวจโดย barto bradtke , ,
bbs93 ซิงห์ [ ] , และ หนังสือโดย Sutton และ barto [ sub98 ] ซึ่งชี้ให้เห็น
การเชื่อมต่อระหว่างเสริมปัญญา / ประดิษฐ์การเรียนรู้มุมมอง
และทฤษฎีการควบคุม / DP จุดชมวิว และให้มีการอ้างอิง .
2 ขั้นตอนวิธี DP พื้นฐานนโยบายซ้ำซ้ำค่า ,
จุดเริ่มต้นสำหรับ NDP ต่อไป ตรงไปตรงมามากที่สุดของการทำซ้ำวิธีดําเนินนโยบาย
ดังนี้ เราเริ่มต้นด้วยการระบุ
นโยบายบางกฎการเลือกตัดสินใจ U ที่แต่ละรัฐผมเป็นไปได้ ) และเรา
ประมาณประเมินต้นทุนของนโยบายที่เป็นฟังก์ชันของสถานะปัจจุบัน
) โดยปรับเกณฑ์การให้คะแนนฟังก์ชันกำลังสองน้อยที่สุด ( ด้วย˜ J , R ) ผลของการใช้นโยบายเกี่ยวกับระบบจำลองมากมาย
. นโยบายใหม่จะกำหนดโดย
ลดในสมการยาม ซึ่งต้นทุนที่เหมาะสมจะถูกแทนที่ด้วย
ฟังก์ชันคำนวณการให้คะแนนและขั้นตอนการเป็นซ้ำ ขั้นตอนวิธีประเภทนี้มักจะสร้าง
ลำดับของนโยบายว่า ในที่สุด oscillates ในละแวก
เป็นนโยบายที่ดีที่สุด ซึ่งเบี่ยงเบนจากคุณภาพขึ้นอยู่กับ
บนความหลากหลายของปัจจัยหลักของซึ่งความสามารถของสถาปัตยกรรม
J ( ด้วย˜ ,R ) ถูกต้องประมาณต้นทุนการทำงานของนโยบายต่าง ๆ ( หนังสือและ bertsekas
โดย tsitsiklis [ bet96 ] ทำให้จุดนี้ชัดเจนมากขึ้น ) .
ประมาณวิธีที่อธิบายข้างต้นคำนวณซ้ำนโยบายหลาย
จำลองตัวอย่างวิถีก่อนที่จะเปลี่ยนพารามิเตอร์ของฟังก์ชันเวกเตอร์ r คะแนน
J ˜ ( J , R ) วิธีการปรับค่าพารามิเตอร์
NDP อื่นที่เป็นที่นิยมเวกเตอร์ R บ่อย มันผลิตตัวอย่างเกี่ยวกับรัฐ
การแปล กรุณารอสักครู่..
