Neuro-Dynamic ProgrammingThe name n

Neuro-Dynamic Programming
The name neuro-dynamic programming expresses the reliance of the methods
of this article on both DP and neural network concepts. In the artificial
intelligence community, where the methods originated, the name reinforcement
learning is also used. In common artificial intelligence terms, the methods allow
systems to “learn how to make good decisions by observing their own behavior,
and use built-in mechanisms for improving their actions through a reinforcement
mechanism.” In more mathematical terms, “observing their own behavior”
relates to simulation, and “improving their actions through a reinforcement
mechanism” relates to iterative schemes for improving the quality of approximation
of the optimal cost function, or the Q-factors, or the optimal policy.
There has been a gradual realization that reinforcement learning techniques
can be fruitfully motivated and interpreted in terms of classical DP concepts
such as value and policy iteration; see the nice survey by Barto, Bradtke, and
Singh [BBS93], and the book by Sutton and Barto [SuB98], which point out the
connections between the artificial intelligence/reinforcement learning viewpoint
and the control theory/DP viewpoint, and give many references.
Two fundamental DP algorithms, policy iteration and value iteration, are
the starting points for the NDP methodology. The most straightforward adaptation
of the policy iteration method operates as follows: we start with a given
policy (some rule for choosing a decision u at each possible state i), and we
approximately evaluate the cost of that policy (as a function of the current
state) by least-squares-fitting a scoring function J˜(·, r) to the results of many
simulated system trajectories using that policy. A new policy is then defined by
minimization in Bellman’s equation, where the optimal cost is replaced by the
calculated scoring function, and the process is repeated. This type of algorithm
typically generates a sequence of policies that eventually oscillates in a neighborhood
of an optimal policy. The resulting deviation from optimality depends
on a variety of factors, principal among which is the ability of the architecture
J˜(·, r) to accurately approximate the cost functions of various policies (the book
by Bertsekas and Tsitsiklis [BeT96] makes this point more precise).
The approximate policy iteration method described above calculates many
simulated sample trajectories before changing the parameter vector r of the scoring
function J˜(j, r). Another popular NDP methodology adjusts the parameter
vector r more frequently, as it produces sample state trajectories

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การเขียนโปรแกรมแบบไดนามิกศัลยกรรมการเขียนโปรแกรมแบบไดนามิกศัลยกรรมชื่อแสดงความเชื่อมั่นในวิธีการบทความนี้ DP และแนวคิดเครือข่ายประสาท ในการประดิษฐ์ปัญญาชุมชน วิธีที่ใด เสริมชื่อนอกจากนี้ยังมีใช้เรียนรู้ ร่วมปัญญาประดิษฐ์เงื่อนไข วิธีการอนุญาตระบบจะ "เรียนรู้วิธีการทำการตัดสินใจที่ดี โดยการสังเกตพฤติกรรมของตนเองใช้กลไกภายในเพื่อปรับปรุงการดำเนินการของพวกเขาผ่านการเสริมแรงกลไกการ" ในทางคณิตศาสตร์เพิ่มเติม "สังเกตพฤติกรรมของตนเอง"เกี่ยวข้องกับการจำลอง และ "การกระทำของพวกเขาผ่านเหล็กเสริมที่ปรับปรุงกลไก"เกี่ยวข้องกับโครงร่างซ้ำปรับปรุงคุณภาพของประมาณของ ฟังก์ชันต้นทุนที่ดีที่สุด Q-ปัจจัย หรือนโยบายเหมาะสมมีการรับรู้สมดุลเสริมสร้างการเรียนรู้เทคนิคสามารถ fruitfully แรงจูงใจ และตีความในแง่ของแนวคิดคลาสสิก DPเช่นค่าและนโยบายเกิดซ้ำ ดูแบบสำรวจที่ดี โดย Barto, Bradtke และสิงห์ [BBS93], และหนังสือ โดยซัตตั้นและ Barto [SuB98], ซึ่งชี้ให้เห็นการเชื่อมต่อระหว่างปัญญาประดิษฐ์/เสริมมุมมองการเรียนรู้และมุม มอง ทฤษฎี/DP ควบคุม และให้อ้างอิงในการมีสองพื้นฐาน DP อัลกอริทึม นโยบายเกิดซ้ำและค่าการเกิดซ้ำจุดเริ่มต้นของวิธี NDP ปรับตรงไปตรงมามากที่สุดนโยบาย วิธีการเกิดซ้ำดำเนินการดังนี้: เราเริ่มต้นด้วยการกำหนดนโยบาย (บางกฎที่เลือกยูตัดสินใจเป็นที่สุดแต่ละรัฐฉัน), และเราประมาณประเมินต้นทุนของนโยบายนั้น (เป็นฟังก์ชันของปัจจุบันรัฐ) โดยอย่างน้อยสี่เหลี่ยมปรับฟังก์ชันให้คะแนน J˜ (ลอก r) กับผลลัพธ์ของtrajectories ระบบจำลองที่ใช้นโยบายที่ จากนั้นมีกำหนดนโยบายใหม่โดยลดภาระในการบริการของสมการ ซึ่งต้นทุนที่เหมาะสมจะถูกแทนที่โดยการคำนวณฟังก์ชันการให้คะแนน และกระบวนการจะถูกทำซ้ำ ชนิดของอัลกอริทึมนี้โดยทั่วไปสร้างลำดับของที่ oscillates ในที่สุดในละแวกนั้นนโยบายเหมาะสม ขึ้นอยู่กับความแตกต่างได้จาก optimalityหลากหลายปัจจัย ผู้ซึ่งเป็นความสามารถของสถาปัตยกรรมJ˜ (ลอก r) การประมาณฟังก์ชันต้นทุนของนโยบายต่าง ๆ (หนังสือได้อย่างถูกต้องโดย Bertsekas และ Tsitsiklis [BeT96] ทำให้จุดนี้ชัดเจนยิ่งขึ้น)วิธีการเกิดซ้ำประมาณนโยบายที่อธิบายไว้ข้างต้นคำนวณหลายตัวอย่างจำลอง trajectories ก่อนเปลี่ยน r เวกเตอร์ของพารามิเตอร์ของการให้คะแนนฟังก์ชัน J˜ (j, r) ระหว่าง NDP นิยมอื่นปรับพารามิเตอร์เวกเตอร์ r บ่อย เป็นมันผลิตตัวอย่างรัฐ trajectories

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ประสาทการเขียนโปรแกรมแบบไดนามิกชื่อการเขียนโปรแกรมระบบประสาทแบบไดนามิกเป็นการแสดงออกถึงความเชื่อมั่นของวิธีการของบทความนี้ทั้งDP และแนวคิดโครงข่ายประสาทเทียม ในเทียมชุมชนข่าวกรองที่วิธีการที่มาเสริมชื่อการเรียนรู้นอกจากนี้ยังใช้ ในแง่ปัญญาประดิษฐ์ทั่วไปวิธีการที่ช่วยให้ระบบการ"เรียนรู้วิธีการที่จะทำให้การตัดสินใจที่ดีโดยการสังเกตพฤติกรรมของตัวเองและใช้ในตัวกลไกสำหรับการปรับปรุงการดำเนินการของพวกเขาผ่านการเสริมแรงกลไก." ในแง่ทางคณิตศาสตร์มากขึ้น "การสังเกตพฤติกรรมของตัวเอง "ที่เกี่ยวข้องกับการจำลองและ" การปรับปรุงการดำเนินการของพวกเขาผ่านการเสริมแรงกลไก"ที่เกี่ยวข้องกับรูปแบบซ้ำสำหรับการปรับปรุงคุณภาพของการประมาณของฟังก์ชั่นค่าใช้จ่ายที่ดีที่สุดหรือ Q-ปัจจัยหรือนโยบายที่ดีที่สุด. มีการก่อให้เกิดค่อยๆเสริมว่า เทคนิคการเรียนรู้สามารถนำแรงบันดาลใจและมีผลการตีความในแง่ของแนวคิดDP คลาสสิกเช่นคุณค่าและนโยบายซ้ำ; เห็นการสำรวจที่ดีโดย Barto, Bradtke และซิงห์[BBS93] และหนังสือโดยซัตตันและ Barto [SuB98] ซึ่งชี้ให้เห็นการเชื่อมต่อระหว่างปัญญาประดิษฐ์/ เสริมมุมมองการเรียนรู้และทฤษฎีการควบคุม/ มุมมอง DP และให้จำนวนมาก อ้างอิง. สองขั้นตอนวิธีการ DP พื้นฐานย้ำนโยบายและซ้ำค่าเป็นจุดเริ่มต้นสำหรับวิธีการNDP การปรับตัวตรงไปตรงมามากที่สุดของนโยบายย้ำวิธีการดำเนินการดังต่อไปนี้เราเริ่มต้นด้วยการกำหนดนโยบาย(กฎบางอย่างสำหรับการเลือกการตัดสินใจของท่านในแต่ละรัฐที่เป็นไปได้ i) และเราประมาณประเมินค่าใช้จ่ายของนโยบายว่า(เป็นหน้าที่ของในปัจจุบันรัฐ) โดยอย่างน้อยสี่เหลี่ยมกระชับฟังก์ชั่นการให้คะแนน J~ (· R) ผลของหลายวิถีระบบจำลองการใช้นโยบายที่ นโยบายใหม่ที่กำหนดไว้แล้วโดยการลดในสมการของยามที่ค่าใช้จ่ายที่ดีที่สุดจะถูกแทนที่ด้วยฟังก์ชั่นการให้คะแนนคำนวณและกระบวนการซ้ำแล้วซ้ำอีก ชนิดของขั้นตอนวิธีนี้มักจะสร้างลำดับของนโยบายว่าในที่สุด oscillates ในพื้นที่ใกล้เคียงได้ของนโยบายที่ดีที่สุด ส่วนเบี่ยงเบนที่เกิดจาก optimality ขึ้นอยู่กับความหลากหลายของปัจจัยที่สำคัญในระหว่างที่เป็นความสามารถของสถาปัตยกรรมJ~ (· R) อย่างถูกต้องใกล้เคียงกับฟังก์ชั่นค่าใช้จ่ายของนโยบายต่างๆ (หนังสือโดยBertsekas และ Tsitsiklis [BeT96] ทำให้จุดนี้ แม่นยำมากขึ้น). วิธีการย้ำนโยบายตัวอย่างที่อธิบายข้างต้นคำนวณหลายวิถีตัวอย่างจำลองก่อนที่จะเปลี่ยนพารามิเตอร์เวกเตอร์อาร์ของการให้คะแนนการทำงานJ~ (ญ, R) อีกวิธีที่นิยม NDP ปรับพารามิเตอร์เวกเตอร์อาร์บ่อยครั้งมากขึ้นในขณะที่มันผลิตไบร์ทรัฐตัวอย่าง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ชื่อประสาทประสาทพลวัตพลวัตแสดงความเชื่อมั่นในวิธี
บทความนี้ทั้ง DP และแนวคิดเครือข่ายประสาท ในประดิษฐ์
ชุมชนข่าวกรองที่วิธีการกำเนิด ชื่อเสริม
เรียนยังใช้ ในแง่ทั่วไปปัญญาประดิษฐ์ วิธีการให้
ระบบเพื่อ " เรียนรู้วิธีที่จะทำให้การตัดสินใจที่ดี โดยการสังเกตพฤติกรรมของตนเอง และใช้กลไกในตัวสำหรับเพิ่ม

) การกระทำของพวกเขาผ่านกลไก " ในแง่คณิตศาสตร์เพิ่มเติม , " สังเกตพฤติกรรมของตัวเอง "
เกี่ยวข้องกับการจำลองแบบและปรับปรุงการกระทำของพวกเขาผ่านกลไกการเสริมแรง
" เกี่ยวข้องกับโครงร่างของการปรับปรุง คุณภาพของการประมาณ
ของค่าใช้จ่ายในการทำงานที่เหมาะสม หรือ q-factors หรือนโยบายที่เหมาะสม .
มีรับรู้ทีละส่วนที่เสริมการเรียนรู้เทคนิค
สามารถกระตุ้นประสพผลสำเร็จด้วยและตีความในแง่ของแนวคิด DP คลาสสิก
เช่นค่าซ้ำ นโยบาย ดูดี การสำรวจโดย barto bradtke , ,
bbs93 ซิงห์ [ ] , และ หนังสือโดย Sutton และ barto [ sub98 ] ซึ่งชี้ให้เห็น
การเชื่อมต่อระหว่างเสริมปัญญา / ประดิษฐ์การเรียนรู้มุมมอง
และทฤษฎีการควบคุม / DP จุดชมวิว และให้มีการอ้างอิง .
2 ขั้นตอนวิธี DP พื้นฐานนโยบายซ้ำซ้ำค่า ,
จุดเริ่มต้นสำหรับ NDP ต่อไป ตรงไปตรงมามากที่สุดของการทำซ้ำวิธีดําเนินนโยบาย
ดังนี้ เราเริ่มต้นด้วยการระบุ
นโยบายบางกฎการเลือกตัดสินใจ U ที่แต่ละรัฐผมเป็นไปได้ ) และเรา
ประมาณประเมินต้นทุนของนโยบายที่เป็นฟังก์ชันของสถานะปัจจุบัน
) โดยปรับเกณฑ์การให้คะแนนฟังก์ชันกำลังสองน้อยที่สุด ( ด้วย˜ J , R ) ผลของการใช้นโยบายเกี่ยวกับระบบจำลองมากมาย
. นโยบายใหม่จะกำหนดโดย
ลดในสมการยาม ซึ่งต้นทุนที่เหมาะสมจะถูกแทนที่ด้วย
ฟังก์ชันคำนวณการให้คะแนนและขั้นตอนการเป็นซ้ำ ขั้นตอนวิธีประเภทนี้มักจะสร้าง
ลำดับของนโยบายว่า ในที่สุด oscillates ในละแวก
เป็นนโยบายที่ดีที่สุด ซึ่งเบี่ยงเบนจากคุณภาพขึ้นอยู่กับ
บนความหลากหลายของปัจจัยหลักของซึ่งความสามารถของสถาปัตยกรรม
J ( ด้วย˜ ,R ) ถูกต้องประมาณต้นทุนการทำงานของนโยบายต่าง ๆ ( หนังสือและ bertsekas
โดย tsitsiklis [ bet96 ] ทำให้จุดนี้ชัดเจนมากขึ้น ) .
ประมาณวิธีที่อธิบายข้างต้นคำนวณซ้ำนโยบายหลาย
จำลองตัวอย่างวิถีก่อนที่จะเปลี่ยนพารามิเตอร์ของฟังก์ชันเวกเตอร์ r คะแนน
J ˜ ( J , R ) วิธีการปรับค่าพารามิเตอร์
NDP อื่นที่เป็นที่นิยมเวกเตอร์ R บ่อย มันผลิตตัวอย่างเกี่ยวกับรัฐ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.