Simulation and TrainingSome of the

Simulation and Training
Some of the most successful applications of neural networks are in the areas
of pattern recognition, nonlinear regression, and nonlinear system identification.
In these applications the neural network is used as a universal approximator:
the input-output mapping of the neural network is matched to an unknown
nonlinear mapping F of interest using a least-squares optimization. This optimization
is known as training the network. To perform training, one must have
some training data, that is, a set of pairs (i, F(i)), which is representative of
the mapping F that is approximated.
It is important to note that in contrast with these neural network applications,
in the DP context there is no readily available training set of input-output
pairs (i, J∗
(i)), which can be used to approximate J
∗ with a least squares fit.
The only possibility is to evaluate (exactly or approximately) by simulation the
cost functions of given (suboptimal) policies, and to try to iteratively improve
these policies based on the simulation outcomes. This creates analytical and
computational difficulties that do not arise in classical neural network training
contexts. Indeed the use of simulation to evaluate approximately the optimal
cost function is a key new idea, that distinguishes the methodology of this article
from earlier approximation methods in DP.
Using simulation offers another major advantage: it allows the methods of
this article to be used for systems that are hard to model but easy to simulate;
that is, in problems where an explicit model is not available, and the system can
only be observed, either as it operates in real time or through a software simulator.
For such problems, the traditional DP techniques are inapplicable, and
estimation of the transition probabilities to construct a detailed mathematical
model is often cumbersome or impossible.
There is a third potential advantage of simulation: it can implicitly identify
the “most important” or “most representative” states of the system. It appears
plausible that if these states are the ones most often visited during the simulation,
the scoring function will tend to approximate better the optimal cost for
these states, and the suboptimal policy obtained will perform better.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การจำลองและการฝึกอบรมโปรแกรมประยุกต์ที่ประสบความสำเร็จมากที่สุดของเครือข่ายประสาทอยู่ในพื้นที่การรู้จำรูปแบบ ถดถอยไม่เชิงเส้น และรหัสระบบไม่เชิงเส้นในโปรแกรมประยุกต์เหล่านี้ เครือข่ายประสาทถูกใช้เป็น approximator สากล:การแม็ปอินพุต-เอาท์พุตของเครือข่ายประสาทเหมาะกับโนเนมไม่เชิงเส้นการแมป F น่าสนใจใช้ปรับกำลังสองน้อยสุด เพิ่มประสิทธิภาพนี้เป็นที่รู้จักกันเป็นเครือข่ายการฝึกอบรม ดำเนินการฝึกอบรม หนึ่งต้องบางข้อมูลการฝึกอบรม คือ ชุดคู่ (ฉัน F(i)) ซึ่งเป็นตัวแทนของการแม็ป F ที่จะเลียนแบบสิ่งสำคัญคือต้องสังเกตว่า in contrast with โปรแกรมประยุกต์เหล่านี้เครือข่ายประสาทในบริบท DP มีชุดฝึกพร้อมไม่อินพุต-เอาท์พุตคู่ (i, J∗(i)), ซึ่งสามารถใช้เพื่อประมาณ J∗ มีช่องน้อยพอดีโอกาสเดียวที่จะประเมิน (ตรง หรือประมาณ) โดยการจำลองการหน้าที่ของต้นทุนที่ กำหนดนโยบาย (สภาพ) และพยายามที่จะปรับปรุงซ้ำ ๆนโยบายเหล่านี้ขึ้นอยู่กับผลการจำลอง นี้สร้างวิเคราะห์ และปัญหาคอมพิวเตอร์ที่ไม่ได้เกิดขึ้นในการฝึกอบรมเครือข่ายประสาทคลาสสิกบริบทการ การใช้การจำลองการประเมินประมาณการสูงสุดแน่นอนฟังก์ชันต้นทุนเป็นหลักใหม่ความคิด ที่แตกต่างระหว่างบทความนี้จากวิธีประมาณก่อนหน้าใน DPใช้การจำลองมีประโยชน์สำคัญอีกประการหนึ่ง: จะช่วยให้วิธีการบทความนี้จะใช้สำหรับระบบที่จำลอง ง่าย แต่ยากที่จะจำลองนั่นคือ ในที่มีรูปแบบชัดเจนไม่มีปัญหา และระบบสามารถเท่านั้น สามารถสังเกต ทั้งทำงาน ในเวลาจริง หรือจำลองซอฟต์แวร์สำหรับปัญหาดังกล่าว เทคนิคขั้นตอนวิธีแบบดั้งเดิมคือ inapplicable และประเมินกิจกรรมเปลี่ยนสร้างเป็นรายละเอียดทางคณิตศาสตร์แบบจำลองคือมักจะยุ่งยาก หรือเป็นไปไม่ได้มีประโยชน์เป็นสามของจำลอง: นัยสามารถอเมริกา "สำคัญที่สุด" หรือ "พนักงานมากที่สุด" ของระบบ ปรากฏเป็นไปได้ที่ถ้ารัฐเหล่านี้เป็นคนส่วนใหญ่มักจะเข้าเยี่ยมชมในระหว่างการจำลองฟังก์ชันให้คะแนนจะมีแนวโน้มการ ประมาณต้นทุนที่เหมาะสมที่สุดสำหรับดีรัฐเหล่านี้ และนโยบายสภาพที่ได้รับจะทำงานดีขึ้น

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การจำลองและการฝึกอบรมบางส่วนของการใช้งานที่ประสบความสำเร็จมากที่สุดของเครือข่ายประสาทอยู่ในพื้นที่ของการรับรู้รูปแบบการถดถอยเชิงเส้นและบัตรประจำตัวระบบไม่เชิงเส้น. ในการใช้งานเหล่านี้เครือข่ายประสาทจะถูกใช้เป็น approximator สากล: การทำแผนที่นำเข้าส่งออกของโครงข่ายประสาทเทียม ตรงกับที่ไม่รู้จักการทำแผนที่เชิงเส้นF ที่น่าสนใจโดยใช้การเพิ่มประสิทธิภาพอย่างน้อยสี่เหลี่ยม การเพิ่มประสิทธิภาพนี้เป็นที่รู้จักกันเป็นเครือข่ายการฝึกอบรม เพื่อดำเนินการฝึกอบรมหนึ่งจะต้องมีข้อมูลการฝึกอบรมที่เป็นชุดของคู่ (i, f (i)) ซึ่งเป็นตัวแทนของเอฟทำแผนที่ว่าเป็นห้วง. มันเป็นสิ่งสำคัญที่จะทราบว่าในทางตรงกันข้ามกับเครือข่ายประสาทเหล่านี้การประยุกต์ใช้ในบริบท DP ไม่มีชุดการฝึกอบรมพร้อมใช้งานของอินพุทคู่(i, J * (i)) ซึ่งสามารถใช้ในการใกล้เคียงกับ J * มีน้อยสแควร์พอดี. ความเป็นไปได้เพียงอย่างเดียวคือการประเมิน (ว่า หรือโดยประมาณ) โดยการจำลองฟังก์ชั่นค่าใช้จ่ายของที่กำหนด(ด้อย) นโยบายและการพยายามที่จะซ้ำปรับปรุงนโยบายเหล่านี้ขึ้นอยู่กับผลการจำลอง นี้จะสร้างการวิเคราะห์และความยากลำบากในการคำนวณที่ไม่ได้เกิดขึ้นในการฝึกอบรมเครือข่ายประสาทคลาสสิกบริบท อันที่จริงการใช้แบบจำลองการประเมินประมาณที่ดีที่สุดฟังก์ชั่นค่าใช้จ่ายเป็นความคิดใหม่ที่สำคัญที่แตกต่างวิธีการของบทความนี้. จากวิธีการก่อนหน้านี้ประมาณใน DP โดยใช้การจำลองมีอีกหนึ่งประโยชน์ที่สำคัญจะช่วยให้วิธีการของบทความนี้เพื่อนำมาใช้สำหรับระบบที่มีความยากในการจำลอง แต่ง่ายต่อการจำลอง; นั่นคือปัญหาที่เป็นรูปแบบชัดเจนไม่พร้อมใช้งานและระบบสามารถ. เพียง แต่จะสังเกตได้ว่าจะเป็นจะดำเนินการในเวลาจริงหรือผ่านการจำลองซอฟแวร์สำหรับปัญหาดังกล่าวเทคนิค DP แบบดั้งเดิมไม่เหมาะสมและการประมาณค่าของความน่าจะเปลี่ยนไปใช้สร้างทางคณิตศาสตร์ที่มีรายละเอียดรูปแบบมักจะยุ่งยากหรือเป็นไปไม่ได้. มีความได้เปรียบที่มีศักยภาพที่สามของการจำลองคือมันโดยปริยายสามารถระบุว่า "สิ่งที่สำคัญที่สุด" หรือ "ตัวแทนมากที่สุด" รัฐของ ระบบ. แต่ดูเหมือนว่ามันเป็นไปได้ว่าหากรัฐเหล่านี้เป็นคนส่วนใหญ่มักจะเดินทางไปเยี่ยมชมในระหว่างการจำลองฟังก์ชั่นการให้คะแนนจะมีแนวโน้มที่ดีขึ้นใกล้เคียงกับค่าใช้จ่ายที่เหมาะสมสำหรับประเทศเหล่านี้และนโยบายที่ก่อให้เกิดผลลัพธ์ที่ได้จะทำงานได้ดีขึ้น

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การจำลองและการฝึกอบรม
บางส่วนของโปรแกรมที่ประสบความสำเร็จมากที่สุดของโครงข่ายประสาทเทียมในพื้นที่
ของการรู้จำรูปแบบการถดถอยแบบไม่เชิงเส้น , ระบบไม่เชิงเส้น และ รหัส .
ในโปรแกรมเหล่านี้โครงข่ายประสาทเทียมที่ใช้เป็น approximator สากล :
วิธีการแผนที่โครงข่ายตรงกับที่ไม่รู้จัก
แผนที่เชิงเส้นของความสนใจโดยใช้วิธีปรับ F . ประสิทธิภาพ
เรียกว่าการฝึกอบรมเครือข่าย การฝึก ต้องมี
ฝึกข้อมูล นั่นคือ ชุดคู่ ( I , F ( i ) ซึ่งเป็นตัวแทนของแผนที่ที่เป็นประมาณ F
.
มันเป็นสิ่งสำคัญที่จะทราบว่าในทางตรงกันข้ามกับเหล่านี้ประสาทเครือข่ายการใช้งาน
ในบริบทของ DP ไม่มีพร้อมการฝึกอบรมชุดของปัจจัยการผลิตและผลผลิต
คู่ ( I , J ∗
( i ) ซึ่งสามารถใช้ในการประมาณ∗กับ J

อย่างน้อยสี่เหลี่ยมพอดี โอกาสเดียวเท่านั้นคือ ศึกษา ( แน่นอนหรือโดยประมาณ ) โดยการจำลองการทำงานของ
ค่าใช้จ่ายให้ ( suboptimal ) นโยบาย , และพยายามที่จะซ้ำปรับปรุง
นโยบายจากผลการจำลองนี้สร้างการวิเคราะห์และการคำนวณที่ไม่เกิดปัญหา

เครือข่ายประสาทในคลาสสิกการฝึกอบรมบริบท . แน่นอนการใช้แบบจำลองเพื่อประเมินประมาณค่าใช้จ่ายในการทำงานที่เหมาะสม
เป็นคีย์ความคิดใหม่ที่แตกต่างจากวิธีการของบทความนี้จากการประมาณวิธี DP ก่อน
.
โดยใช้การจำลองมีอีกสาขา ประโยชน์ : ช่วยให้วิธีการ
บทความนี้จะใช้ระบบที่ยากแต่ง่ายต่อการจำลองแบบ ;
นั่นคือปัญหาที่เป็นรูปแบบชัดเจน ไม่สามารถใช้งานได้ และระบบสามารถ
แค่สังเกต ไม่ว่าจะเป็นบริษัท หรือผ่านในเวลาจริงจำลองซอฟต์แวร์ .
สำหรับปัญหาเช่น เทคนิค DP ดั้งเดิมที่ไม่เหมาะสมและ
การประมาณค่าความน่าจะเป็นของการเปลี่ยนแปลง เพื่อสร้างแบบจำลองทางคณิตศาสตร์
รายละเอียดมักยุ่งยากหรือเป็นไปไม่ได้
มีข้อได้เปรียบที่มีศักยภาพที่สามของจำลองได้โดยปริยาย ระบุ
" สำคัญที่สุด " หรือ " ตัวแทน " มากที่สุดรัฐของระบบ ดูเหมือนว่า
ที่มีถ้ารัฐเหล่านี้เป็นคนส่วนใหญ่มักจะเข้าเยี่ยมชมในระหว่างการ
เกณฑ์การให้คะแนนการทำงานมักจะประมาณที่ดีเหมาะสมต้นทุน
รัฐเหล่านี้ และ suboptimal นโยบายได้ทำให้ดี
.

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.