Much of what will be said about approximation of the optimal cost func การแปล - Much of what will be said about approximation of the optimal cost func ไทย วิธีการพูด

Much of what will be said about app

Much of what will be said about approximation of the optimal cost function
also applies to approximation of Q-factors. In fact, we will see later that the
Q-factors can also be viewed as optimal costs of a related problem. We thus
focus primarily on approximation of the optimal cost function J

. We are interested in problems with a large number of states and in scoring
functions J˜ that can be described with relatively few numbers (a vector r of
small dimension). Scoring functions involving few parameters are called compact
representations, while the tabular description of J
∗ are called the lookup table
representation. Thus, in a lookup table representation, the values J

(j) are
stored in a table for all states j. In a typical compact representation, only the
vector r and the general structure of the scoring function J˜(·, r) are stored;
the scores J˜(j, r) are generated only when needed. For example, J˜(j, r) may
be the output of some neural network in response to the input j, and r is the
associated vector of weights or parameters of the neural network; or J˜(j, r) may
involve a lower dimensional description of the state j in terms of its “significant
features”, and r is the associated vector of relative weights of the features. Thus
determining the scoring function J˜(j, r) involves two complementary issues: (1)
deciding on the general structure of the function J˜(j, r), and (2) calculating
the parameter vector r so as to minimize in some sense the error between the
functions J

(·) and J˜(·, r).
Approximations of the optimal cost function have been used in the past in a
variety of DP contexts. Chess playing programs represent a successful example.
A key idea in these programs is to use a position evaluator to rank different
chess positions and to select at each turn a move that results in the position
with the best rank. The position evaluator assigns a numerical value to each
position, according to a heuristic formula that includes weights for the various
features of the position (material balance, piece mobility, king safety, and other
factors). Thus, the position evaluator corresponds to the scoring function J˜(j, r)
above, while the weights of the features correspond to the parameter vector r. Usually, some general structure of position evaluator is selected (this is largely
an art that has evolved over many years, based on experimentation and human
knowledge about chess), and the numerical weights are chosen by trial and error
or (as in the case of the champion program Deep Thought) by “training” using
a large number of sample grandmaster games.
As the chess program paradigm suggests, intuition about the problem, heuristics,
and trial and error are all important ingredients for constructing cost approximations
in DP. However, it is important to supplement heuristics and intuition
with more systematic techniques that are broadly applicable and retain
as much as possible the nonheuristic aspects of DP.
NDP aims to develop a methodological foundation for combining dynamic
programming, compact representations, and simulation to provide the basis for
a rational approach to complex stochastic decision problems.
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
มากสิ่งที่จะกล่าวว่า เกี่ยวกับการประมาณฟังก์ชันต้นทุนที่เหมาะสมนอกจากนี้ยัง ใช้กับประมาณของ Q-ปัจจัย ในความเป็นจริง เราจะเห็นในภายหลังที่การยังสามารถดูปัจจัย Q เป็นต้นทุนที่เหมาะสมของปัญหาที่เกี่ยวข้อง เราจึงเน้นประมาณฟังก์ชันต้นทุนเหมาะสมเจเป็นหลัก∗. เรามีความสนใจ ในปัญหาของอเมริกา และ ในการให้คะแนนฟังก์ชัน J˜ ที่สามารถอธิบาย ด้วยตัวเลขที่ค่อนข้างน้อย (เป็นเวกเตอร์ r ของเล็กมิติ) ฟังก์ชันที่เกี่ยวข้องกับพารามิเตอร์น้อยคะแนนเรียกว่ากระทัดรัดนำเสนอ ในขณะที่คำอธิบายตารางของเจ∗เรียกว่าตารางการค้นหาแสดงอยู่ ดังนั้น ในการค้นหาตารางแสดง ค่า J∗(เจ) อยู่เก็บไว้ในตารางสำหรับ j อเมริกาทั้งหมด ในการทั่วไปขนาดเล็กแสดง เท่าเวกเตอร์ r และโครงสร้างทั่วไปของฟังก์ชันให้คะแนน J˜ (ลอก r) เก็บคะแนน J˜ (j, r) สร้างขึ้นเมื่อจำเป็นเท่านั้น ตัวอย่าง J˜ (j, r) อาจเป็นผลผลิตของบางเครือข่ายประสาทตอบสนองต่อเจเข้า และ r คือการเวกเตอร์ที่เกี่ยวข้องของน้ำหนักหรือพารามิเตอร์ของเครือข่ายประสาท หรืออาจ J˜ (j, r)เกี่ยวข้องกับคำอธิบายมิติต่ำกว่าของเจรัฐในแง่ของการ "อย่างมีนัยสำคัญคุณลักษณะ" และ r เป็นเวกเตอร์ของน้ำหนักสัมพัทธ์ของเกี่ยวข้อง ดังนั้นกำหนดฟังก์ชันให้คะแนน J˜ (j, r) เกี่ยวข้องกับปัญหาสองเพิ่มเติม: (1)ตัดสินใจเกี่ยวกับโครงสร้างทั่วไปของฟังก์ชัน J˜ (j, r), และการคำนวณ (2)เป็นเวกเตอร์ของพารามิเตอร์เพื่อ ลดข้อผิดพลาดระหว่างในบางฟังก์ชัน J∗(·) และ J˜ (ลอก r)ใช้เพียงการประมาณของฟังก์ชันต้นทุนที่เหมาะสมที่สุดในอดีตในการความหลากหลายของบริบท DP หมากรุกที่เล่นโปรแกรมแสดงเป็นตัวอย่างที่ประสบความสำเร็จความคิดที่สำคัญในโปรแกรมเหล่านี้จะใช้ตำแหน่งตัวประเมินเพื่อจัดอันดับแตกต่างกันตำแหน่งหมากรุก และเลือกผลในตำแหน่งที่เปิดแต่ละมีอันดับดีที่สุด ถ่วงดุลตำแหน่งกำหนดค่าตัวเลขแต่ละตำแหน่ง ตามสูตรแล้วที่มีน้ำหนักในต่าง ๆลักษณะการทำงานของตำแหน่ง (วัตถุดิบ ชิ้นส่วนเคลื่อนไหว ความปลอดภัย และอื่น ๆปัจจัย) ดังนั้น ตัวประเมินตำแหน่งที่สอดคล้องกับฟังก์ชั่นให้คะแนน J˜ (j, r)เหนือ ในขณะที่น้ำหนักของสอดคล้องกับอาร์เวกเตอร์พารามิเตอร์ปกติ โครงสร้างบางอย่างทั่วไปของตำแหน่งถ่วงดุลไว้ (เป็นส่วนใหญ่ศิลปะที่มีพัฒนาหลายปี โดยใช้ทดลอง และมนุษย์ความรู้เกี่ยวกับหมากรุก), และน้ำหนักเป็นตัวเลขที่เลือก โดยลองผิดลองถูก(อย่างในกรณีของแชมป์โปรแกรมคิดลึก) โดยใช้ "ฝึกอบรม"ตัวเลขขนาดใหญ่ของเกมอย่างท่านอาจารย์เป็นหมากรุกกระบวนทัศน์โปรแกรมแนะนำ สัญชาตญาณเกี่ยวกับปัญหา รุกและลองผิดลองถูกเป็นส่วนผสมสำคัญทั้งหมดสำหรับสร้างเพียงการประมาณต้นทุนใน DP อย่างไรก็ตาม มันเป็นสิ่งสำคัญเสริมลองผิดลองถูกและสัญชาตญาณมีระบบมากขึ้นเทคนิคที่ใช้ทั่วไป และรักษามากที่สุดด้าน nonheuristic ของ DP ได้NDP มุ่งสร้างรากฐานการรวมไดนามิก methodologicalเขียนโปรแกรม กระชับนำเสนอ และการจำลองสถานการณ์เพื่อให้พื้นฐานสำหรับการวิธีการเชือดปัญหาซับซ้อนตัดสินแบบเฟ้นสุ่ม
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
มากในสิ่งที่จะได้รับการกล่าวเกี่ยวกับประมาณการของฟังก์ชั่นที่ดีที่สุดค่าใช้จ่ายนอกจากนี้ยังนำไปใช้กับประมาณการของ Q-ปัจจัย
ในความเป็นจริงเราจะได้เห็นต่อไปว่า
Q-ปัจจัยยังสามารถถูกมองว่าเป็นค่าใช้จ่ายที่ดีที่สุดของปัญหาที่เกี่ยวข้อง เราจึงมุ่งเน้นไปที่การประมาณของฟังก์ชั่นค่าใช้จ่ายที่ดีที่สุด J * เรามีความสนใจในปัญหาที่มีจำนวนมากของรัฐและในการให้คะแนนการทำงาน J~ ที่สามารถอธิบายกับตัวเลขค่อนข้างน้อย (กเวกเตอร์ของอาร์มีขนาดเล็ก) ฟังก์ชั่นที่เกี่ยวข้องกับการให้คะแนนไม่กี่พารามิเตอร์จะเรียกว่าขนาดกะทัดรัดการแสดงในขณะที่รายละเอียดของตาราง J * จะเรียกว่าตารางการค้นหาตัวแทน ดังนั้นในการแสดงตารางการค้นหาค่า J * (ญ) จะถูกเก็บไว้ในตารางสำหรับทุกรัฐญ ในการแสดงที่มีขนาดกะทัดรัดโดยทั่วไปเพียงอาเวกเตอร์และโครงสร้างทั่วไปของฟังก์ชั่นการให้คะแนน J~ (· R) จะถูกเก็บไว้; คะแนน J~ (ญ, R) ถูกสร้างขึ้นเมื่อจำเป็นเท่านั้น ยกตัวอย่างเช่น J~ (เจอา) อาจจะมีการส่งออกของบางเครือข่ายประสาทในการตอบสนองการป้อนข้อมูลญและเป็นอาเวกเตอร์ที่เกี่ยวข้องของน้ำหนักหรือพารามิเตอร์ของเครือข่ายประสาท; หรือ J~ (เจอา) อาจจะเกี่ยวข้องกับคำอธิบายมิติที่ต่ำกว่าของเจรัฐในแง่ของ"อย่างมีนัยสำคัญของคุณสมบัติ" และ r คือเวกเตอร์ที่เกี่ยวข้องของน้ำหนักสัมพัทธ์ของคุณสมบัติ ดังนั้นการกำหนดฟังก์ชั่นการให้คะแนน J~ นี้ (เจอา) ที่เกี่ยวข้องกับการประกอบสองประเด็นคือ (1) การตัดสินใจเกี่ยวกับโครงสร้างทั่วไปของ J~ ฟังก์ชั่น (เจอาร์) และ (2) การคำนวณพารามิเตอร์เวกเตอร์อาร์เพื่อลดในความรู้สึกบางอย่างข้อผิดพลาดระหว่างฟังก์ชั่น J * (·) และ J~ (· R). ประการของฟังก์ชั่นค่าใช้จ่ายที่ดีที่สุดมีการใช้ในอดีตที่ผ่านมาในหลากหลายบริบท DP โปรแกรมการเล่นหมากรุกเป็นตัวแทนของตัวอย่างความสำเร็จ. ความคิดที่สำคัญในโปรแกรมเหล่านี้คือการใช้ผู้ประเมินตำแหน่งที่แตกต่างกันในการจัดอันดับในตำแหน่งหมากรุกและเลือกที่เปิดแต่ละย้ายที่ส่งผลให้อยู่ในตำแหน่งที่มีอันดับที่ดีที่สุด ประเมินตำแหน่งกำหนดค่าตัวเลขให้กับแต่ละตำแหน่งตามสูตรการแก้ปัญหาที่มีน้ำหนักต่างๆสำหรับคุณสมบัติของตำแหน่ง(ยอดวัสดุการเคลื่อนย้ายชิ้นส่วนความปลอดภัยพระมหากษัตริย์และอื่น ๆปัจจัย) ดังนั้นประเมินตำแหน่งสอดคล้องกับฟังก์ชั่นการให้คะแนน J~ (ญ, R) ดังกล่าวข้างต้นในขณะที่น้ำหนักของคุณสมบัติที่สอดคล้องกับพารามิเตอร์เวกเตอร์อาร์ โดยปกติบางโครงสร้างทั่วไปของการประเมินตำแหน่งที่ถูกเลือก (ซึ่งส่วนใหญ่เป็นงานศิลปะที่มีการพัฒนาในช่วงเวลาหลายปีขึ้นอยู่กับการทดลองมนุษย์และความรู้เกี่ยวกับหมากรุก) และน้ำหนักตัวเลขจะถูกเลือกโดยการทดลองและข้อผิดพลาดหรือ (เช่นในกรณีของ โปรแกรมแชมป์คิดลึก) โดย "การฝึกอบรม" การใช้เป็นจำนวนมากตัวอย่างเกมแกรนด์มาสเตอร์. ในฐานะที่เป็นกระบวนทัศน์โปรแกรมหมากรุกแนะนำปรีชาเกี่ยวกับปัญหาการวิเคราะห์พฤติกรรม, และการพิจารณาคดีและความผิดพลาดที่มีส่วนผสมที่สำคัญในการสร้างการประมาณค่าใช้จ่ายใน DP แต่ก็เป็นสิ่งสำคัญที่จะเสริมการวิเคราะห์พฤติกรรมและสัญชาตญาณด้วยเทคนิคที่เป็นระบบมากขึ้นที่มีผลบังคับใช้ในวงกว้างและรักษาให้มากที่สุดเท่าที่เป็นไปได้ด้านnonheuristic ของ DP. NDP มีวัตถุประสงค์เพื่อพัฒนารากฐานระเบียบวิธีสำหรับการรวมไดนามิกการเขียนโปรแกรมการแสดงที่มีขนาดกะทัดรัดและการจำลองเพื่อให้พื้นฐานสำหรับวิธีการที่มีเหตุผลในการแก้ไขปัญหาการตัดสินใจที่ซับซ้อนสุ่ม











































การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
มากของสิ่งที่จะพูดเกี่ยวกับการประมาณค่าของฟังก์ชันต้นทุนที่เหมาะสม
ยังใช้กับการ q-factors . ในความเป็นจริงเราจะเห็นในภายหลังว่า
q-factors สามารถถูกมองว่าเป็นค่าใช้จ่ายที่เกี่ยวข้องกับปัญหา เราจึง
เน้นหลักในการประมาณค่าใช้จ่ายในการทำงานที่เหมาะสม∗ J

เราสนใจในปัญหากับตัวเลขขนาดใหญ่ของรัฐและให้คะแนน
ฟังก์ชันเจ˜ที่สามารถอธิบายได้ด้วยตัวเลขที่ค่อนข้างน้อย ( เวกเตอร์ r
ขนาดเล็ก ) ฟังก์ชันที่เกี่ยวข้องกับตัวแปรไม่กี่คะแนน เรียกว่า กะทัดรัด
แทน ส่วนรายละเอียดตารางของ J
∗เรียกว่าโต๊ะ
ค้นหาตัวแทน ดังนั้นในการค้นหาตารางการแสดงคุณค่า∗ J

( J )
เก็บไว้ในโต๊ะสำหรับรัฐทั้งหมดโดยทั่วไปขนาดเล็กในการแสดงเพียง
เวกเตอร์ r และโครงสร้างทั่วไปของคะแนน˜ ( ด้วยฟังก์ชั่น J , R ) จะถูกเก็บไว้ ;
( j , J ˜คะแนน R ) ถูกสร้างขึ้นเมื่อต้องการ ตัวอย่างเช่น ˜ J ( J , R )
เป็นผลผลิตของโครงข่ายประสาทเทียมในการตอบสนองต่ออินพุต J , r
ที่เกี่ยวข้องเวกเตอร์ของน้ำหนักหรือพารามิเตอร์ของเครือข่ายประสาท หรือ˜ J ( J , R )
เกี่ยวข้องกับการลดมิติรายละเอียดของรัฐ เจ ในแง่ของ " อย่างมีนัยสำคัญ
คุณสมบัติ " และ R เป็นเกี่ยวข้องเวกเตอร์ของน้ำหนักสัมพัทธ์ของคุณสมบัติ ดังนั้นการกำหนดเกณฑ์การให้คะแนนการทำงาน˜
J ( J , R ) เกี่ยวข้องกับสองประเด็นเสริม ( 1 )
การตัดสินใจเกี่ยวกับโครงสร้างทั่วไปของฟังก์ชัน˜ J ( J , R ) และ ( 2 ) การคำนวณ
พารามิเตอร์เวกเตอร์ R เพื่อลดในความรู้สึกบางข้อผิดพลาดระหว่างการทำงาน∗
J

( ด้วย ) และ เจ ˜ ( Suite , R )
การค่าใช้จ่ายในการทำงานที่เหมาะสมได้ถูกใช้ในอดีตในหลากหลายบริบท
- . โปรแกรมเล่นหมากรุกแทน ตัวอย่างที่ประสบความสําเร็จ .
ความคิดหลักในโปรแกรมเหล่านี้คือการใช้ตำแหน่งประเมินแตกต่างกัน
อันดับหมากรุกตำแหน่งและเลือกที่หันละย้ายผลในตำแหน่ง
ที่มีอันดับดีที่สุด ตำแหน่งตัวทำได้โดยการคำนวณค่าแต่ละ
ตำแหน่ง ตามการแบ่งน้ำหนักสูตรที่มีคุณสมบัติต่างๆ
ของตำแหน่ง ( ดุลวัสดุชิ้นการเคลื่อนไหว คิง ความปลอดภัย และปัจจัยอื่น ๆ
) ดังนั้นตำแหน่งตัวสอดคล้องกับเกณฑ์การให้คะแนนการทำงาน˜ J ( J , R )
ข้างบน ในขณะที่น้ำหนักของคุณสมบัติที่สอดคล้องกับตัวแปรเวกเตอร์ R . โดยปกติทั่วไปบางโครงสร้างของตำแหน่งตัวเลือกนี้ ( ส่วนใหญ่
ศิลป์ที่มีวิวัฒนาการมาเป็นเวลาหลายปี โดยการทดลองและความรู้ของมนุษย์
เกี่ยวกับหมากรุก ) และน้ำหนักตัวเลขจะถูกเลือกโดยการทดลองและข้อผิดพลาด
หรือ ( ในกรณีของโปรแกรมแชมป์คิดหนัก ) โดย " ฝึก " การใช้
จํานวนตัวอย่างเกม Grandmaster .
เป็นโปรแกรมหมากรุกกระบวนทัศน์บ่งบอกสัญชาตญาณเกี่ยวกับปัญหาการวิเคราะห์พฤติกรรม ,
ลองผิดลองถูกเป็นส่วนผสมที่สำคัญทั้งหมดสำหรับการสร้างการประมาณต้นทุน
ใน DP . อย่างไรก็ตาม , มันเป็นสิ่งสำคัญที่จะเสริมอักษรและสัญชาตญาณ
ด้วยเทคนิคเพิ่มเติมระบบที่ใช้ในวงกว้าง และรักษา
มากที่สุดด้าน nonheuristic ของ DP .
NDP มีวัตถุประสงค์เพื่อพัฒนาพื้นฐานในการเขียนโปรแกรมแบบไดนามิกเพื่อรวม
กะทัดรัดแทนและการจำลองสถานการณ์เพื่อให้พื้นฐานสำหรับ
เป็นแนวทางที่มีเหตุผลปัญหาการตัดสินใจเชิงสุ่มที่ซับซ้อน
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2024 I Love Translation. All reserved.

E-mail: