Much of what will be said about approximation of the optimal cost function
also applies to approximation of Q-factors. In fact, we will see later that the
Q-factors can also be viewed as optimal costs of a related problem. We thus
focus primarily on approximation of the optimal cost function J
∗
. We are interested in problems with a large number of states and in scoring
functions J˜ that can be described with relatively few numbers (a vector r of
small dimension). Scoring functions involving few parameters are called compact
representations, while the tabular description of J
∗ are called the lookup table
representation. Thus, in a lookup table representation, the values J
∗
(j) are
stored in a table for all states j. In a typical compact representation, only the
vector r and the general structure of the scoring function J˜(·, r) are stored;
the scores J˜(j, r) are generated only when needed. For example, J˜(j, r) may
be the output of some neural network in response to the input j, and r is the
associated vector of weights or parameters of the neural network; or J˜(j, r) may
involve a lower dimensional description of the state j in terms of its “significant
features”, and r is the associated vector of relative weights of the features. Thus
determining the scoring function J˜(j, r) involves two complementary issues: (1)
deciding on the general structure of the function J˜(j, r), and (2) calculating
the parameter vector r so as to minimize in some sense the error between the
functions J
∗
(·) and J˜(·, r).
Approximations of the optimal cost function have been used in the past in a
variety of DP contexts. Chess playing programs represent a successful example.
A key idea in these programs is to use a position evaluator to rank different
chess positions and to select at each turn a move that results in the position
with the best rank. The position evaluator assigns a numerical value to each
position, according to a heuristic formula that includes weights for the various
features of the position (material balance, piece mobility, king safety, and other
factors). Thus, the position evaluator corresponds to the scoring function J˜(j, r)
above, while the weights of the features correspond to the parameter vector r. Usually, some general structure of position evaluator is selected (this is largely
an art that has evolved over many years, based on experimentation and human
knowledge about chess), and the numerical weights are chosen by trial and error
or (as in the case of the champion program Deep Thought) by “training” using
a large number of sample grandmaster games.
As the chess program paradigm suggests, intuition about the problem, heuristics,
and trial and error are all important ingredients for constructing cost approximations
in DP. However, it is important to supplement heuristics and intuition
with more systematic techniques that are broadly applicable and retain
as much as possible the nonheuristic aspects of DP.
NDP aims to develop a methodological foundation for combining dynamic
programming, compact representations, and simulation to provide the basis for
a rational approach to complex stochastic decision problems.
มากสิ่งที่จะกล่าวว่า เกี่ยวกับการประมาณฟังก์ชันต้นทุนที่เหมาะสมนอกจากนี้ยัง ใช้กับประมาณของ Q-ปัจจัย ในความเป็นจริง เราจะเห็นในภายหลังที่การยังสามารถดูปัจจัย Q เป็นต้นทุนที่เหมาะสมของปัญหาที่เกี่ยวข้อง เราจึงเน้นประมาณฟังก์ชันต้นทุนเหมาะสมเจเป็นหลัก∗. เรามีความสนใจ ในปัญหาของอเมริกา และ ในการให้คะแนนฟังก์ชัน J˜ ที่สามารถอธิบาย ด้วยตัวเลขที่ค่อนข้างน้อย (เป็นเวกเตอร์ r ของเล็กมิติ) ฟังก์ชันที่เกี่ยวข้องกับพารามิเตอร์น้อยคะแนนเรียกว่ากระทัดรัดนำเสนอ ในขณะที่คำอธิบายตารางของเจ∗เรียกว่าตารางการค้นหาแสดงอยู่ ดังนั้น ในการค้นหาตารางแสดง ค่า J∗(เจ) อยู่เก็บไว้ในตารางสำหรับ j อเมริกาทั้งหมด ในการทั่วไปขนาดเล็กแสดง เท่าเวกเตอร์ r และโครงสร้างทั่วไปของฟังก์ชันให้คะแนน J˜ (ลอก r) เก็บคะแนน J˜ (j, r) สร้างขึ้นเมื่อจำเป็นเท่านั้น ตัวอย่าง J˜ (j, r) อาจเป็นผลผลิตของบางเครือข่ายประสาทตอบสนองต่อเจเข้า และ r คือการเวกเตอร์ที่เกี่ยวข้องของน้ำหนักหรือพารามิเตอร์ของเครือข่ายประสาท หรืออาจ J˜ (j, r)เกี่ยวข้องกับคำอธิบายมิติต่ำกว่าของเจรัฐในแง่ของการ "อย่างมีนัยสำคัญคุณลักษณะ" และ r เป็นเวกเตอร์ของน้ำหนักสัมพัทธ์ของเกี่ยวข้อง ดังนั้นกำหนดฟังก์ชันให้คะแนน J˜ (j, r) เกี่ยวข้องกับปัญหาสองเพิ่มเติม: (1)ตัดสินใจเกี่ยวกับโครงสร้างทั่วไปของฟังก์ชัน J˜ (j, r), และการคำนวณ (2)เป็นเวกเตอร์ของพารามิเตอร์เพื่อ ลดข้อผิดพลาดระหว่างในบางฟังก์ชัน J∗(·) และ J˜ (ลอก r)ใช้เพียงการประมาณของฟังก์ชันต้นทุนที่เหมาะสมที่สุดในอดีตในการความหลากหลายของบริบท DP หมากรุกที่เล่นโปรแกรมแสดงเป็นตัวอย่างที่ประสบความสำเร็จความคิดที่สำคัญในโปรแกรมเหล่านี้จะใช้ตำแหน่งตัวประเมินเพื่อจัดอันดับแตกต่างกันตำแหน่งหมากรุก และเลือกผลในตำแหน่งที่เปิดแต่ละมีอันดับดีที่สุด ถ่วงดุลตำแหน่งกำหนดค่าตัวเลขแต่ละตำแหน่ง ตามสูตรแล้วที่มีน้ำหนักในต่าง ๆลักษณะการทำงานของตำแหน่ง (วัตถุดิบ ชิ้นส่วนเคลื่อนไหว ความปลอดภัย และอื่น ๆปัจจัย) ดังนั้น ตัวประเมินตำแหน่งที่สอดคล้องกับฟังก์ชั่นให้คะแนน J˜ (j, r)เหนือ ในขณะที่น้ำหนักของสอดคล้องกับอาร์เวกเตอร์พารามิเตอร์ปกติ โครงสร้างบางอย่างทั่วไปของตำแหน่งถ่วงดุลไว้ (เป็นส่วนใหญ่ศิลปะที่มีพัฒนาหลายปี โดยใช้ทดลอง และมนุษย์ความรู้เกี่ยวกับหมากรุก), และน้ำหนักเป็นตัวเลขที่เลือก โดยลองผิดลองถูก(อย่างในกรณีของแชมป์โปรแกรมคิดลึก) โดยใช้ "ฝึกอบรม"ตัวเลขขนาดใหญ่ของเกมอย่างท่านอาจารย์เป็นหมากรุกกระบวนทัศน์โปรแกรมแนะนำ สัญชาตญาณเกี่ยวกับปัญหา รุกและลองผิดลองถูกเป็นส่วนผสมสำคัญทั้งหมดสำหรับสร้างเพียงการประมาณต้นทุนใน DP อย่างไรก็ตาม มันเป็นสิ่งสำคัญเสริมลองผิดลองถูกและสัญชาตญาณมีระบบมากขึ้นเทคนิคที่ใช้ทั่วไป และรักษามากที่สุดด้าน nonheuristic ของ DP ได้NDP มุ่งสร้างรากฐานการรวมไดนามิก methodologicalเขียนโปรแกรม กระชับนำเสนอ และการจำลองสถานการณ์เพื่อให้พื้นฐานสำหรับการวิธีการเชือดปัญหาซับซ้อนตัดสินแบบเฟ้นสุ่ม
การแปล กรุณารอสักครู่..
มากของสิ่งที่จะพูดเกี่ยวกับการประมาณค่าของฟังก์ชันต้นทุนที่เหมาะสม
ยังใช้กับการ q-factors . ในความเป็นจริงเราจะเห็นในภายหลังว่า
q-factors สามารถถูกมองว่าเป็นค่าใช้จ่ายที่เกี่ยวข้องกับปัญหา เราจึง
เน้นหลักในการประมาณค่าใช้จ่ายในการทำงานที่เหมาะสม∗ J
เราสนใจในปัญหากับตัวเลขขนาดใหญ่ของรัฐและให้คะแนน
ฟังก์ชันเจ˜ที่สามารถอธิบายได้ด้วยตัวเลขที่ค่อนข้างน้อย ( เวกเตอร์ r
ขนาดเล็ก ) ฟังก์ชันที่เกี่ยวข้องกับตัวแปรไม่กี่คะแนน เรียกว่า กะทัดรัด
แทน ส่วนรายละเอียดตารางของ J
∗เรียกว่าโต๊ะ
ค้นหาตัวแทน ดังนั้นในการค้นหาตารางการแสดงคุณค่า∗ J
( J )
เก็บไว้ในโต๊ะสำหรับรัฐทั้งหมดโดยทั่วไปขนาดเล็กในการแสดงเพียง
เวกเตอร์ r และโครงสร้างทั่วไปของคะแนน˜ ( ด้วยฟังก์ชั่น J , R ) จะถูกเก็บไว้ ;
( j , J ˜คะแนน R ) ถูกสร้างขึ้นเมื่อต้องการ ตัวอย่างเช่น ˜ J ( J , R )
เป็นผลผลิตของโครงข่ายประสาทเทียมในการตอบสนองต่ออินพุต J , r
ที่เกี่ยวข้องเวกเตอร์ของน้ำหนักหรือพารามิเตอร์ของเครือข่ายประสาท หรือ˜ J ( J , R )
เกี่ยวข้องกับการลดมิติรายละเอียดของรัฐ เจ ในแง่ของ " อย่างมีนัยสำคัญ
คุณสมบัติ " และ R เป็นเกี่ยวข้องเวกเตอร์ของน้ำหนักสัมพัทธ์ของคุณสมบัติ ดังนั้นการกำหนดเกณฑ์การให้คะแนนการทำงาน˜
J ( J , R ) เกี่ยวข้องกับสองประเด็นเสริม ( 1 )
การตัดสินใจเกี่ยวกับโครงสร้างทั่วไปของฟังก์ชัน˜ J ( J , R ) และ ( 2 ) การคำนวณ
พารามิเตอร์เวกเตอร์ R เพื่อลดในความรู้สึกบางข้อผิดพลาดระหว่างการทำงาน∗
J
( ด้วย ) และ เจ ˜ ( Suite , R )
การค่าใช้จ่ายในการทำงานที่เหมาะสมได้ถูกใช้ในอดีตในหลากหลายบริบท
- . โปรแกรมเล่นหมากรุกแทน ตัวอย่างที่ประสบความสําเร็จ .
ความคิดหลักในโปรแกรมเหล่านี้คือการใช้ตำแหน่งประเมินแตกต่างกัน
อันดับหมากรุกตำแหน่งและเลือกที่หันละย้ายผลในตำแหน่ง
ที่มีอันดับดีที่สุด ตำแหน่งตัวทำได้โดยการคำนวณค่าแต่ละ
ตำแหน่ง ตามการแบ่งน้ำหนักสูตรที่มีคุณสมบัติต่างๆ
ของตำแหน่ง ( ดุลวัสดุชิ้นการเคลื่อนไหว คิง ความปลอดภัย และปัจจัยอื่น ๆ
) ดังนั้นตำแหน่งตัวสอดคล้องกับเกณฑ์การให้คะแนนการทำงาน˜ J ( J , R )
ข้างบน ในขณะที่น้ำหนักของคุณสมบัติที่สอดคล้องกับตัวแปรเวกเตอร์ R . โดยปกติทั่วไปบางโครงสร้างของตำแหน่งตัวเลือกนี้ ( ส่วนใหญ่
ศิลป์ที่มีวิวัฒนาการมาเป็นเวลาหลายปี โดยการทดลองและความรู้ของมนุษย์
เกี่ยวกับหมากรุก ) และน้ำหนักตัวเลขจะถูกเลือกโดยการทดลองและข้อผิดพลาด
หรือ ( ในกรณีของโปรแกรมแชมป์คิดหนัก ) โดย " ฝึก " การใช้
จํานวนตัวอย่างเกม Grandmaster .
เป็นโปรแกรมหมากรุกกระบวนทัศน์บ่งบอกสัญชาตญาณเกี่ยวกับปัญหาการวิเคราะห์พฤติกรรม ,
ลองผิดลองถูกเป็นส่วนผสมที่สำคัญทั้งหมดสำหรับการสร้างการประมาณต้นทุน
ใน DP . อย่างไรก็ตาม , มันเป็นสิ่งสำคัญที่จะเสริมอักษรและสัญชาตญาณ
ด้วยเทคนิคเพิ่มเติมระบบที่ใช้ในวงกว้าง และรักษา
มากที่สุดด้าน nonheuristic ของ DP .
NDP มีวัตถุประสงค์เพื่อพัฒนาพื้นฐานในการเขียนโปรแกรมแบบไดนามิกเพื่อรวม
กะทัดรัดแทนและการจำลองสถานการณ์เพื่อให้พื้นฐานสำหรับ
เป็นแนวทางที่มีเหตุผลปัญหาการตัดสินใจเชิงสุ่มที่ซับซ้อน
การแปล กรุณารอสักครู่..