There is considerable recent research on the properties and performance of
the learning classifier system XCS (Wilson, 1995; Butz and Wilson, 2001).
Areas of interest include data mining (e.g., Bernadó et al., 2000), generalization
over inputs (Butz and Pelikan, 2001), self-adaptation of learning
parameters (Hurst and Bull, 2001), and learning in non-Markov environments
(Lanzi andWilson, 2000), among others. One area that has not received attention
is function approximation, which XCS’s accuracy-based fitness makes
possible. This paper demonstrates XCS as a function approximator, then
shows how, somewhat surprisingly, this leads to a generalized classifier structure
that embraces traditional classifier formats and, for the first time, permits
classifiers capable of continuous-valued actions.
XCS’s classifiers estimate payoff. That is, the rules (classifiers) evolved
by XCS each keep a statistical estimate of the payoff (reward, reinforcement)
expected if the classifier’s condition is satisfied and its action is executed by
the system. Moreover, the classifiers form quite accurate payoff estimates, or
predictions, since the classifiers’ fitnesses under the genetic algorithm depend
on their prediction accuracies. In effect, XCS approximates the mapping X×A ⇒ P, where X is the set of possible inputs, A the system’s set of available
actions (typically finite and discrete), and P is the set of possible payoffs. If
attention is restricted to a single action ai ∈ A, the mapping has the form
X×ai ⇒ P, which is a function from input vectors x to scalar payoffs. Thus
the system approximates a separate function for each ai .
In the reinforcement learning contexts in which classifier systems are
typically used, the reason for forming these payoff function approximations
is to permit the system to choose, for each x, the best (highest-paying) action
from A. However, there are contexts where the output desired from a learning
system is not a discrete action but a continuous quantity. For instance in
predicting continuous time series, the output might be a future series value.
In a control context, the output might be a vector of continuous quantities
such as angles or thrusts. Apart from classifier systems based on fuzzy logic
(Valenzuela-Rendón, 1991; Bonarini, 2000), there are none which produce
real-valued outputs. Our hypothesis was that the payoff function approximation
ability of XCS could be adapted to produce real-valued outputs, as well
as be used for function approximation in general applications.
To test this we adapted XCS to learn approximations to functions of the
form y = f (x), where y is real and x is a vector with integer components
x1, . . . , xn. The results demonstrated approximation to high accuracy,
together with evolution of classifiers that tended to distribute themselves
efficiently over the input domain. The research fed back, however, on basic
classifier concepts. It was realized that thinking of a classifier as a function
approximator implied a new, generalized, classifier syntax that covered most
existing classifier formats and included not only discrete-action classifiers but
ones with continuous actions.
The next section gives a brief description of XCS. Section 3 describes
modifications to XCS for function approximation. Section 4 has results on
a simple piecewise-constant approximation. In Section 5 we introduce a
new classifier structure that permits piecewise-linear approximations. Results
on simple functions are shown in Section 6. In Section 7 we demonstrate
accurate approximation of a six-dimensional function. Section 8 presents the
generalized classifier syntax and examines its use. The final section has our
conclusions and suggestions for future work.
มีจำนวนมากการวิจัยล่าสุดเกี่ยวกับคุณสมบัติและประสิทธิภาพของการเรียนรู้ระบบ classifier XCS (Wilson, 1995 Butz และ Wilson, 2001)พื้นที่ที่น่าสนใจได้แก่การทำเหมืองข้อมูล (เช่น Bernadó และ al., 2000), generalizationกว่าอินพุต (Butz และ Pelikan, 2001), ปรับตนเองเรียนรู้พารามิเตอร์ (Hurst และวัว 2001), และเรียนรู้ในสภาพแวดล้อมไม่ใช่ Markov(Lanzi andWilson, 2000), หมู่คนอื่น ๆ หนึ่งในพื้นที่ที่ได้รับความสนใจเป็นฟังก์ชันประมาณ ทำให้ออกกำลังกายถูกต้องตามที่ XCSเป็นไปได้ เอกสารนี้แสดงให้เห็นถึง XCS เป็นแบบฟังก์ชัน approximator จากนั้นแสดงวิธี ค่อนข้างน่าแปลกใจ นี้นำไปสู่โครงสร้าง classifier เมจแบบทั่วไปที่นำรูปแบบดั้งเดิม classifier และ ครั้งแรก อนุญาตคำนามภาษาความสามารถในการดำเนินการมูลค่าอย่างต่อเนื่องคำนามภาษาของ XCS ประเมินผลตอบแทน นั่นคือ พัฒนากฎ(คำนามภาษา)โดย XCS ละให้การประเมินทางสถิติของผลตอบแทน (รางวัล เสริม)คาดว่าถ้าเงื่อนไขของ classifier ความพึงพอใจ และดำเนินการดำเนินการของระบบ นอกจากนี้ คำนามภาษาที่ฟอร์มการประเมินผลตอบแทนที่ค่อนข้างถูกต้อง หรือคาดคะเน เนื่องจากขึ้นอยู่กับ fitnesses ของคำนามภาษาภายใต้ขั้นตอนวิธีพันธุกรรมใน accuracies ของพวกเขาคาดเดา ผล XCS approximates แม็ป⇒ X × A P โดย X คือ ชุดของปัจจัยการผลิตได้ ระบบของการตั้งค่าของ Aการดำเนินการ (โดยทั่วไปมีจำกัด และไม่ต่อเนื่อง), และ P คือ ชุดของ payoffs ได้ ถ้าความสนใจจำกัดเป็นการอาย∈ A แบบฟอร์มมีการแม็ปX ×ไอ⇒ P ซึ่งเป็นฟังก์ชันจากเวกเตอร์สำหรับการป้อนค่า x กับ payoffs สเกลา ดังนั้นระบบ approximates ฟังก์ชันแยกต่างหากสำหรับแต่ละไอในการเสริมสร้างการเรียนรู้บริบทใน classifier ที่มีระบบโดยทั่วไปใช้ เหตุผลเป็นเพียงการประมาณฟังก์ชันเหล่านี้ผลตอบแทนจะอนุญาตให้ระบบให้เลือก สำหรับแต่ละ x ดีที่สุด (สูงที่สุดจ่ายเงิน)จากอ. อย่างไรก็ตาม มีบริบทซึ่งผลลัพธ์ที่ต้องการจากการเรียนรู้ระบบจะไม่ดำเนินการไม่ต่อเนื่องแต่ปริมาณอย่างต่อเนื่อง เช่นในคาดการณ์ต่อเนื่องเวลาชุด ผลลัพธ์อาจเป็นค่าลำดับในอนาคตในการควบคุมบริบท ผลลัพธ์อาจเป็นเวกเตอร์ของปริมาณอย่างต่อเนื่องเช่นมุมหรือ thrusts นอกจากระบบ classifier ตามตรรกศาสตร์(Valenzuela-Rendón, 1991 Bonarini, 2000) มีไม่มีการผลิตมูลค่าจริงแสดงผลการ สมมติฐานของเราให้ผลตอบแทนการทำงานประมาณความสามารถของ XCS อาจดัดแปลงการผลิตมูลค่าจริงแสดงผล เช่นจะใช้การประมาณฟังก์ชันในโปรแกรมประยุกต์ทั่วไปการทดสอบนี้ เราดัดแปลง XCS เพียงการประมาณการฟังก์ชันของการเรียนรู้แบบฟอร์ม y = f (x), โดยที่ y เป็นจริง และ x คือ เวกเตอร์พร้อมส่วนประกอบจำนวนเต็มx 1,..., xn ประมาณการความแม่นยำสูง แสดงผลพร้อมวิวัฒนาการของคำนามภาษาที่มีแนวโน้มที่จะกระจายตัวเองโดเมนป้อนข้อมูลอย่างมีประสิทธิภาพ วิจัยการเลี้ยงกลับ ไร บนพื้นฐานแนวคิดของ classifier ไม่รู้ว่าคิด classifier ที่เป็นฟังก์ชันapproximator นัยไวยากรณ์ classifier ใหม่ เมจแบบทั่ว ไป ที่ครอบคลุมมากที่สุดclassifier อยู่รูปแบบ และรวมไม่เฉพาะคำนามภาษาแยกกันดำเนินการ แต่คน มีการดำเนินการอย่างต่อเนื่องส่วนถัดไปให้คำอธิบายโดยย่อของ XCS หมวดที่ 3 อธิบายปรับเปลี่ยนการ XCS สำหรับฟังก์ชันประมาณ 4 ส่วนมีผลpiecewise คงที่ได้ประมาณการ ใน 5 ส่วน เราแนะนำตัวclassifier โครงสร้างใหม่ที่อนุญาตให้เพียงการประมาณ piecewise เชิงเส้น ผลลัพธ์ในเรื่องฟังก์ชันจะแสดงอยู่ในส่วน 6 ใน 7 ส่วนเราแสดงให้เห็นถึงประมาณความถูกต้องของฟังก์ชัน 6 มิติ ส่วน 8 แสดงการการตั้งค่าทั่วไป classifier ไวยากรณ์ และตรวจสอบการใช้งาน มีส่วนสุดท้ายของเราบทสรุปและข้อเสนอแนะสำหรับการทำงานในอนาคต
การแปล กรุณารอสักครู่..
There is considerable recent research on the properties and performance of
the learning classifier system XCS (Wilson, 1995; Butz and Wilson, 2001).
Areas of interest include data mining (e.g., Bernadó et al., 2000), generalization
over inputs (Butz and Pelikan, 2001), self-adaptation of learning
parameters (Hurst and Bull, 2001), and learning in non-Markov environments
(Lanzi andWilson, 2000), among others. One area that has not received attention
is function approximation, which XCS’s accuracy-based fitness makes
possible. This paper demonstrates XCS as a function approximator, then
shows how, somewhat surprisingly, this leads to a generalized classifier structure
that embraces traditional classifier formats and, for the first time, permits
classifiers capable of continuous-valued actions.
XCS’s classifiers estimate payoff. That is, the rules (classifiers) evolved
by XCS each keep a statistical estimate of the payoff (reward, reinforcement)
expected if the classifier’s condition is satisfied and its action is executed by
the system. Moreover, the classifiers form quite accurate payoff estimates, or
predictions, since the classifiers’ fitnesses under the genetic algorithm depend
on their prediction accuracies. In effect, XCS approximates the mapping X×A ⇒ P, where X is the set of possible inputs, A the system’s set of available
actions (typically finite and discrete), and P is the set of possible payoffs. If
attention is restricted to a single action ai ∈ A, the mapping has the form
X×ai ⇒ P, which is a function from input vectors x to scalar payoffs. Thus
the system approximates a separate function for each ai .
In the reinforcement learning contexts in which classifier systems are
typically used, the reason for forming these payoff function approximations
is to permit the system to choose, for each x, the best (highest-paying) action
from A. However, there are contexts where the output desired from a learning
system is not a discrete action but a continuous quantity. For instance in
predicting continuous time series, the output might be a future series value.
In a control context, the output might be a vector of continuous quantities
such as angles or thrusts. Apart from classifier systems based on fuzzy logic
(Valenzuela-Rendón, 1991; Bonarini, 2000), there are none which produce
real-valued outputs. Our hypothesis was that the payoff function approximation
ability of XCS could be adapted to produce real-valued outputs, as well
as be used for function approximation in general applications.
To test this we adapted XCS to learn approximations to functions of the
form y = f (x), where y is real and x is a vector with integer components
x1, . . . , xn. The results demonstrated approximation to high accuracy,
together with evolution of classifiers that tended to distribute themselves
efficiently over the input domain. The research fed back, however, on basic
classifier concepts. It was realized that thinking of a classifier as a function
approximator implied a new, generalized, classifier syntax that covered most
existing classifier formats and included not only discrete-action classifiers but
ones with continuous actions.
The next section gives a brief description of XCS. Section 3 describes
modifications to XCS for function approximation. Section 4 has results on
a simple piecewise-constant approximation. In Section 5 we introduce a
new classifier structure that permits piecewise-linear approximations. Results
on simple functions are shown in Section 6. In Section 7 we demonstrate
accurate approximation of a six-dimensional function. Section 8 presents the
generalized classifier syntax and examines its use. The final section has our
conclusions and suggestions for future work.
การแปล กรุณารอสักครู่..
มีงานวิจัยล่าสุดมากในคุณสมบัติและประสิทธิภาพของระบบการเรียนรู้
xcs ลักษณนาม ( Wilson , 1995 ; Butz และวิลสัน , 2001 ) .
พื้นที่ที่น่าสนใจรวมถึงการทำเหมืองข้อมูล ( เช่น เบอร์นาร์ด ó et al . , 2000 ) , generalization
กว่าปัจจัยการผลิต ( บัตส์ และ PELIKAN , 2001 ) , การปรับตัว การเรียนรู้
พารามิเตอร์ ( เฮิร์ส และ วัว , 2001 ) และ การเรียนรู้ในสภาพแวดล้อมที่ไม่ใช่มาร์คอฟ
( lanzi andwilson , 2000 )ในหมู่คนอื่น ๆ หนึ่งในพื้นที่ที่ยังไม่ได้รับความสนใจ
คือการประมาณค่าฟังก์ชัน ซึ่ง xcs ความถูกต้องตามฟิตเนสทำให้
ที่สุด บทความนี้แสดงให้เห็น xcs เป็นฟังก์ชัน approximator แล้ว
แสดงว่าค่อนข้างน่าแปลกใจ นี้นำไปสู่โครงสร้างทั่วไปลักษณนามลักษณนาม
โอบดั้งเดิมและรูปแบบ , ครั้งแรก , ใบอนุญาต
ลักษณนามสามารถต่อเนื่องมูลค่าการกระทํา .
xcs คำประเมินของเงินล่วงหน้า นั่นคือกฎ ( ลักษณนาม ) พัฒนาโดย xcs
แต่ละเก็บประมาณการทางสถิติของผลตอบแทน ( Reward เสริม )
คาดว่าถ้าตัวอาการพอใจและการกระทำของมันเป็นดำเนินการโดย
ระบบ นอกจากนี้ ตามแบบฟอร์มที่ถูกต้องทีเดียว ผลตอบแทนประมาณการหรือ
คาดคะเนเนื่องจากคำ ' fitnesses ภายใต้ขั้นตอนขึ้นอยู่กับ
บนความถูกต้องการคาดการณ์ของพวกเขา ผล xcs ใกล้เคียงกับแผนที่ x ×เป็น⇒ P , โดยที่ x คือชุดของปัจจัยการผลิตเป็นไปได้ ระบบชุดของการกระทำที่มีอยู่
( โดยปกติจำกัดและไม่ต่อเนื่อง ) , และ P คือชุดของผลตอบแทนที่เป็นไปได้ ถ้า
ความสนใจจำกัดการกระทำเดียว ไอ∈ , การทำแผนที่มีรูปแบบ
x ×ไอ⇒ Pซึ่งเป็นฟังก์ชันจาก X ไปยังอินพุตเวกเตอร์สเกลาร์จ่ายสินบน ดังนั้น ระบบมีฟังก์ชัน
แยกต่างหากสำหรับแต่ละ AI
เสริมการเรียนรู้ในบริบทที่เป็นระบบการจำแนก
โดยปกติจะใช้ เหตุผลเหล่านี้ฟังก์ชั่นการสร้างผลตอบแทน
เป็นอนุญาตให้ระบบเลือกสำหรับแต่ละ X , ดีที่สุด ( จากการจ่ายเงินสูงสุด )
. อย่างไรก็ตามมีบริบทที่ผลลัพธ์ที่ต้องการจากการเรียนรู้ระบบไม่ใช่การกระทำ
ไม่ต่อเนื่องแต่ปริมาณอย่างต่อเนื่อง ตัวอย่างเช่นใน
พยากรณ์อนุกรมเวลาอย่างต่อเนื่อง ผลผลิตอาจจะค่าชุดในอนาคต .
ในการควบคุมบริบท ผลผลิตอาจจะเกี่ยวกับปริมาณอย่างต่อเนื่อง
เช่นมุมหรือสอดใส่ . นอกจากตัวระบบขึ้นอยู่กับ
ตรรกศาสตร์ ( Valenzuela ฉีกเลออง , 1991 ;bonarini , 2000 ) , ไม่มีที่ผลิต
จริงมูลค่าผลผลิต สมมติฐานของเราคือ ค่าใช้จ่ายในการประมาณค่าฟังก์ชัน
xcs อาจจะดัดแปลงผลิตจริงมูลค่าผลผลิต เช่น
เป็นถูกใช้สำหรับการประมาณค่าฟังก์ชันในการใช้งานทั่วไป .
การทดสอบนี้เราดัดแปลง xcs เรียนรู้การประมาณฟังก์ชันของ
แบบฟอร์ม y = f ( x )ที่ Y เป็นจริงและ x เป็นจำนวนเต็มกับเวกเตอร์องค์ประกอบ
x1 , . . . . . . . . คริสเตียน , . มีค่าประมาณความถูกต้องสูง
พร้อมกับวิวัฒนาการของคำลักษณนามที่มีแนวโน้มที่จะแจกจ่ายตัวเอง
มีประสิทธิภาพมากกว่าข้อมูลโดเมน การป้อนกลับ อย่างไรก็ตาม ในเบื้องต้น
แบบแนวคิด มันก็ตระหนักได้ว่า ความคิดของตัวเป็นฟังก์ชัน
approximator ) ใหม่ทั่วไป , ลักษณนามไวยากรณ์ที่ครอบคลุมมากที่สุดที่มีอยู่และรวมลักษณนาม
รูปแบบไม่เพียง แต่การกระทำไม่ต่อเนื่องแต่คำที่มีการกระทำต่อเนื่อง
.
ส่วนถัดไปจะให้คำอธิบายสั้น ๆของ xcs . ส่วนที่ 3 กล่าวถึง
การปรับเปลี่ยน xcs สำหรับฟังก์ชันการประมาณ มาตรา 4 ได้ผลลัพธ์บน
ง่ายๆคงเป็นช่วงประมาณ ในส่วนที่ 5 เราแนะนำ
โครงสร้างแบบใหม่ที่อนุญาตให้เชิงเส้นเป็นช่วงการประมาณ ผลลัพธ์ในการทำงาน
จะแสดงอยู่ในส่วนที่ 6 ในมาตรา 7 ที่เราแสดงให้เห็นถึงความถูกต้องของการประมาณฟังก์ชัน
6 มิติ มาตรา 8 ได้นำเสนอ
ทั่วไปลักษณนามไวยากรณ์และตรวจสอบการใช้งาน ส่วนสุดท้ายได้ข้อสรุปและข้อเสนอแนะสำหรับการทำงานในอนาคตของเรา
การแปล กรุณารอสักครู่..