4 Pattern completion, associative memory and missing values.
Methods belonging to the SBM framework, such as the nearest neighbor method, may be
used as associative memories in a natural way. Any part of the input vector X = (Xd,Xu) may
be used to find nearest neighbors in the subspace of defined input values Xd. The undefined
part Xu is predicted interpolating the values of nearest neighbors for the dominating class.
Optimization of parameters for classification in the Xd subspace only should improve results
but frequently the same k-NNmodel works well in subspaces.
Pattern completion may be implemented in several ways. In many cases vectors with
missing values are removed from the training set or some averaged or most frequent values
are inserted. In this way useful information is thrown out or inappropriate information is
introduced. For example, the echocardiogram data from UCI repository [20], contains 132
vectors, 12 attributes of which only 1-9 are useful, the second being the class. 15 values of
the attribute 6 are missing, 11 values for attribute 7 etc. If the attributes with missing values
are ignored 10-fold stratified crossvalidation tests gives 87.8% accuracy using on average
24 neurons of the FSM network [15] (FSM is based on constructive algorithm, therefore
different number of neurons may be created in different crossvalidations), while inserting
averages over all classes decreased the accuracy to 85.5% (with 20 neurons), and inserting a
new value that does not appear in the data, such as -100, decreased accuracy to 81.5% (using
22 neurons). The same behavior has been observed for Hepatitis dataset taken from the same
source. the data contains 155 vectors, 18 attributes, 13 of them are binary, other have integer
values. The last attribute has 67 missing values, attribute 16 has 29 missing values etc. Using
10-fold crossvalidation tests ignoring missing values gives 79.9% accuracy using on average
19 neurons, inserting averages over all classes 81.0% (with 12 neurons) and inserting -100
gives lowest accuracy 79.1% (with 16 neurons).
Suppose that 2-dimensional data vectors are clustered around (1.0,1.0) and (2.0,2.0), with
the first cluster containing twice as many vectors as the second. Suppose now that the second
feature is missing in the training vector X with x1 = 1.9. If X neighbors in the x1 subspace,
around the given x1 = 1.9 values are found, interpolating the missing x2 value will give
approximately correct answer (around 2.0) while using the most frequent values or averaged
values will give incorrect guess (around 1.0). In many applications hierarchical approach
to collection of data is taken: initial tests allow to make a hypothesis, followed by specific
tests that confirm it or not. The challenge is to discover such hierarchical classification. In
statistics analysis of independent surveys in which some questions are not answered by some
respondents and some questions are not asked in some surveys is known as the “multiple
imputation” problem (see [21]), but assumptions about normal distributions used in this
theory may not be valid. Another approach is described below.
In the first step missing features in the training vectors should be completed. Information
contained in training vectors with missing features is than used to improve the classification
model. Probability of unknown values Xu is calculated by maximization of:
p(Xu|Xd;M) = max
u
,i
p(Ci|(Xu,Xd);M) (19)
i.e. searching for the maximum of the probability given by the model M in the subspace of
undefined features, with fixed point in the Xd subspace. If a single missing feature is sought
one dimensional maximization or a search procedure in the range of admissible values for
Xu is done. Initial model M is prepared using either training vectors that have all features
defined, or – if most vectors contain missing values – a largest subset of training vectors is
found with the largest number of the same input features defined. For example, if only a few
4 รูปแบบความสมบูรณ์ หน่วยความจำที่เกี่ยวข้อง และค่าหายไปวิธีการของกรอบงาน SBM เช่นวิธีเพื่อนบ้านที่ใกล้ที่สุด อาจจะใช้เป็นความทรงจำที่เกี่ยวข้องในทางธรรมชาติ ของ =เวกเตอร์อินพุต X (Xd, Xu) อาจใช้ในการค้นหาใกล้บ้านใน subspace ของกำหนด Xd ที่ไม่ได้กำหนดส่วนเขาจะทำนาย interpolating ค่าของเพื่อนบ้านที่ใกล้ที่สุดสำหรับคลาสพลังอำนาจเหนือเพิ่มประสิทธิภาพของพารามิเตอร์สำหรับการจัดประเภทใน Xd subspace ควรพัฒนาผลแต่ k-NNmodel เดียวกันทำงานดีใน subspaces บ่อย ๆความสมบูรณ์แบบอาจนำมาใช้ได้ในหลายวิธี ในหลายกรณีเวกเตอร์ด้วยค่าที่หายไปจะถูกเอาออกจากชุดฝึกอบรมหรือค่าเฉลี่ย หรือบ่อย ๆ บางจะใส่ วิธีนี้ ข้อมูลจะโยนออก หรือข้อมูลที่ไม่เหมาะสมแนะนำ ตัวอย่าง ข้อมูล echocardiogram จาก UCI เก็บ [20], ประกอบด้วย 132เวกเตอร์ 12 แอตทริบิวต์ที่เพียง 1-9 มีประโยชน์ ที่สองการเรียน ค่า 15แอตทริบิวต์ 6 ขาด 11 ค่าสำหรับแอตทริบิวต์เป็นต้น 7 ถ้าค่าแอตทริบิวต์ มีขาดหายไปมีให้ทดสอบ stratified crossvalidation 10-fold ถูกละเว้น 87.8% ความถูกต้องที่ใช้โดยเฉลี่ยหรือไม่[15] เครือข่าย neurons ที่ 24 ของการแบ่งเป็นสองพวก (แบ่งเป็นสองพวกตามอัลกอริทึมสร้างสรรค์ ดังนั้นจำนวน neurons สามารถสร้างในต่าง crossvalidations), ในขณะที่ใส่ค่าเฉลี่ยมากกว่าคลาสทั้งหมดลดแม่นยำ 85.5% (มี 20 neurons), และการแทรกตัวค่าใหม่ที่ไม่ปรากฏในข้อมูล เช่น -100 ลดความแม่นยำ 81.5% (ใช้22 neurons) มีการสังเกตพฤติกรรมเดียวกันสำหรับชุดข้อมูลของโรคที่นำมาจากเดียวกันแหล่งที่มา ข้อมูลประกอบด้วยเวกเตอร์ 155 แอตทริบิวต์ 18, 13 ของพวกเขาเป็นไบนารี อื่น ๆ มีจำนวนเต็มค่า แอตทริบิวต์ที่ล่าสุดได้ค่า 67 หายไป คุณลักษณะ 16 มีค่าสูญหาย 29 เป็นต้น โดยใช้ทดสอบ crossvalidation 10-fold ละเว้นค่าหายให้แม่นยำ 79.9% ที่ใช้โดยเฉลี่ย19 neurons การแทรกค่าเฉลี่ยมากกว่าทุกคลาส 81.0% (มี 12 neurons) และแทรก -100ให้ต่ำความแม่นยำ 79.1% (มี 16 neurons)สมมติว่า มีจับกลุ่มข้อมูล 2 มิติเวกเตอร์รอบ (1.0,1.0) (2.0,2.0), และมีคลัสเตอร์แรกที่ประกอบด้วยเวกเตอร์สองเป็นจำนวนมากเป็นที่สอง สมมติว่า ตอนนี้ที่สองลักษณะการทำงานขาดหายไปในเวกเตอร์ฝึกอบรม X x 1 = 1.9 ถ้าบ้านใน x 1 X subspaceสถานที่กำหนด x 1 = 1.9 พบค่า interpolating 2 x หายไปค่าจะทำให้ประมาณคำตอบ (ประมาณ 2.0) ในขณะที่ใช้มากสุดประจำค่า หรือ averagedค่าจะเดาไม่ถูกต้อง (ประมาณ 1.0) ในโปรแกรมประยุกต์หลายวิธีตามลำดับชั้นการเก็บรวบรวมข้อมูลนำมา: ทดสอบเริ่มอนุญาตให้สมมติฐานการ ตาม ด้วยเฉพาะการทดสอบที่ยืนยัน หรือไม่ ความท้าทายคือการ ค้นพบการจัดประเภทตามลำดับชั้นดังกล่าว ในวิเคราะห์สถิติสำรวจอิสระซึ่งคำถามจะไม่ตอบ โดยบางผู้ตอบและคำถามไม่ถามในการสำรวจบางเป็นที่รู้จักกันหลาย"ปัญหา imputation" (ดู [21]), แต่สมมติฐานเกี่ยวกับการกระจายปกติที่ใช้ในการนี้ทฤษฎีอาจไม่ถูกต้อง วิธีอื่นมีอธิบายไว้ด้านล่างในขั้นตอนแรก ขาดคุณลักษณะในเวกเตอร์ฝึกอบรมควรดำเนินการ ข้อมูลอยู่ในเวกเตอร์ฝึกกับขาดคุณลักษณะนั้นจากที่ใช้ในการปรับปรุงการจัดประเภทแบบจำลอง ความน่าเป็นของเขาตาม maximization ของค่าที่ไม่รู้จัก:p (Xu| Xd M) =สูงสุดuฉันp (Ci| ( เขาฮิว Xd); เมตร) (19)เช่นหาจำนวนความน่าเป็นที่กำหนด โดยรูปแบบ M ใน subspace ของไม่ได้กำหนดคุณสมบัติ มีจุดถาวรใน Xd subspace ถ้าขาดคุณลักษณะเดียวทั้งmaximization มิติหนึ่งหรือค้นหาขั้นตอนในช่วงของค่า admissibleเขาจะทำ เตรียมเริ่มต้นรุ่น M โดยใช้เวกเตอร์การฝึกอบรมที่มีลักษณะการทำงานทั้งหมดกำหนด หรือ -ถ้าเวกเตอร์ส่วนใหญ่ประกอบด้วยค่าที่หายไป – ย่อยที่ใหญ่ที่สุดของเวกเตอร์การฝึกอบรมพบกับตัวเลขที่กำหนดคุณลักษณะอินพุตเดียว ตัวอย่างเช่น ถ้าเพียงไม่กี่
การแปล กรุณารอสักครู่..
4 รูปแบบเสร็จสมบูรณ์ , หน่วยความจำและคิดถึงค่า
วิธีการของ SBM กรอบ เช่น เพื่อนบ้านที่ใกล้ที่สุด วิธีการ อาจจะใช้ความทรงจำ
เชื่อมโยงในแบบธรรมชาติ ส่วนใดส่วนหนึ่งของการป้อนข้อมูลเวกเตอร์ x = ( XD , ซู ) อาจ
ใช้หาเพื่อนบ้านที่ใกล้ที่สุดในการกำหนดข้อมูลย่อยของค่า XD The God
ส่วนซูคาดการ ประมาณค่าของเพื่อนบ้านที่ใกล้ที่สุดเพื่อเพิ่มประสิทธิภาพของพารามิเตอร์ในคลาส
การจำแนกใน xD ได้เท่านั้น ควรปรับปรุงผลลัพธ์
แต่บ่อยครั้ง k-nnmodel เดียวกันใช้ได้ดีใน subspaces .
รูปแบบเสร็จอาจดำเนินการได้หลายวิธี ในหลายกรณีกับ
เวกเตอร์ค่าหายไปจะถูกลบออกจากชุดฝึก หรือเฉลี่ยหรือค่า
บ่อยที่สุดจะถูกแทรก ด้วยวิธีนี้ข้อมูลที่เป็นประโยชน์จะถูกโยนออกไปที่ไม่เหมาะสมหรือข้อมูล
แนะนำ ตัวอย่างเช่น อ่อนช้อย ข้อมูลจาก UCI กรุ [ 20 ] มี 132
เวกเตอร์ 12 คุณลักษณะที่ 1-9 เท่านั้นที่มีประโยชน์ ที่สองเป็นชั้น ค่าของแอตทริบิวต์
6 หายไป11 ค่าแอตทริบิวต์ 7 ฯลฯ ถ้าแอตทริบิวต์ที่มีค่าสูญหาย
ละเว้น 10 เท่า crossvalidation การทดสอบและให้ความถูกต้อง 87.8 ใช้เฉลี่ย
24 เซลล์ประสาทของเครือข่ายใน [ 15 ] ( ในจะขึ้นอยู่กับขั้นตอนวิธีที่สร้างสรรค์ เพราะฉะนั้น
เลขที่แตกต่างของ neurons อาจถูกสร้างขึ้นใน crossvalidations แตกต่างกัน ) , ในขณะที่ใส่
เฉลี่ยมากกว่า ทุกชั้นเรียนจะลดลงความ 85ร้อยละ 5 ( 20 neurons ) และใส่ค่า
ใหม่ที่ไม่ได้ปรากฏในข้อมูล เช่น - 100 ความถูกต้องจะลดลงร้อยละ 81.5 ( ใช้
22 neurons ) พฤติกรรมเดียวกันได้รับการตรวจสอบสำหรับชนิดข้อมูลมาจากแหล่งเดียวกัน
ข้อมูลมี 155 เวกเตอร์ 18 คุณลักษณะที่ 13 ของพวกเขาเป็นไบนารีอื่น ๆมีจำนวนเต็ม
ค่า คุณลักษณะสุดท้ายได้หายไปมูลค่า 67 ,แอตทริบิวต์ที่ 16 มีค่าสูญหาย ฯลฯ โดยใช้การทดสอบค่า crossvalidation
10 เท่าไม่หายให้ความถูกต้อง 79.9 % โดยเฉลี่ย
19 เซลล์ประสาท 29 แทรกผ่านชั้นทั้งหมดเฉลี่ย 81.0 % ( มี 12 neurons ) และแทรก - 100
ให้ความถูกต้องร้อยละ 79.1 สุด 16 neurons ) .
สมมติว่าข้อมูลเป็นกระจุกรอบเวกเตอร์ 2 มิติ ( 1.0,1.0 ) และ ( 2.0,2.0
)กลุ่มแรกประกอบด้วยสองเป็นพาหะมาก 2 คิดว่าตอนนี้คุณลักษณะที่สอง
หายไปในการฝึกอบรมเวกเตอร์ x กับ X1 = 1.9 ถ้า x เพื่อนบ้านใน X1 ได้
รอบให้ , x1 = 1.9 พบว่าค่าการ ประมาณค่าสูญหาย , X2
ตอบถูกต้องจะให้ประมาณ ( ประมาณ 2.0 ) ในขณะที่ใช้ค่าเฉลี่ย
บ่อยที่สุด หรือค่าไม่ถูกต้อง จะให้เดา ( ประมาณ 1.0 ) ในการใช้งานหลายลำดับชั้น เพื่อเก็บข้อมูลเป็นแนวทาง
ถ่าย : การทดสอบเบื้องต้นอนุญาตให้สมมติฐาน ตาม โดยเฉพาะ
การทดสอบที่ยืนยันได้หรือไม่ ความท้าทายคือการค้นพบเช่นลำดับชั้นการจำแนก ใน
สถิติการวิเคราะห์การสำรวจอิสระที่บางคำถามไม่ตอบ โดยบาง
ผู้ตอบคำถามไม่ได้ถามในการสำรวจเป็นที่รู้จักในฐานะ " หลาย
ใส่ความ " ปัญหา ( ดู [ 21 ] ) แต่สมมติฐานเกี่ยวกับการแจกแจงปกติที่ใช้ในทฤษฎีนี้
อาจจะไม่ถูกต้อง อีกวิธีหนึ่งคือการอธิบายไว้ด้านล่าง .
ในขั้นตอนแรกคุณสมบัติที่ขาดหายไปในการฝึกอบรมเวกเตอร์ควรจะเสร็จสมบูรณ์ ข้อมูล
เวกเตอร์ที่มีอยู่ในการฝึกอบรมที่มีคุณสมบัติหายไปกว่าใช้ปรับปรุงการจำแนก
นางแบบ ไม่ทราบค่าความน่าจะเป็นของซอคํานวณโดยสูงสุดของ :
p ( Xu | XD ; m = max
U
ผม
p ( CI | ( Xu , XD ) ; m )
( 19 ) คือการค้นหาสูงสุดของความน่าจะเป็นที่กำหนดโดยรูปแบบย่อยของ
M ใน คุณสมบัติเดียว กับจุดคงที่ใน xD ได้ . ถ้าตัวเดียวคุณสมบัติที่ขาดหายไปคือหา
หนึ่งมิติ ( หรือการขั้นตอนในช่วงของค่าที่ยอมรับได้สำหรับ
Xu เป็นที่เรียบร้อย แบบแรกคือใช้ M เตรียมการฝึกอบรมอย่างใดอย่างหนึ่งเวกเตอร์ที่มีคุณสมบัติทั้งหมด
นิยามหรือ–ถ้าเวกเตอร์ส่วนใหญ่มีค่าสูญหาย–ใหญ่ย่อยของเวกเตอร์การฝึกอบรม
ที่พบมากที่สุดของการป้อนข้อมูลเดียวกันคุณสมบัติที่กำหนด ตัวอย่างเช่น ถ้าเพียงไม่กี่
การแปล กรุณารอสักครู่..