3.2. Simultaneous imputation and cluster analysis
Another approach to analyzing data with missing observations is given in Browne et al. (2013). In this paper, the authors expand upon the work of Ghahramani and Hinton (1997) and McNicholas and Murphy (2008) to develop a Gaussian mixture model-based approach that simultaneously performs imputation and cluster analysis. Formally, a Gaussian mixture model has density
f xj#ð Þ ¼
XG
g¼1
pg/p xjlg;Rg
; ð1Þ
where pg > 0 are the mixing proportions, subject to PG
g¼1pg ¼ 1,
and /p xjlg;Rg
is the density of the p-dimensional multivariate
Gaussian distribution with mean lg and covariance Rg. It is clear from (1) that a GMM is a convex linear combination of multivariate Gaussian densities and, accordingly, is well suited for performing cluster analysis (see Bouveyron and Brunet, 2012; Bouveyron et al., 2007; Celeux and Govaert, 1995; Fraley and Raftery, 2002; McLachlan and Basford, 1988; McNicholas et al., 2010, for exam-ples). Note that the use of a mixture model for cluster analysis is known as model-based clustering.
The model in (1) has Gpðp þ 1Þ=2 free parameters in the covari-ance matrices alone. Therefore, it becomes highly parameterized as p grows, even for relatively small values of p (see Fig. 3). To over-come this issue, constraints can be imposed on the component covariance matrices Rg to introduce parsimony. Another way to introduce parsimony is to consider a mixture of factor analyzers model, which assumes that each component can be represented in an underlying low-dimensional (q p) latent factor space (see Ghahramani and Hinton, 1997). McNicholas and Murphy (2008) combined these two approaches by constraining the covariance matrices in a mixture of factor analyzers model. Browne et al. (2013) use one of the models introduced by McNicholas and Murphy (2008); this model uses a mixture of factor analyzers model with common factor loadings and its density is
f xj#ð Þ ¼
XG
g¼1
pg/p xjlg;KK0 þ Wg
; ð2Þ
where K is a p q matrix of factor loadings and Wg is a p p diago-nal matrix with positive diagonal entries (cf. McNicholas and Murphy, 2008, 2010). Browne et al. (2013) extend this model to
3.2. พร้อมวิเคราะห์ imputation และคลัสเตอร์อีกวิธีการวิเคราะห์ข้อมูล ด้วยการสังเกตไม่ได้ใน Browne et al. (2013) ในเอกสารนี้ ผู้เขียนขยายตามการทำงานของ Ghahramani และ Hinton (1997) และ McNicholas และเมอร์ฟี่ (2008) การพัฒนาผสม Gaussian ตามรูปแบบวิธีการที่ทำการวิ imputation และคลัสเตอร์พร้อมกัน อย่างเป็นกิจจะลักษณะ แบบ Gaussian ส่วนผสมมีความหนาแน่นf xj #ðÞ¼XGg¼1pg/p xjlg Rg; ð1Þสัดส่วนผสม มี PG pg > 0g¼1pg ¼ 1/p xjlg และ Rgมีความหนาแน่นของ multivariate p มิติกระจาย gaussian lg เฉลี่ยและความแปรปรวนร่วมของ Rg อย่างชัดเจน (1) ที่ GMM เป็นการรวมเชิงเส้นนูนแน่น Gaussian ตัวแปรพหุ และ ตาม เหมาะสำหรับทำการวิเคราะห์คลัสเตอร์ (ดู Bouveyron และ Brunet, 2012 Bouveyron et al., 2007 Celeux และ Govaert, 1995 Fraley และ Raftery, 2002 แมคลาชแลนและ Basford, 1988 McNicholas et al., 2553 ท่าน ples สอบ) โปรดสังเกตว่า การใช้แบบผสมสำหรับแบ่งเรียกว่าคลัสเตอร์ตามรูปแบบรูปแบบใน (1) ได้ Gpðp þ 1Þ =พารามิเตอร์อิสระ 2 ในเมทริกซ์ covari ance คนเดียว ดังนั้น มันจะสูงค่าพารามิเตอร์เป็น p เติบโต แม้สำหรับค่าขนาดค่อนข้างเล็กของ p (ดู Fig. 3) มามากเกินไปปัญหานี้ สามารถกำหนดข้อจำกัดบนเมทริกซ์ความแปรปรวนร่วมของคอมโพเนนต์ Rg parsimony แนะนำ แนะนำ parsimony อีกวิธีคือการผสมผสานของปัจจัยเครื่องวิเคราะห์รุ่น ซึ่งถือว่า สามารถแสดงแต่ละคอมโพเนนต์ในการต้นแบบมิติต่ำ (q p) พื้นที่ปัจจัยแฝงอยู่ (ดู Ghahramani และ Hinton, 1997) McNicholas และเมอร์ฟี่ (2008) รวมสองวิธีเหล่านี้ โดยกีดเมทริกซ์ความแปรปรวนร่วมในการผสมผสานระหว่างรุ่นเครื่องวิเคราะห์ปัจจัย Al. et Browne (2013) ใช้รูปแบบการแนะนำ โดย McNicholas และเมอร์ฟี่ (2008); รุ่นนี้ใช้ส่วนผสมของปัจจัยเครื่องวิเคราะห์รุ่นกับ loadings ปัจจัยทั่วไป และมีความหนาแน่นของf xj #ðÞ¼XGg¼1pg/p xjlg KK0 þ Wg; ð2Þโดยที่ K คือ เมทริกซ์ p q ของ loadings ปัจจัยและ Wg เป็นเมทริกซ์ p p diago nal ด้วยบวกเส้นทแยงมุม (cf. McNicholas และเมอร์ฟี่ 2008, 2010) รูปแบบนี้เพื่อขยาย al. et Browne (2013)
การแปล กรุณารอสักครู่..

3.2 ใส่ร้ายพร้อมกันและการวิเคราะห์กลุ่มแนวทางในการวิเคราะห์ข้อมูลที่มีข้อสังเกตอีกประการหนึ่งที่หายไปจะได้รับในบราวน์, et al (2013) ในบทความนี้ผู้เขียนขยายความการทำงานของ Ghahramani และฮินตัน (ที่ 1997) และ McNicholas และเมอร์ฟี่ (2008) เพื่อพัฒนาวิธีการแบบที่ใช้ส่วนผสมเสียนที่พร้อมดำเนินการใส่ร้ายและการวิเคราะห์กลุ่ม อย่างเป็นทางการเป็นรูปแบบผสมเสียนมีความหนาแน่นฉ XJ ð # Þ¼ XG g¼1หน้า / p xjlg; Rg; ð1Þที่หน้า> 0 เป็นสัดส่วนการผสมภายใต้ PG g¼1pg¼ 1 และ / p xjlg; Rg คือความหนาแน่นของพีมิติหลายตัวแปรเสียนกระจายที่มีค่าเฉลี่ย LG และแปรปรวน Rg มันเป็นที่ชัดเจนจาก (1) การที่จีเอ็มเอ็คือการรวมกันเชิงเส้นนูนความหนาแน่นเสียนหลายตัวแปรและตามความเหมาะสมดีสำหรับการดำเนินการวิเคราะห์กลุ่ม (ดู Bouveyron และผมสีน้ำตาลเข้ม, 2012; Bouveyron et al, 2007;. Celeux และ Govaert 1995 ; Fraley และ Raftery 2002; McLachlan และ Basford 1988. McNicholas et al, 2010 สำหรับการสอบ-Ples) โปรดทราบว่าการใช้รูปแบบผสมสำหรับการวิเคราะห์กลุ่มที่เรียกว่าการจัดกลุ่มแบบที่ใช้. รูปแบบใน (1) มีGpðpþ 1th = 2 พารามิเตอร์ฟรีในการฝึกอบรม covari-ance เพียงอย่างเดียว ดังนั้นจึงเป็นอย่างสูงในฐานะแปรพีเติบโตแม้สำหรับค่าที่ค่อนข้างเล็กของพี (ดูรูปที่. 3) กว่ามาปัญหานี้ข้อ จำกัด สามารถกำหนดในเมทริกซ์ความแปรปรวนส่วนประกอบ Rg จะแนะนำประหยัด วิธีที่จะแนะนำก็คือความประหยัดที่จะต้องพิจารณาปัจจัยที่มีส่วนผสมของรูปแบบการวิเคราะห์ซึ่งสันนิษฐานว่าแต่ละองค์ประกอบสามารถแสดงในพื้นฐานต่ำมิติ (QP) พื้นที่ปัจจัยแฝง (ดู Ghahramani และฮินตัน 1997) McNicholas และเมอร์ฟี่ (2008) รวมทั้งสองวิธีการฝึกอบรมโดย constraining แปรปรวนในส่วนผสมของปัจจัยรูปแบบการวิเคราะห์ บราวน์, et al (2013) การใช้หนึ่งในรุ่นที่นำโดย McNicholas และเมอร์ฟี่ (2008); รูปแบบนี้ใช้เป็นส่วนผสมของปัจจัยที่มีรูปแบบการวิเคราะห์ภาระปัจจัยร่วมกันและความหนาแน่นของมันคือฉ XJ # ðÞ¼ XG g¼1หน้า / p xjlg; KK0 þ Wg; ð2Þที่ K คือเมทริกซ์ APQ ของ loadings ปัจจัยและ Wg เป็น app เมทริกซ์ Diago-NAL กับรายการแนวทแยงบวก (cf McNicholas และเมอร์ฟี่, 2008, 2010) บราวน์, et al (2013) ขยายรูปแบบนี้
การแปล กรุณารอสักครู่..

3.2 . การใส่ความ พร้อมกันและการวิเคราะห์
กลุ่มอื่นด้วยวิธีการวิเคราะห์ข้อมูลสูญหายจะได้รับในบราวน์ et al . ( 2013 ) ในบทความนี้ผู้เขียนขยายต่อการทำงานของ ghahramani และฮินตัน ( 1997 ) และเมิ่กนิเคอเลิส และเมอร์ฟี่ ( 2008 ) เพื่อพัฒนาเนื้อหาสำหรับวิธีการที่ผสมพร้อมกันการใส่ความและการวิเคราะห์กลุ่ม ทางการเป็นลักษณะผสมแบบมีความหนาแน่น
F XJ #ðÞ XG ¼
¼ 1 G PG / p xjlg ; RG
; ð 1 Þ
ที่ PG > 0 คือ การผสมสัดส่วนของ PG
g ¼ 1pg ¼ 1
/ P xjlg ; RG
มีความหนาแน่นของ p-dimensional ตัวแปรหลายตัว
) ที่มีการกระจายหมายถึง LG และความ RG . ก็เป็นที่ชัดเจนจาก ( 1 ) ที่ GMM คือการรวมกันเชิงเส้นของตัวแปรหลายตัวนูนเสียน ) และตามเหมาะดีสำหรับการวิเคราะห์กลุ่ม ( และเห็น Bouveyron brunet , 2012 ; Bouveyron et al . , 2007 ; celeux และ govaert , 1995 ; อัน และ raftery , 2002 ; วิธีทำ และ แบสเฟิร์ด , 1988 ; เมิ่กนิเคอเลิส et al . , 2010 , สำหรับการสอบ ples ) ทราบว่าใช้แบบผสมสำหรับการวิเคราะห์กลุ่มเรียกว่ากลุ่ม
สำหรับ .แบบ ( 1 ) มี GP ð P þ 1 Þ = 2 ฟรีค่าพารามิเตอร์ใน covari ance เมทริกซ์คนเดียว ดังนั้น จึงกลายเป็นสูงพารามิเตอร์เป็นเติบโต แม้คุณค่าที่ค่อนข้างเล็กของ P ( ดูรูปที่ 3 ) เพื่อเอาชนะปัญหานี้ ปัญหาที่สามารถกำหนดในองค์ประกอบความแปรปรวนร่วม RG แนะนำความตระหนี่ . อีกวิธีหนึ่งที่จะแนะนำความตระหนี่คือการพิจารณาส่วนผสมของปัจจัยวิเคราะห์โมเดลซึ่งสันนิษฐานว่าชิ้นส่วนแต่ละชิ้นสามารถเป็นตัวแทนในระดับต้นแบบมิติ ( q p ) พื้นที่ปัจจัยแฝง ( ดู ghahramani และฮินตัน , 1997 ) เมิ่กนิเคอเลิส และ เมอร์ฟี่ ( 2008 ) รวมกันทั้งสองวิธีโดย constraining ความแปรปรวนร่วมในส่วนผสมของปัจจัยวิเคราะห์แบบ บราวน์ และคณะ ( 1 ) ใช้รุ่นหนึ่ง นำโดยเมิ่กนิเคอเลิส และเมอร์ฟี่ ( 2008 )รุ่นนี้ใช้ส่วนผสมของปัจจัยวิเคราะห์แบบทั่วไปปัจจัยภาระและความหนาแน่น
F XJ #ðÞ XG ¼
¼ 1 G PG / p xjlg ; kk0 þ WG
; ð 2 Þ
ที่ K P Q เป็นเมทริกซ์ของการกระทำ และ WG เป็นปัจจัย P P diago Nal เมทริกซ์กับรายการในแนวทแยงบวก ( CF . เมิ่กนิเคอเลิส และเมอร์ฟี่ , 2008 , 2010 ) บราวน์ และคณะ ( 1 ) ขยายรูปแบบนี้
การแปล กรุณารอสักครู่..
