Principal component analysis (PCA) is a statistical procedure that uses an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of linearly uncorrelated variables called principal components. The number of principal components is less than or equal to the number of original variables. This transformation is defined in such a way that the first principal component has the largest possible variance (that is, accounts for as much of the variability in the data as possible), and each succeeding component in turn has the highest variance possible under the constraint that it is orthogonal to the preceding components. The resulting vectors are an uncorrelated orthogonal basis set. The principal components are orthogonal because they are the eigenvectors of the covariance matrix, which is symmetric. PCA is sensitive to the relative scaling of the original variables.
PCA was invented in 1901 by Karl Pearson,[1] as an analogue of the principal axis theorem in mechanics; it was later independently developed (and named) by Harold Hotelling in the 1930s.[2] Depending on the field of application, it is also named the discrete Kosambi-Karhunen–Loève transform (KLT) in signal processing, the Hotelling transform in multivariate quality control, proper orthogonal decomposition (POD) in mechanical engineering, singular value decomposition (SVD) of X (Golub and Van Loan, 1983), eigenvalue decomposition (EVD) of XTX in linear algebra, factor analysis (for a discussion of the differences between PCA and factor analysis see Ch. 7 of [3]), Eckart–Young theorem (Harman, 1960), or Schmidt–Mirsky theorem in psychometrics, empirical orthogonal functions (EOF) in meteorological science, empirical eigenfunction decomposition (Sirovich, 1987), empirical component analysis (Lorenz, 1956), quasiharmonic modes (Brooks et al., 1988), spectral decomposition in noise and vibration, and empirical modal analysis in structural dynamics.
PCA is mostly used as a tool in exploratory data analysis and for making predictive models. PCA can be done by eigenvalue decomposition of a data covariance (or correlation) matrix or singular value decomposition of a data matrix, usually after mean centering (and normalizing or using Z-scores) the data matrix for each attribute.[4] The results of a PCA are usually discussed in terms of component scores, sometimes called factor scores (the transformed variable values corresponding to a particular data point), and loadings (the weight by which each standardized original variable should be multiplied to get the component score).[5]
PCA is the simplest of the true eigenvector-based multivariate analyses. Often, its operation can be thought of as revealing the internal structure of the data in a way that best explains the variance in the data. If a multivariate dataset is visualised as a set of coordinates in a high-dimensional data space (1 axis per variable), PCA can supply the user with a lower-dimensional picture, a projection or "shadow" of this object when viewed from its (in some sense; see below) most informative viewpoint. This is done by using only the first few principal components so that the dimensionality of the transformed data is reduced.
PCA is closely related to factor analysis. Factor analysis typically incorporates more domain specific assumptions about the underlying structure and solves eigenvectors of a slightly different matrix.
PCA is also related to canonical correlation analysis (CCA). CCA defines coordinate systems that optimally describe the cross-covariance between two datasets while PCA defines a new orthogonal coordinate system that optimally describes variance in a single dataset.[6][7]
วิเคราะห์ส่วนประกอบหลัก (PCA) เป็นสถิติที่ใช้ในการแปลงเป็น orthogonal แปลงชุดค่าสังเกตของตัวแปร correlated อาจเป็นชุดของค่าของตัวแปรเชิงเส้น uncorrelated ที่เรียกว่าส่วนประกอบหลัก จำนวนของส่วนประกอบหลักคือน้อยกว่า หรือเท่ากับจำนวนตัวแปรเดิม การเปลี่ยนแปลงนี้ถูกกำหนดในลักษณะที่ส่วนประกอบหลักแรกมีผลต่างเป็นไปได้ที่ใหญ่ที่สุด (นั่นคือ บัญชีสำหรับความแปรผันในข้อมูลได้มากที่สุด), และคอมโพเนนต์แต่ละแผ่นจะมีความแปรปรวนสูงสุดภายใต้ข้อจำกัดว่า เป็น orthogonal กับส่วนประกอบข้าง เวกเตอร์เป็นผลลัพธ์จะเป็นชุดพื้นฐาน uncorrelated orthogonal ส่วนประกอบหลักเป็น orthogonal เพราะเป็นลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วม ซึ่งเป็นสมมาตร สมาคมเป็นสำคัญสัมพันธ์กับขนาดของตัวแปรเดิมสมาคมคิดค้นใน 1901 โดยคาร์ลเพียร์, [1] เป็นการอนาล็อกของทฤษฎีบทแกนหลักในกลศาสตร์ มันเป็นอิสระภายหลังพัฒนา (และชื่อ) โดย Hotelling ฮาโรลด์ในช่วงทศวรรษ 1930 [2] ขึ้นอยู่ในเขตของแอพลิเคชัน ยังตั้งแยกกันโกสัมพี-Karhunen – Loève แปลง (KLT) ในการประมวลผล การแปลง Hotelling ในตัวแปรพหุการควบคุมคุณภาพ สม orthogonal แยกส่วนประกอบ (POD) วิศวกรรมเครื่องกล เอกพจน์ค่าเน่า (SVD) ของ X (อย่างไร Golub และสินเชื่อรถตู้ 1983), สัญญาณ eigenvalue เน่า (อีวีดี) ของ XTX ในพีชคณิตเชิงเส้น การวิเคราะห์ปัจจัย (สำหรับคำอธิบายเกี่ยวกับความแตกต่างระหว่างสมาคมและปัจจัยวิเคราะห์ดู 7 ช. [3]) ทฤษฎีบท Eckart – หนุ่ม (Harman, 1960), หรือทฤษฎีบท Schmidt – Mirsky ใน psychometrics ประจักษ์ orthogonal ฟังก์ชัน (EOF) ในอุตุนิยมวิทยาวิทยาศาสตร์ แยกส่วนประกอบ eigenfunction ประจักษ์ (Sirovich, 1987), ส่วนประกอบผลการวิเคราะห์ (ชายลอเรนซ์ 1956), โหมด quasiharmonic (บรู๊คส์ et al., 1988), แยกส่วนประกอบสเปกตรัมในเสียง และความสั่นสะเทือน และวิเคราะห์จนประจักษ์ใน dynamics โครงสร้างส่วนใหญ่ใช้ PCA เป็นเครื่องมือ ในการวิเคราะห์ข้อมูลเชิงบุกเบิก และทำแบบจำลองการคาดการณ์ สมาคมโดยการเน่า eigenvalue ของตัวข้อมูลความแปรปรวนร่วม (หรือสหสัมพันธ์) เมทริกซ์หรือเอกพจน์ค่าเน่าของเมทริกซ์ข้อมูล ปกติหลังจัดกึ่งกลางหมายถึง (และ normalizing หรือใช้คะแนน Z) เมทริกซ์ข้อมูลสำหรับแต่ละแอตทริบิวต์ [4] ผลของ PCA มักจะได้รับการอธิบายส่วนประกอบคะแนน บางครั้งเรียกว่าตัวคูณคะแนน (การแปรค่าตัวแปรที่สอดคล้องกับข้อมูลเฉพาะจุด), และ loadings (น้ำหนักซึ่งแต่ละมาตรฐานตัวแปรเดิมควรคูณจะได้รับคะแนนส่วนประกอบ) [5]PCA ที่ง่ายที่สุดของจริง eigenvector ตามตัวแปรพหุวิเคราะห์ได้ มักจะ สามารถคิดของการดำเนินการเป็นการเปิดเผยโครงสร้างภายในของข้อมูลในลักษณะที่อธิบายความแปรปรวนในข้อมูลส่วน ถ้าชุดข้อมูลตัวแปรพหุเป็น visualised เป็นชุดของพิกัดในพื้นที่สูงมิติข้อมูล (แกนที่ 1 สำหรับแต่ละตัวแปร), PCA สามารถใส่รูปภาพล่างรูป การฉายภาพ หรือ "เงา" ของวัตถุนี้เมื่อดูจากผู้ใช้ของ (ในบางรู้สึก ดูด้านล่าง) จุดชมวิวสุดข้อมูลได้ นี้จะทำโดยเฉพาะแรกไม่กี่หลักส่วนประกอบเพื่อให้ dimensionality ข้อมูลการแปรรูปจะลดลงสมาคมสัมพันธ์การวิเคราะห์ปัจจัย การวิเคราะห์ปัจจัยโดยทั่วไปจะประกอบด้วยสมมติฐานเฉพาะโดเมนเพิ่มเติมเกี่ยวกับโครงสร้างพื้นฐาน และแก้ลักษณะเฉพาะของเมทริกซ์ต่างกันเล็กน้อยสมาคมยังเกี่ยวข้องกับการวิเคราะห์ความสัมพันธ์เป็นที่ยอมรับ (CCA) CCA กำหนดระบบพิกัดที่อธิบายแปรปรวนข้ามระหว่าง datasets สองในขณะที่สมาคมกำหนดระบบพิกัด orthogonal ใหม่ที่อธิบายความแปรปรวนในการชุดข้อมูลเดียวอย่างเหมาะสมอย่างเหมาะสม [6] [7]
การแปล กรุณารอสักครู่..
การวิเคราะห์องค์ประกอบหลัก ( PCA ) เป็นสถิติที่ใช้มีการเปลี่ยนแปลงวิธีการแปลงชุดของตัวอย่างอาจมีตัวแปรที่เป็นชุดของค่าของตัวแปรเชิง uncorrelated เรียกส่วนประกอบหลัก จำนวนของส่วนประกอบหลักคือน้อยกว่าหรือเท่ากับจำนวนตัวแปรเดิมการเปลี่ยนแปลงนี้ถูกกำหนดในลักษณะที่องค์ประกอบหลักแรกมีความเป็นไปได้มากที่สุด ( นั่นคือ บัญชีสำหรับมากของความแปรปรวนในข้อมูลที่เป็นไปได้ ) และแต่ละส่วนจะมีความแปรปรวนสูงที่สุดภายใต้ข้อจำกัดที่มันตั้งฉากกับหน้าส่วนประกอบ ผลเวกเตอร์เป็นชุดพื้นฐาน ) uncorrelated .ส่วนประกอบหลักเป็น ) เพราะมีเสนอของ Covariance Matrix ซึ่งเป็นสมมาตร . PCA มีความไวต่อการความสัมพันธ์ของตัวแปรเดิม
ถูกคิดค้นในปี 1901 โดย Karl Pearson , [ 1 ] เป็นอะนาล็อกของทฤษฎีบทแกนหลักในกลศาสตร์ ต่อมาพัฒนาอิสระ ( และชื่อ ) โดย Harold Hotelling ใน 1930[ 2 ] ทั้งนี้ขึ้นอยู่กับเขตข้อมูลโปรแกรมประยุกต์ มันยังเป็นชื่อที่ไม่ต่อเนื่อง และเชียงตุง karhunen โล . เคยเปลี่ยน ( klt ) ในการประมวลผลสัญญาณ แปลงควบคุม Hotelling คุณภาพแบบที่เหมาะสม ) การสลายตัว ( ฝัก ) สาขาวิชาวิศวกรรมเครื่องกล การสลายตัวมูลค่าเอกพจน์ ( SVD ) x ( โกเลิบ และรถตู้เงินกู้ , 1983 ) ค่า ( evd ) , การย่อยสลายของ xtx ในพีชคณิตเชิงเส้นการวิเคราะห์ปัจจัย ( สำหรับการอภิปรายของความแตกต่างระหว่างระบบและการวิเคราะห์องค์ประกอบดูตอนที่ 7 [ 3 ] ) , Eckart –หนุ่มทฤษฎีบท ( Harman 1960 ) หรือ ชมิดท์ ( mirsky ทฤษฎีบทในไซโครเมทริกส์ , ฟังก์ชั่น Orthogonal เชิงประจักษ์ ( ช่วง ) ในวิทยาศาสตร์ทางอุตุนิยมวิทยา การสลายตัวของฟังก์ชันลักษณะเฉพาะเชิงประจักษ์ ( sirovich , 1987 ) , การวิเคราะห์องค์ประกอบเชิงประจักษ์ ( ลอเรนซ์ 1956 ) , โหมด quasiharmonic ( Brooks et al . , 1988 )สเปกตรัมการสลายตัวในเสียงรบกวนและการสั่นสะเทือน การวิเคราะห์และการประจักษ์ในพลศาสตร์โครงสร้าง
PCA ส่วนใหญ่ถูกใช้เป็นเครื่องมือในการวิเคราะห์ข้อมูล และสร้างสมการทำนาย . ระบบสามารถทำได้โดยค่าการสลายตัวของข้อมูล ( หรือความสัมพันธ์ ) เมทริกซ์หรือการสลายตัวมูลค่าเอกพจน์ของเมทริกซ์ข้อมูลโดยปกติหลังจากที่หมายถึงศูนย์กลาง ( และปกติหรือใช้ z-scores ) เมทริกซ์ข้อมูลสำหรับแต่ละแอตทริบิวต์ . [ 4 ] ผลลัพธ์ของระบบมักจะถูกกล่าวถึงในแง่ของคะแนนส่วนประกอบ บางครั้งเรียกว่าคะแนนปัจจัย ( เปลี่ยนค่าตัวแปรที่สอดคล้องกับจุดข้อมูลที่เฉพาะเจาะจง )และการกระทำ ( น้ำหนักมาตรฐานเดิมซึ่งในแต่ละตัวแปรจะคูณให้องค์ประกอบคะแนน ) [ 5 ]
PCA เป็นเรื่องง่ายของจริงเวกเตอร์ลักษณะเฉพาะตามแบบวิเคราะห์ข้อมูล บ่อยครั้งที่การสามารถคิดเป็นเปิดเผยโครงสร้างภายในของข้อมูลในวิธีที่ดีที่สุดอธิบายความแปรปรวนในข้อมูลหากชุดข้อมูลหลายตัวแปรจะมองเห็นเป็นพิกัดในพื้นที่ข้อมูล - สูงขนาด 1 แกนต่อตัวแปร ) PCA สามารถจัดหาผู้ใช้ด้วยการลดมิติภาพฉาย หรือ " เงา " ของวัตถุนี้เมื่อดูจาก ( ในความรู้สึกบางอย่าง ; ดูด้านล่าง ) ข้อมูลส่วนใหญ่จุดชมวิวนี้จะกระทำโดยการใช้เพียงไม่กี่ครั้งแรกหลักส่วนประกอบเพื่อให้ dimensionality ของแปลงข้อมูลจะลดลง
PCA จะเกี่ยวข้องกับการวิเคราะห์ปัจจัย การวิเคราะห์องค์ประกอบโดยทั่วไปประกอบด้วยโดเมนเพิ่มเติมเฉพาะสมมติฐานเกี่ยวกับโครงสร้างพื้นฐานและแก้เสนอของเมทริกซ์ที่แตกต่างกันเล็กน้อย
PCA ยังเกี่ยวข้องกับการวิเคราะห์สหสัมพันธ์คาโนนิคอล ( CCA )กำหนดระบบพิกัดที่เหมาะสมมะเร็งอธิบายข้ามความแปรปรวนระหว่างสองข้อมูลในขณะที่ถูกกำหนดใหม่ ) ระบบพิกัดที่เหมาะสมอธิบายความแปรปรวนในชุดข้อมูลเดียว . [ 6 ] [ 7 ]
การแปล กรุณารอสักครู่..