Genomic technologies, such as whole exome sequencing, or whole genome sequencing, provide rich resources to screen for genetic variants associated with complex diseases. Although a number of statistical methods have been developed to screen genomes for individual variants, or groups of variants, for their association with disease, only a few have focused specifically on detecting clusters of variants that occur more frequently among cases than controls. General omnibus statistics, such as sequence kernel association tests (SKAT) [Kwee, et al. 2008; Lee, et al. 2012a; Lee, et al. 2012b; Wu, et al. 2011] or burden-type tests [Asimit and Zeggini 2010; Bansal, et al. 2010; Basu and Pan 2010], might not be as powerful as statistics designed to be sensitive to tight clustering of risk variants within small genomic regions. Two recently proposed statistics were developed for detecting clusters of variants. Ionita-Laza et al. [Ionita-Laza, et al. 2012] extended Kulldorff’s likelihood ratio scan statistic [Kulldorff 2007], developed for detecting spatial clusters of disease to scan for clusters of risk variants along a genomic region. Intuitively, this method computes a likelihood ratio statistic to compare the frequency of variants carried among cases and controls within a genomic window vs. those frequencies outside of a genomic window, and scans the genomic region of interest by sliding the window along the genome while evaluating a range of window sizes. Fier et al. [Fier, et al. 2012] also developed a method based on spatial clustering, emphasizing physical distances between variants. They combined physical distances between variants with minor allele frequencies of the variants to create weighted distances between variants, to then compare the distributions of these measures between cases and controls using the nonparametric Ansari-Bradley statistic, which is sensitive to differences in scale of the two distributions. As emphasized by Fier et al., a number of biological features of genes support the view that risk variants might cluster in restricted regions: 1) protein domains tend to have similar function, and variants within the same domain can be located in close proximity on the DNA sequence; 2) multiple variants in a gene regulatory element can be physically clustered.
Spatial clustering of disease in geographic regions, as well as temporal clustering, have been a topic of interest in epidemiologic studies for decades, leading to many competing statistical methods [Tango 2010]. Two major competitors have been Kulldorff’s scan statistic, extended by Ionita-Laza et al. [Ionita-Laza, et al. 2012] to genomic scans, and Tango’s kernel statistic. In spatial clustering of disease, Tango’s kernel method computes all pair-wise geographic distances between diseased cases and compares theses distances with those computed from controls.
To appreciate the approach by Tango, a few insights from spatial statistics and geographical clustering of disease are useful. This approach requires computing pairwise geographic distances between all pairs of subjects, and then compares the distribution of pairwise distances between cases vs. controls. If a cluster of diseased cases exists, however, the average pairwise distances among them can be drowned out by the many pairs of random large distances. For this reason, Mantel [Mantel 1967] and others have suggested truncating larger distances, say more than a few miles. Alternatively, Tango [Tango 1984] used a nonlinear metric of distance that decreases more rapidly than linear.For example, let dij denote the linear distance between subjects i and j. One of Tango’s metrics is Aij(τ)= e−|dij|/τ, where τ is a scale parameter and interpreted as a measure of cluster size, equal to the maximum distance between cases; cases further apart cannot be considered to be in the same cluster. Large values of τ will be sensitive to a large cluster, and a small value of τ to a small cluster. The problem is choosing τ, because we do not know the number of clusters, nor their sizes. To get around this, Tango [Tango 2000] later proposed a different metric, Aij(τ)=e−4(dij/τ)2, and allowed τ to vary, essentially a scan statistic, and used the minimum p-value as the test statistic, with simulations to compute an adjusted global p-value. For case-control data, Tango’s statistic is a quadratic statistic, Q = (O−E)′A(O − E), where O is the vector of counts of cases at different points, E is the null expected vector of variant counts among cases (determined by total counts among cases + controls). Because Tango’s method can be expressed as a quadratic kernel statistic, much like the SKAT statistic, it is appealing for genomic scans because it can be rapidly computed. Furthermore, it offers a kernel-smoothing way to plot the distribution of variants, to graphically view potential clustering of variants. For these reasons, we extend Tango’s ideas to methods useful to scan genomic regions for variant clustering.
In the following section we develop a kernel statistic for scanning genomic regions for excessive clustering of variants among cases relative to controls. We then used simulations to compare a number of statistical methods for their Type-I error rates and power to detect one or more clusters, including the scan statistic of Ionita-Laza, the spatial clustering method of Fier et al., our proposed kernel statistic, and the omnibus SKAT statistic. Based on these simulation results, we make recommendations on analytic strategies to detect clusters of risk variants.
เทคโนโลยี genomic เช่น exome ทั้งหมดลำดับ ลำดับทั้งจีโนม แสดงหน้าจอสำหรับตัวแปรทางพันธุกรรมที่เกี่ยวข้องกับโรคซับซ้อนอุดมไปด้วยทรัพยากร แม้ว่าจำนวนของวิธีการทางสถิติได้รับการพัฒนาให้จอ genomes สำหรับแต่ละย่อย กลุ่มย่อย การเชื่อมโยงกับโรค ไม่ได้มุ่งเน้นเฉพาะในการตรวจจับของตัวแปรที่เกิดขึ้นบ่อยในกรณีมากกว่าการควบคุม ทั่วไปสถิติ omnibus เช่นลำดับเคอร์เนลสมาคมทดสอบ (SKAT) [Kwee, et al. 2008 ลี al. et 2012a ลี al. et 2012b วู et al. 2011] หรือภาระงานทดสอบ [Asimit และ Zeggini 2010 Bansal, et al. 2010 Basu และแพน 2010], อาจไม่ได้เป็นพลังเป็นสถิติมาน้อยคลัสเตอร์ย่อยความเสี่ยงภายในภูมิภาค genomic เล็กแน่น สองเมื่อเร็ว ๆ นี้นำเสนอสถิติพัฒนาขึ้นสำหรับการตรวจสอบคลัสเตอร์ย่อย Al. et Ionita Laza [Ionita-Laza, et al. 2012] ขยายของ Kulldorff โอกาสอัตราการสแกนสถิติ [Kulldorff 2007], ได้รับการพัฒนาสำหรับการตรวจสอบคลัสเตอร์ปริภูมิของโรคการค้นหาของตัวแปรความเสี่ยงตามภูมิภาค genomic สังหรณ์ใจ วิธีนี้คำนวณสถิติอัตราความเป็นไปได้เพื่อเปรียบเทียบความถี่ของตัวแปรดำเนินคดีและการควบคุมภายในหน้าต่าง genomic เทียบกับความถี่ที่นอกหน้าต่าง genomic และสแกนภูมิภาค genomic น่าสนใจ โดยการเลื่อนหน้าต่างตามจีโนมในขณะประเมินขนาดของหน้าต่างให้เลือกมากมาย Al. ร้อยเอ็ด Fier [Fier, et al. 2012] ยังพัฒนาวิธีการตามคลัสเตอร์ปริภูมิ เน้นระยะทางจริงระหว่างตัวแปร พวกเขารวมระยะทางจริงระหว่างตัวแปรกับความถี่ของ allele รองย่อยเพื่อสร้างน้ำหนักระยะทางระหว่างตัวแปร การเปรียบเทียบการกระจายของมาตรการเหล่านี้ระหว่างคดีและควบคุมโดยใช้สถิติรี Bradley nonparametric ซึ่งมีความไวต่อความแตกต่างในระดับของการกระจายสอง ที่เน้นโดย Fier et al. หมายเลขคุณสมบัติทางชีวภาพของยีนสนับสนุนมุมมองที่ตัวแปรความเสี่ยงอาจคลัสเตอร์ในพื้นที่จำกัด: 1) โดเมนโปรตีนมักจะ มีฟังก์ชันที่คล้ายกัน และตัวแปรภายในโดเมนเดียวกันสามารถตั้งอยู่ในใกล้กับลำดับดีเอ็นเอ 2) หลายตัวแปรในองค์ประกอบที่บังคับของยีนสามารถจับกลุ่มทางกายภาพคลัสเตอร์ปริภูมิของโรคในพื้นที่ เป็นคลัสเตอร์ชั่วคราว ได้รับหัวข้อที่น่าสนใจในการศึกษา epidemiologic สำหรับทศวรรษที่ผ่านมา นำวิธีทางสถิติหลายแข่งขัน [แทงโก้ 2010] คู่แข่งหลักสองได้รับสถิติการสแกนของ Kulldorff ขยายโดย Ionita Laza et al. [Ionita-Laza, et al. 2012] สแกน genomic และสถิติเคอร์เนลของแทงโก้ ในปริภูมิคลัสเตอร์ของโรค วิธีเคอร์เนลของแทงโก้คำนวณระยะทางทางภูมิศาสตร์ทั้งหมด pair-wise ระหว่างกรณีป่วย และเปรียบเทียบระยะทางบรรณานุกรมกับคำนวณจากตัวควบคุมTo appreciate the approach by Tango, a few insights from spatial statistics and geographical clustering of disease are useful. This approach requires computing pairwise geographic distances between all pairs of subjects, and then compares the distribution of pairwise distances between cases vs. controls. If a cluster of diseased cases exists, however, the average pairwise distances among them can be drowned out by the many pairs of random large distances. For this reason, Mantel [Mantel 1967] and others have suggested truncating larger distances, say more than a few miles. Alternatively, Tango [Tango 1984] used a nonlinear metric of distance that decreases more rapidly than linear.For example, let dij denote the linear distance between subjects i and j. One of Tango’s metrics is Aij(τ)= e−|dij|/τ, where τ is a scale parameter and interpreted as a measure of cluster size, equal to the maximum distance between cases; cases further apart cannot be considered to be in the same cluster. Large values of τ will be sensitive to a large cluster, and a small value of τ to a small cluster. The problem is choosing τ, because we do not know the number of clusters, nor their sizes. To get around this, Tango [Tango 2000] later proposed a different metric, Aij(τ)=e−4(dij/τ)2, and allowed τ to vary, essentially a scan statistic, and used the minimum p-value as the test statistic, with simulations to compute an adjusted global p-value. For case-control data, Tango’s statistic is a quadratic statistic, Q = (O−E)′A(O − E), where O is the vector of counts of cases at different points, E is the null expected vector of variant counts among cases (determined by total counts among cases + controls). Because Tango’s method can be expressed as a quadratic kernel statistic, much like the SKAT statistic, it is appealing for genomic scans because it can be rapidly computed. Furthermore, it offers a kernel-smoothing way to plot the distribution of variants, to graphically view potential clustering of variants. For these reasons, we extend Tango’s ideas to methods useful to scan genomic regions for variant clustering.ในส่วนต่อไปนี้ เราพัฒนาสถิติเคอร์เนลสำหรับการสแกนพื้นที่ genomic สำหรับคลัสเตอร์ย่อยในกรณีที่สัมพันธ์กับการควบคุมมากเกินไป เราใช้จำลองการเปรียบเทียบจำนวนของวิธีการทางสถิติสำหรับชนิดของพวกเขา-ผมอัตราข้อผิดพลาดและอำนาจในการตรวจสอบอย่าง น้อยหนึ่งคลัสเตอร์ สถิติการสแกนของ Ionita Laza วิธีการระบบคลัสเตอร์ปริภูมิของ al. et Fier สถิติของเคอร์เนลที่เสนอ และสถิติ SKAT omnibus เราตามผลการทดลองเหล่านี้ ให้คำแนะนำในกลยุทธ์คู่ของตัวแปรของความเสี่ยงตรวจพบ
การแปล กรุณารอสักครู่..

เทคโนโลยีจีโนมเช่นลำดับทั้ง exome หรือลำดับจีโนมทั้งหมดให้ทรัพยากรที่อุดมไปด้วยหน้าจอสำหรับสายพันธุ์ทางพันธุกรรมที่เกี่ยวข้องกับโรคที่ซับซ้อน แม้ว่าจำนวนของวิธีการทางสถิติได้รับการพัฒนาไปยังหน้าจอสำหรับสายพันธุ์จีโนมของบุคคลหรือกลุ่มของสายพันธุ์ของพวกเขาสำหรับการเชื่อมโยงกับโรคเพียงไม่กี่ได้มุ่งเน้นเฉพาะในการตรวจสอบกลุ่มของสายพันธุ์ที่เกิดขึ้นบ่อยครั้งมากขึ้นในหมู่กว่ากรณีการควบคุม สถิติรถโดยสารทั่วไปเช่นการทดสอบการเชื่อมโยงเคอร์เนลลำดับ (SKAT) [Kwee, et al 2008; ลี, et al 2012a; ลี, et al 2012b; วู, et al 2011] หรือการทดสอบภาระชนิด [Asimit และ Zeggini 2010; Bansal, et al 2010; ซึและแพน 2010], อาจจะไม่ได้มีประสิทธิภาพที่สุดเท่าที่เป็นสถิติที่ออกแบบมาให้มีความไวต่อการจัดกลุ่มตึงตัวของสายพันธุ์ความเสี่ยงภายในภูมิภาคจีโนมที่มีขนาดเล็ก สถิติสองเสนอเมื่อเร็ว ๆ นี้ได้รับการพัฒนาสำหรับการตรวจสอบกลุ่มของสายพันธุ์ Ionita-Laza et al, [Ionita-Laza, et al 2012] ขยายอัตราส่วนของ Kulldorff สถิติสแกน [Kulldorff 2007] การพัฒนาสำหรับการตรวจสอบกลุ่มเชิงพื้นที่ของโรคเพื่อสแกนหากลุ่มของสายพันธุ์ความเสี่ยงตามภูมิภาคจีโนม สัญชาตญาณวิธีนี้คำนวณอัตราส่วนสถิติความน่าจะเป็นที่จะเปรียบเทียบความถี่ของสายพันธุ์ดำเนินการในหมู่กรณีและการควบคุมภายในหน้าต่างจีโนมกับความถี่ที่ผู้ที่อยู่นอกหน้าต่างของจีโนมและสแกนภูมิภาคจีโนมที่น่าสนใจโดยการเลื่อนหน้าต่างพร้อมจีโนมในขณะที่การประเมินผล ช่วงที่มีขนาดหน้าต่าง Fier et al, [Fier, et al 2012] นอกจากนี้ยังมีการพัฒนาวิธีการขึ้นอยู่กับการจัดกลุ่มพื้นที่เน้นระยะทางกายภาพระหว่างสายพันธุ์ พวกเขารวมระยะทางกายภาพระหว่างสายพันธุ์ที่มีความถี่อัลลีลเล็ก ๆ น้อย ๆ ของสายพันธุ์เพื่อสร้างระยะทางถ่วงน้ำหนักระหว่างสายพันธุ์แล้วเปรียบเทียบการกระจายของมาตรการเหล่านี้ระหว่างกรณีและการควบคุมโดยใช้ nonparametric สถิติซารีแบรดลีย์ซึ่งมีความไวต่อความแตกต่างในระดับของทั้งสอง การกระจาย . ในฐานะที่เป็นโดยเน้น Fier, et al, จำนวนของคุณสมบัติทางชีวภาพของยีนที่สนับสนุนมุมมองที่ว่าสายพันธุ์ที่มีความเสี่ยงอาจคลัสเตอร์ในพื้นที่ จำกัด 1) โดเมนโปรตีนมักจะมีฟังก์ชั่นที่คล้ายกันและสายพันธุ์ภายในโดเมนเดียวกันสามารถตั้งอยู่ในบริเวณใกล้เคียงบน ลำดับดีเอ็นเอนั้น 2) สายพันธุ์ในหลายยีนองค์ประกอบการกำกับดูแลสามารถคลัสเตอร์ร่างกาย. การจัดกลุ่มเชิงพื้นที่ของการเกิดโรคในภูมิภาคเช่นเดียวกับการจัดกลุ่มชั่วขณะได้รับหัวข้อที่น่าสนใจในการศึกษาทางระบาดวิทยามานานหลายทศวรรษที่นำไปสู่หลายแข่งขันวิธีการทางสถิติ [แทงโก้ 2010] . สองคู่แข่งที่สำคัญได้รับการสแกนสถิติของ Kulldorff ขยายโดย Ionita-Laza et al, [Ionita-Laza, et al 2012] ที่จะสแกนจีโนมและสถิติเคอร์เนลของแทงโก้ ในการจัดกลุ่มเชิงพื้นที่ของโรควิธีเคอร์เนลแทงโก้ของคำนวณทุกระยะทางภูมิศาสตร์คู่ที่ชาญฉลาดระหว่างกรณีที่เป็นโรคและเปรียบเทียบระยะทางวิทยานิพนธ์กับผู้ที่คำนวณจากการควบคุม. ชื่นชมวิธีการโดย Tango เป็นข้อมูลเชิงลึกที่น้อยจากสถิติเชิงพื้นที่และการจัดกลุ่มทางภูมิศาสตร์ของโรคที่มีประโยชน์ วิธีนี้ต้องใช้การคำนวณระยะทางภูมิศาสตร์ระหว่างคู่ทุกคู่ของอาสาสมัครและจากนั้นเปรียบเทียบการกระจายของระยะทางระหว่างคู่กับกรณีการควบคุม หากกรณีที่กลุ่มของโรคที่มีอยู่ แต่ระยะทางจากจำนวนเฉลี่ยในหมู่พวกเขาสามารถจมน้ำออกมาจากหลายคู่ระยะทางขนาดใหญ่แบบสุ่ม ด้วยเหตุนี้หิ้ง [Mantel 1967] และอื่น ๆ มีข้อเสนอแนะตัดทอนระยะทางขนาดใหญ่บอกว่ากว่าไม่กี่ไมล์ ผลัดกันแทงโก้ [แทงโก้ 1984] ใช้ตัวชี้วัดเชิงเส้นของระยะทางที่ลดลงเร็วกว่าตัวอย่างเช่น linear.For ให้ dij แสดงระยะทางเชิงเส้นตรงระหว่างวิชา i และ j หนึ่งในตัวชี้วัดของแทงโก้เป็น AIJ (τ) = e-| dij | / τที่τเป็นพารามิเตอร์ที่ขนาดและตีความว่าเป็นวัดที่มีขนาดคลัสเตอร์เท่ากับระยะห่างสูงสุดระหว่างกรณี; กรณีห่างกันไม่สามารถได้รับการพิจารณาให้อยู่ในกลุ่มเดียวกัน ค่ามากτจะมีความไวต่อกลุ่มที่มีขนาดใหญ่และมีค่าเล็ก ๆ ของτไปยังกลุ่มเล็ก ๆ ปัญหาที่เกิดขึ้นคือการเลือกτเพราะเราไม่ทราบว่าจำนวนกลุ่มหรือขนาดของพวกเขา จะได้รับรอบนี้แทงโก้ [แทงโก้ 2000] ต่อมานำเสนอตัวชี้วัดที่แตกต่างกัน AIJ (τ) = E-4 (dij / τ) 2 และได้รับอนุญาตτจะแตกต่างกันเป็นหลักสถิติการสแกนและการใช้ p-value ขั้นต่ำ สถิติการทดสอบด้วยการจำลองการคำนวณการปรับระดับโลก p-value สำหรับข้อมูลกรณีการควบคุมสถิติแทงโก้เป็นสถิติที่กำลังสอง Q = (O-E) ที่ 'A (O - E) ที่โอเป็นเวกเตอร์ของข้อหากรณีที่จุดที่แตกต่างกัน, E เป็นโมฆะเวกเตอร์ที่คาดว่าจะนับที่แตกต่าง กรณีหมู่ (กำหนดโดยนับรวมกรณีหมู่ + ควบคุม) เพราะวิธีการแทงโก้สามารถแสดงเป็นสถิติเคอร์เนลกำลังสองเหมือนสถิติ SKAT ก็เป็นที่น่าสนใจสำหรับการสแกนจีโนมเพราะมันสามารถคำนวณได้อย่างรวดเร็ว นอกจากนี้ยังมีวิธีการปรับให้เรียบเคอร์เนลพล็อตการกระจายของสายพันธุ์ที่จะดูกราฟการจัดกลุ่มที่มีศักยภาพของสายพันธุ์ ด้วยเหตุผลเหล่านี้เราขยายความคิดของแทงโก้กับวิธีการที่เป็นประโยชน์ในการสแกนภูมิภาคจีโนมสำหรับการจัดกลุ่มที่แตกต่างกัน. ในส่วนต่อไปเราพัฒนาสถิติเคอร์เนลสำหรับการสแกนภูมิภาคสำหรับการจัดกลุ่มจีโนมที่มากเกินไปของสายพันธุ์ในหมู่กรณีที่สัมพันธ์กับการควบคุม จากนั้นเราจะใช้แบบจำลองเพื่อเปรียบเทียบจำนวนของวิธีการทางสถิติสำหรับอัตราความผิดพลาดประเภท I และอำนาจของพวกเขาในการตรวจสอบอย่างใดอย่างหนึ่งหรือมากกว่ากลุ่มรวมทั้งสถิติสแกน Ionita-Laza วิธีการจัดกลุ่มการกระจายตัวของ Fier et al., สถิติเคอร์เนลเสนอของเรา และสถิติ SKAT รถโดยสาร ขึ้นอยู่กับผลการจำลองเหล่านี้เราให้คำแนะนำเกี่ยวกับกลยุทธ์การวิเคราะห์การตรวจสอบกลุ่มของสายพันธุ์ที่มีความเสี่ยง
การแปล กรุณารอสักครู่..
