marker is used, there will be many false positives. One solution is to use
a Bonferroni correction (Kuehl, 2000), using a genome wide significance
threshold of α/m. A second problem in GWAS is that the minor allele frequency
(MAF) has to be high enough, i.e. we cannot use markers where
almost all the markers are equal to the reference strain (score 0), or
where almost all the markers are different from the reference strain
(score 1). A third problem with a simple linear regression model is
more complicated: there is no correction for population structure. In
the next section a solution for this will be presented by using a more
complicated statistical model called a mixed model.
3.3. Correcting for population structure using mixed effect models
The problem with population structure can be explained with a
simple example: suppose there are two groups of strains, A and B,
with small genetic differences within groups, and a large genetic difference
between groups. Then most SNP scores will follow the same
pattern. That is, SNP scores will be attributable to differences in the
groups rather than the difference in adherence capacity. As a consequence,
the linear regressions will also be quite similar. In other
words, in the case where one has two clearly separated groups one
is mainly testing for differences between groups, not within groups.
In such an example with two clear groups A and B, an extra term in
the regression model can be used to correct for group effect, that is
yi ¼ μ þ βxi þ gzi þ εi ;
where the parameter g is the group effect, and zi indicates whether
strain i is in group A or B. With this correction for group effect one can
test for SNP effects along the genome, i.e. testing for each SNP the significance
of parameter β. A similar approach can be used in situations
where there are strains which can be subdivided in several groups
(Kraakman et al., 2004; Pritchard et al., 2000).
In many cases, however, there is not such a clear separation into
different groups. A way to check this is by calculating the similarity
between the strains. For each pair of strains, the fraction of SNPs that
have the same marker score can be calculated, resulting in an n × n
similarity matrix K.
The similarity matrix may be used to correct for population structure
(Malosetti et al., 2007; Patterson et al., 2006; Yu et al., 2005). A solution
that is often used is a mixed effect model approach:
yi ¼ μ þ βxi þ Gi þ εi ;
where (G1, G2, …, Gn) follows a multinormal distribution,
Gi ~ N(0, σg
2
K), and σg
2 is the genetic variance. This model is used to
test for the significance of the SNP effects, β, along the genome.
4. Results
The fractional adhesion of the STEC O157 strains to Caco-2 cells
is highly variable with a frequency distribution resembling an overall
skewed distribution (average 0.16, median 0.11). Higher fractions are
more rare and concentrated in the human strains (Fig. 1). Mapping of
the individual sequences to the reference genome resulted in the identification
of 27,980 SNPs among the total set of 38 test strains. When
the totality of identified SNPs was used to infer the population structure,
at least three separate populations could be identified (Fig. 2). Fig. 2
shows the principal coordinate plot of the 38 strains, with 12.4% of
the variance explained by the first axis, and 8.9% by the second axis.
The three identified populations in Fig. 2 reflect the LSPA lineages within
STEC O157 (LI, LI/II and LII) as described by Franz et al. (2012).
After application of the most basic linear regression model (without
correcting for population structure), 17 SNPs appeared to be significantly
associated with increased adherence to Caco-2 cells (Fig. 3, Table 2).
That is, using a MAF ≥ 0.05 and a significance level α ~ 10−4
, 17 positions
on the chromosome of the reference strain show a positive linear relation
between SNPs identified in the test strains when comparing fractional
adhesion to Caco-2 cells with that for the Sakai reference.
Table 3 shows the loci and, if known, information on biological function,
associated with the significant SNPs (SNPs having a MAF ≥ 0.05
and, in bold face, MAF ≥ 0.1, i.e. ID 8, 9 and 15) as presented in
Table 2. As explained above, instead of having any biological relevance,
the results in this SNP analysis could also be the product of a type I error.
That is, identifying significant association between genotypic (SNP) and
phenotypic (fraction adhesion) information, where there is none.
Having said this, the 17 SNPs identified warrant further investigation
with respect to their role in virulence and their use as risk markers for
hazard identification. Of these 17 SNPs, eight were non-synonymous
in protein-coding regions (Table 3). These SNPs change the proteinsequence
and thereby potentially the function of the product.
Table 4 shows which test strains were responsible for the significant
effects (identified in Table 2, Fig. 3) with the corresponding fractional
adhesion to Caco-2 cells. Here the problem associated with a low MAF
(identified in the Statistical data analysis section) becomes visible.
Setting the MAF threshold at 0.05 will result in a significant effect
when two (or more) test strains appear to share a SNP and are associated
with a relatively high (or low) fraction of attachment compared to the
test strains that do not differ from the reference Sakai strain for that
ใช้เครื่องหมาย จะทำงานผิดพลาดไม่มาก มีการ ใช้แก้ไข Bonferroni (Kuehl, 2000), ใช้ความสำคัญกว้างจีโนมขีดจำกัดของด้วยกอง ทัพ/m ปัญหาที่สองใน GWAS คือความถี่ของ allele รอง(MAF) ได้จะสูงมากพอ เช่นเราไม่สามารถใช้เครื่องหมายที่เครื่องหมายทั้งหมดเกือบจะเท่ากับสายพันธุ์อ้างอิง (คะแนน 0), หรือแตกต่างจากสายพันธุ์อ้างอิงเครื่องหมายเกือบทั้งหมด(คะแนน 1) ปัญหาที่ 3 มีแบบจำลองถดถอยเชิงเส้นอย่างง่ายซับซ้อนยิ่งขึ้น: มีไม่มีการแก้ไขในโครงสร้างของประชากร ในส่วนถัดไปแก้ปัญหานี้จะนำเสนอ โดยการใช้มากขึ้นแบบจำลองทางสถิติที่ซับซ้อนเรียกว่าแบบผสม3.3 การแก้ไขโครงสร้างประชากรที่ใช้รูปแบบผสมผลปัญหาของโครงสร้างประชากรที่สามารถอธิบายด้วยการตัวอย่างง่าย ๆ เช่น: สมมติว่ามีกลุ่มที่สองของสายพันธุ์ A และ Bมีความแตกต่างทางพันธุกรรมขนาดเล็กภายในกลุ่ม ความแตกต่างทางพันธุกรรมขนาดใหญ่ระหว่างกลุ่ม แล้ว คะแนน SNP ส่วนใหญ่จะทำตามเหมือนกันรูปแบบการ นั่นคือ SNP คะแนนจะรวมความแตกต่างในการกลุ่มมากกว่าความแตกต่างในความสามารถต่าง ๆ ผลregressions เส้นจะค่อนข้างคล้ายกัน ในที่อื่น ๆคำ ในกรณีที่หนึ่งมีสองชัดเจนกลุ่มหนึ่งส่วนใหญ่เป็นการทดสอบสำหรับความแตกต่างระหว่างกลุ่ม ไม่ภายในกลุ่มเช่นตัวอย่างสองชัดเจนกลุ่ม A และ B เพิ่มระยะในสามารถใช้แบบจำลองการถดถอยเพื่อแก้ไขลักษณะพิเศษกลุ่ม คือยี¼μþ βxi þ gzi þ εiที่ g พารามิเตอร์ผลกลุ่ม และซิบ่งชี้ว่าต้องใช้ผมอยู่ในกลุ่ม A หรือเกิด มีการแก้ไขนี้สำหรับกลุ่มได้ผลทดสอบผล SNP ตามจีโนม เช่นทดสอบ SNP ละความสำคัญของพารามิเตอร์β สามารถใช้วิธีการคล้ายกันในสถานการณ์มีสายพันธุ์ที่สามารถปฐมภูมิในแต่ละ(Kraakman et al., 2004 Pritchard และ al., 2000)ในหลายกรณี อย่างไรก็ตาม ไม่มีเช่นการแยกชัดเจนเป็นกลุ่มแตกต่างกัน วิธีการนี้คือการคำนวณเฉพาะระหว่างสายพันธุ์ สำหรับแต่ละคู่ของสายพันธุ์ เศษของ SNPs ที่มีเครื่องหมายเดียวกันที่คะแนนสามารถคำนวณ ในตัว n n ×เมทริกซ์คล้ายคุณเมทริกซ์คล้ายสามารถใช้การแก้ไขในโครงสร้างประชากร(Malosetti et al., 2007 Patterson และ al., 2006 Yu et al., 2005) การแก้ปัญหากล่าวคือมักใช้เป็นวิธีการจำลองผลผสม:ยี¼μþþþจิ βxi εi(G1, G2,..., Gn) ดังต่อไปนี้จำหน่าย multinormalจิ ~ N (0, σg2K) และ σg2 มีความแปรปรวนทางพันธุกรรม รุ่นนี้ใช้การทดสอบสำหรับความสำคัญของผลกระทบของ SNP β ตามกลุ่ม4. ผลลัพธ์ยึดเกาะเศษของสายพันธุ์ STEC O157 เซลล์ Caco 2เป็นตัวแปรอย่างมากกับการแจกแจงความถี่เป็นเท่าใดโดยรวมการการแจกแจงเบ้ (เฉลี่ย 0.16 มัธยฐาน 0.11) มีส่วนสูงยิ่งหายาก และเข้มข้นในสายพันธุ์มนุษย์ (Fig. 1) แม็ปลำดับแต่ละที่กลุ่มอ้างอิงทำให้เกิดรหัสของ SNPs 27,980 ระหว่าง 38 ชุดรวมทดสอบสายพันธุ์ เมื่อผลของ SNPs ที่ระบุถูกใช้เพื่อเข้าใจโครงสร้างของประชากรประชากรน้อยสามแยกอาจระบุ (Fig. 2) Fig. 2แสดงหลักประสานงานพล็อตของสายพันธุ์ 38, 12.4% ของความแปรปรวนที่อธิบาย โดยแกนสองแกนแรก และ 8.9 นอก%เชื้อชาติ LSPA ภายในสะท้อนประชากรระบุสามใน Fig. 2STEC O157 (LI, LI/II และ LII) ตามที่อธิบายไว้โดย Franz et al. (2012)หลังจากแอพลิเคชันของแบบจำลองถดถอยเชิงเส้นพื้นฐานโดยไม่ต้องการแก้ไขสำหรับโครงสร้างประชากร), 17 SNPs ปรากฏเป็นอย่างมากเกี่ยวข้องกับติดเพิ่ม Caco 2 เซลล์ (Fig. 3 ตารางที่ 2)ใช้ MAF ≥ 0.05 และด้วยกองทัพระดับนัยสำคัญนั่นคือ ~ 10−4, 17 ตำแหน่งบนโครโมโซมของสายพันธุ์อ้างอิงแสดงความสัมพันธ์เชิงบวกระหว่าง SNPs ที่ระบุในสายพันธุ์ทดสอบเมื่อเปรียบเทียบเศษส่วนยึดเกาะกับ Caco 2 เซลล์ที่อ้างอิง Sakaiตาราง 3 แสดงการ loci และ ทราบ รายละเอียดเกี่ยวกับฟังก์ชันทางชีวภาพเกี่ยวข้องกับ SNPs สำคัญ (SNPs มี MAF ≥ 0.05และ หนา MAF ≥ 0.1 เช่นรหัส 8, 9 และ 15) ตามที่แสดงในตารางที่ 2 ตามที่อธิบายไว้ข้างต้น แทนที่จะมีความเกี่ยวข้องใด ๆ ทางชีวภาพผลในการวิเคราะห์ SNP นี้ได้ผลิตภัณฑ์ชนิดของฉันข้อผิดพลาดได้ระบุความสัมพันธ์ที่สำคัญระหว่างจีโนไทป์ (SNP) คือ และไทป์ (ยึดเศษ) ข้อมูล ไม่มีไม่พูด SNPs 17 ระบุรับประกันเพิ่มเติมตรวจสอบเกี่ยวกับบทบาทของตนใน virulence และใช้เป็นเครื่องหมายของความเสี่ยงในการระบุอันตราย SNPs นี้ 17 แปดมีไม่พ้องในโปรตีนรหัสภูมิภาค (ตาราง 3) Proteinsequence การเปลี่ยนแปลงเหล่านี้ SNPsและอาจทำการทำงานของผลิตภัณฑ์ตาราง 4 แสดงการทดสอบสายพันธุ์ที่ถูกสำคัญลักษณะพิเศษ (ระบุไว้ในตารางที่ 2, Fig. 3) โดยให้สอดคล้องกับเศษส่วนยึดเกาะกับเซลล์ Caco 2 ที่นี่ปัญหาที่เกี่ยวข้องกับ MAF ต่ำ(ระบุไว้ในส่วนการวิเคราะห์ข้อมูลทางสถิติ) จะมองเห็นตั้งค่าขีดจำกัดของ MAF ที่ 0.05 จะทำให้เกิดผลอย่างมีนัยสำคัญเมื่อสอง (หรือมากกว่า) สายพันธุ์ทดสอบปรากฏ SNP ใช้ร่วมกัน และเชื่อมโยงกับเศษส่วนที่ค่อนข้างสูง (หรือต่ำสุด) เมื่อเปรียบเทียบกับสิ่งที่แนบมานี้ทดสอบสายพันธุ์ที่ไม่แตกต่างจากการอ้างอิงต้องใช้ Sakai ที่
การแปล กรุณารอสักครู่..

เครื่องหมายถูกนำมาใช้จะมีผลบวกปลอมจำนวนมาก ทางออกหนึ่งคือการใช้การแก้ไข Bonferroni (Kuehl, 2000) โดยใช้จีโนมอย่างมีนัยสำคัญกว้างเกณฑ์ของα / m ปัญหาที่สองใน GWAS คือความถี่อัลลีลที่ยังไม่บรรลุนิติภาวะ(MAF) จะต้องมีความสูงพอคือเราไม่สามารถใช้เครื่องหมายที่เกือบทุกเครื่องหมายเท่ากับสายพันธุ์อ้างอิง(0 คะแนน) หรือที่เกือบทุกเครื่องหมายที่แตกต่างจากสายพันธุ์อ้างอิง(1 คะแนน) ปัญหาที่สามที่มีรูปแบบการถดถอยเชิงเส้นอย่างง่ายคือความซับซ้อนมากขึ้น: มีการแก้ไขโครงสร้างประชากรไม่ ในส่วนถัดไปสำหรับการแก้ปัญหานี้จะถูกนำเสนอโดยการใช้มากขึ้นแบบจำลองทางสถิติที่ซับซ้อนที่เรียกว่ารูปแบบการผสม. 3.3 สำหรับการแก้ไขโครงสร้างประชากรโดยใช้แบบจำลองผลกระทบผสมปัญหากับโครงสร้างประชากรที่สามารถอธิบายได้ด้วยตัวอย่างง่ายๆสมมติว่ามีกลุ่มที่สองของสายพันธุ์A และ B มีความแตกต่างทางพันธุกรรมภายในกลุ่มเล็ก ๆ และความแตกต่างทางพันธุกรรมขนาดใหญ่ระหว่างกลุ่ม จากนั้น SNP คะแนนมากที่สุดจะเป็นไปตามเดียวกันรูปแบบ นั่นคือคะแนน SNP จะเป็นส่วนที่เป็นความแตกต่างในกลุ่มมากกว่าความแตกต่างในความสามารถในการยึดมั่น เป็นผลให้ถดถอยเชิงเส้นยังจะคล้ายกันมาก ในอื่น ๆคำในกรณีที่ใครได้สองกลุ่มแยกออกจากกันอย่างชัดเจนอย่างใดอย่างหนึ่งเป็นส่วนใหญ่การทดสอบความแตกต่างระหว่างกลุ่มไม่ได้อยู่ในกลุ่ม. เช่นในตัวอย่างสองกลุ่มชัดเจน A และ B เป็นคำเสริมในรูปแบบการถดถอยสามารถใช้ในการผลที่ถูกต้องสำหรับกลุ่มที่เป็นยี่¼μþβxiþ GZI þεi; ที่พารามิเตอร์กรัมเป็นผลกลุ่มและ Zi บ่งชี้ว่าความเครียดที่ผมอยู่ในกลุ่มA หรือบีด้วยการแก้ไขนี้ได้ผลกลุ่มหนึ่งสามารถทดสอบSNP ผลกระทบที่ตามจีโนมคือการทดสอบสำหรับแต่ละ SNP สำคัญของพารามิเตอร์β วิธีการที่คล้ายกันสามารถนำมาใช้ในสถานการณ์ที่มีสายพันธุ์ซึ่งสามารถแบ่งเป็นหลายกลุ่ม(Kraakman et al, 2004;. Pritchard et al, 2000).. ในหลายกรณี แต่มีไม่ได้เป็นเช่นแยกชัดเจนลงไปในที่แตกต่างกันกลุ่ม วิธีการตรวจสอบเรื่องนี้คือโดยการคำนวณความคล้ายคลึงกันระหว่างสายพันธุ์ สำหรับคู่ของสายพันธุ์แต่ละส่วนของ SNPs ที่มีคะแนนเครื่องหมายเดียวกันสามารถคำนวณผลในn × n เมทริกซ์คล้ายคลึงกันเคเมทริกซ์คล้ายคลึงกันอาจนำไปใช้ในการแก้ไขโครงสร้างประชากร(Malosetti et al, 2007;. แพตเตอร์สัน et al, 2006;.. Yu et al, 2005) วิธีการแก้ปัญหาที่มักจะใช้เป็นวิธีการที่มีผลบังคับใช้ผสมรูปแบบ: ยี่¼ไมครอนþβxiþ Gi þεi; ที่ (G1, G2, ... , Gn) ดังต่อไปนี้การกระจาย multinormal, Gi ~ N (0, σg 2 K) และ σg 2 คือความแปรปรวนทางพันธุกรรม รุ่นนี้จะใช้ในการทดสอบอย่างมีนัยสำคัญของผลกระทบ SNP, βพร้อมจีโนม. 4 ผลการค้นหาผลิตภัณฑ์กาวบางส่วนของสายพันธุ์ O157 STEC ไปยังเซลล์ Caco-2 เป็นตัวแปรที่มีการแจกแจงความถี่โดยรวมคล้ายกระจายเบ้ (ค่าเฉลี่ย 0.16, 0.11 เฉลี่ย) เศษส่วนที่สูงขึ้นเป็นที่หายากมากขึ้นและมีความเข้มข้นในสายพันธุ์ของมนุษย์ (รูปที่ 1). ทำแผนที่ของลำดับบุคคลที่จะอ้างอิงจีโนมส่งผลให้บัตรประจำตัวของหมู่SNPs 27,980 ชุดรวม 38 สายพันธุ์ทดสอบ เมื่อจำนวนทั้งสิ้นของ SNPs ระบุถูกใช้ในการสรุปโครงสร้างประชากรอย่างน้อยสามประชากรแยกต่างหากสามารถระบุได้(รูปที่. 2) รูป 2 แสดงให้เห็นหลักประสานงานพล็อต 38 สายพันธุ์ที่มี 12.4% ของความแปรปรวนอธิบายโดยแกนแรกและ8.9% โดยแกนที่สอง. สามระบุประชากรในรูป 2 สะท้อนให้เห็นถึง lineages LSPA ภายในSTEC O157 (LI, LI / II และ LII) ตามที่อธิบายไว้โดยฟรานซ์และอัล (2012). หลังจากการประยุกต์ใช้เชิงเส้นพื้นฐานที่สุดแบบการถดถอย (โดยไม่ต้องแก้ไขโครงสร้างประชากร) 17 SNPs ดูเหมือนจะเป็นอย่างมีนัยสำคัญที่เกี่ยวข้องกับการยึดมั่นที่เพิ่มขึ้นไปยังเซลล์Caco-2 (รูปที่. 3 ตารางที่ 2). นั่นคือการใช้ MAF ≥ 0.05 และระดับนัยสำคัญ ~ α 10-4 17 ตำแหน่งบนโครโมโซมของสายพันธุ์อ้างอิงแสดงความสัมพันธ์เชิงเส้นบวกระหว่างSNPs สายพันธุ์ที่ระบุไว้ในการทดสอบเมื่อเปรียบเทียบเศษส่วนการยึดเกาะเพื่อCaco-2 เซลล์ที่มีว่าสำหรับการอ้างอิงซาไกตารางที่ 3 แสดงตำแหน่งและถ้าทราบข้อมูลเกี่ยวกับฟังก์ชั่นทางชีววิทยาที่เกี่ยวข้องกับSNPs อย่างมีนัยสำคัญ (SNPs มี MAF ≥ 0.05 และในหน้าตัวหนา MAF ≥ 0.1 คือ ID 8, 9 และ 15) ที่แสดงในตารางที่2 . ตามที่อธิบายไว้ข้างต้นแทนที่จะมีความเกี่ยวข้องทางชีวภาพใด ๆผลที่ได้ในการวิเคราะห์ SNP นี้ก็อาจจะเป็นสินค้าที่มีความผิดพลาดประเภทที่ฉันได้. นั่นคือการระบุความสัมพันธ์ที่สำคัญระหว่างทางพันธุกรรม (SNP) และฟีโนไทป์(การยึดเกาะส่วน) ข้อมูลที่มี คือไม่มี. มีกล่าวนี้ 17 SNPs ระบุใบสำคัญแสดงสิทธิการสอบสวนเพิ่มเติมที่เกี่ยวกับบทบาทของพวกเขาในความรุนแรงและการใช้งานของพวกเขาเป็นตัวบ่งชี้ความเสี่ยงในการชี้บ่งอันตราย ของเหล่านี้ 17 SNPs แปดก็ไม่ใช่-ตรงกันในภูมิภาคโปรตีนเข้ารหัส(ตารางที่ 3) SNPs เหล่านี้เปลี่ยน proteinsequence และด้วยเหตุที่อาจเกิดขึ้นฟังก์ชั่นของผลิตภัณฑ์. the ตารางที่ 4 แสดงให้เห็นว่าการทดสอบสายพันธุ์ที่มีความรับผิดชอบอย่างมีนัยสำคัญผลกระทบ(ที่ระบุไว้ในตารางที่ 2 รูปที่. 3) กับส่วนที่เกี่ยวข้องการยึดเกาะเพื่อCaco-2 เซลล์ นี่คือปัญหาที่เกี่ยวข้องกับระดับต่ำสุดใน MAF (ระบุไว้ในส่วนของการวิเคราะห์ข้อมูลทางสถิติ) จะปรากฏ. ตั้งเกณฑ์ MAF ที่ 0.05 จะส่งผลให้ผลกระทบอย่างมีนัยสำคัญเมื่อทั้งสอง(หรือมากกว่า) สายพันธุ์ทดสอบปรากฏที่จะแบ่งปัน SNP และมีความเกี่ยวข้องกับที่ค่อนข้างสูง (หรือต่ำ) ส่วนของสิ่งที่แนบมาเมื่อเทียบกับสายพันธุ์ทดสอบที่ไม่แตกต่างจากสายพันธุ์ซาไกอ้างอิงว่า
การแปล กรุณารอสักครู่..

เครื่องหมายที่ใช้จะมีผลบวกปลอมมากมาย ทางออกหนึ่งคือการใช้การแก้ไข ( kuehl บอนเฟอร์โรนี , 2000 ) โดยใช้เกณฑ์ของจีโนมกว้างความสำคัญ
α / ม. สองปัญหาใน gwas นั่นเล็กน้อยในความถี่
( MAF ) ต้องสูงพอ คือ เราไม่สามารถใช้เครื่องหมายที่
เกือบทั้งหมดเครื่องหมายจะเท่ากับสายพันธุ์อ้างอิง ( คะแนน 0
) หรือซึ่งเกือบทั้งหมดเป็นเครื่องหมายที่แตกต่างจากสายพันธุ์อ้างอิง
( 1 คะแนน ) ปัญหาที่สาม แบบจำลองการถดถอยเชิงเส้นอย่างง่ายคือ
ที่ซับซ้อนมากขึ้น : ไม่มีการแก้ไขสำหรับโครงสร้างประชากร ใน
ส่วนถัดไปวิธีการนี้จะถูกนำเสนอโดยการใช้สถิติแบบที่เรียกว่าซับซ้อนมากขึ้น
แบบผสม และ 3 . การแก้ไขโครงสร้างประชากร โดยใช้แบบจำลองผลผสม
ปัญหาโครงสร้างประชากรสามารถอธิบายด้วยตัวอย่างง่ายๆ
: สมมติว่ามีอยู่สองกลุ่มของสายพันธุ์ A และ B ,
กับความแตกต่างทางพันธุกรรมภายในกลุ่มขนาดเล็ก และขนาดใหญ่ ความแตกต่างทางพันธุกรรม
ระหว่างกลุ่ม แล้วคะแนน SNP ส่วนใหญ่จะเป็นไปตามรูปแบบเดียวกัน
นั่นคือ คะแนน SNP จะจากความแตกต่างใน
กลุ่มดีกว่าความแตกต่างความสามารถในการยึดมั่นผลที่ตามมา , สมการถดถอยเชิงเส้น
จะค่อนข้างคล้ายกัน ในคำอื่น ๆ
ในกรณีที่หนึ่งได้สองอย่างชัดเจน แยกกลุ่มหนึ่ง
เป็นส่วนใหญ่การทดสอบความแตกต่างระหว่างกลุ่ม ไม่ภายในกลุ่ม เช่น ตัวอย่างสอง
ล้างกลุ่ม A และ B , เพิ่มระยะใน
ถดถอยแบบจำลองสามารถนำมาใช้เพื่อแก้ไขผลของกลุ่มที่¼
อี μþบีตาซีþ gzi þε I ;
ที่พารามิเตอร์ G คือ กลุ่มอิทธิพล และซีระบุว่าผมอยู่ในกลุ่ม
เมื่อยหรือ บี ด้วยการแก้ไขผลกลุ่มหนึ่งสามารถ
ทดสอบ SNP ผลตามพันธุกรรม เช่น การทดสอบแต่ละ SNP ความสำคัญ
ของบีตาพารามิเตอร์ วิธีการที่คล้ายคลึงกันสามารถใช้ในสถานการณ์
ที่มีสายพันธุ์ซึ่งสามารถแบ่งออกได้หลายกลุ่ม
( kraakman et al . , 2004 ; พริทชาร์ด et al . ,2000 ) .
ในหลายกรณี อย่างไรก็ตาม มี ไม่ ได้ ชัดเจน แยกเป็น
กลุ่มที่แตกต่างกัน วิธีการตรวจสอบนี้โดยการคำนวณความคล้าย
ระหว่างสายพันธุ์ สำหรับคู่ของแต่ละสายพันธุ์ ส่วนที่ได้คะแนน snps
เครื่องหมายเดียวกันสามารถคำนวณผลใน n × n
.
ความเหมือนความเหมือนเมทริกซ์ เมทริกซ์อาจถูกใช้เพื่อแก้ไข
โครงสร้างประชากร ( malosetti et al . ,2007 ; แพต et al . , 2006 ; ยู et al . , 2005 ) โซลูชั่น
ที่มักจะใช้เป็นวิธีการแบบผลผสม :
อี¼μþบีตาซีþกีþε I ;
ที่ไหน ( G1 , G2 , . . . , GN ) คือการกระจาย multinormal
กี ~ , N ( 0 , σ g
2
K ) และσ g
2 เป็น ความแปรปรวนทางพันธุกรรม รุ่นนี้เป็นรุ่นที่ใช้
ทดสอบความสำคัญของ SNP ผลบีตาตามพันธุกรรม .
4 ผลลัพธ์
การยึดเกาะที่เป็นเศษส่วนของ STEC สายพันธุ์ที่จะเป็นสมาชิก caco-2 เซลล์
สูงตัวแปรที่มีการแจกแจงความถี่คล้ายรวม
การแจกแจงแบบเบ้ ( เฉลี่ย 0.16 , เฉลี่ย 0.11 ) เศษส่วนสูงกว่า
มากขึ้นที่หายากและเข้มข้นในสายพันธุ์มนุษย์ ( รูปที่ 1 ) แผนที่ของ
ลำดับแต่ละการอ้างอิงจีโนมส่งผลให้เกิดการ
27 ,980 snps ระหว่างชุดรวม 38 ทดสอบสายพันธุ์ เมื่อ
รวมของระบุ snps ถูกใช้เพื่อยืนยันโครงสร้างประชากร ประชากร แยก
อย่างน้อยสามอาจจะระบุ ( รูปที่ 2 ) รูปที่ 2
แสดงหลักประสานงานพล็อตของ 38 สายพันธุ์ กับ 12.4% ของ
แปรปรวนอธิบายโดยแกนแรกและ 8.9% โดยแกนที่สอง .
3 ระบุว่าประชากรในฟิค2 สะท้อน lspa พันธุ์ภายใน
STEC ( Li , Li เป็นสมาชิก / II และ LII ) ตามที่อธิบายไว้โดยฟรานซ์ et al . ( 2012 ) .
หลังจากการใช้พื้นฐานของตัวแบบการถดถอยเชิงเส้น ( ไม่มี
แก้ไขโครงสร้างประชากร ) , 17 snps ปรากฏเป็นอย่างมาก
เกี่ยวข้องกับการเพิ่มการ caco-2 เซลล์ ( รูปที่ 3 , ตารางที่ 2 ) .
ที่ใช้ MAF ≥อย่างมีนัยสำคัญทางสถิติที่ระดับ 0.05 และα ~ 10 − 4
17 ตำแหน่งบนโครโมโซมของสายพันธุ์อ้างอิงแสดงความสัมพันธ์เชิงบวกระหว่าง
snps ระบุในสายพันธุ์ทดสอบเมื่อเปรียบเทียบเศษส่วน
ยึดติดกับ caco-2 เซลล์ที่อ้างอิง ซาไก .
3 ตารางแสดงสถานะ และหากทราบข้อมูลเกี่ยวกับฟังก์ชันทางชีวภาพ
ที่เกี่ยวข้องกับ snps อย่างมีนัยสำคัญ ( snps มีมัฟ≥ 0.05
และในหน้าตัวหนา MAF ≥ 0.1 คือหมายเลข 89 และ 15 ) ที่นำเสนอใน
โต๊ะ 2 ตามที่อธิบายไว้ข้างต้น แทนที่จะมีชีวภาพที่เกี่ยวข้อง
ผลในการวิเคราะห์ SNP สามารถเป็นผลิตภัณฑ์ของความผิดพลาดประเภทที่ 1 .
ที่ระบุความสัมพันธ์ระหว่างผู้ป่วยและใกล้เคียง ( SNP )
( ส่วนการยึดเกาะ ) ข้อมูลที่ไม่มี
มีกล่าวนี้ 17 snps ระบุ รับประกัน
ต่อไปด้วยความเคารพในบทบาทของตนในการก่อให้เกิดความรุนแรง และใช้เป็นเครื่องหมายสำหรับ
การเสี่ยงอันตราย นี้ 17 snps แปดยังไม่ตรงกัน
ในรหัสภูมิภาคโปรตีน ( ตารางที่ 3 ) snps เหล่านี้เปลี่ยน proteinsequence
และจึงอาจฟังก์ชันของผลิตภัณฑ์
ตารางที่ 4 แสดงการทดสอบสายพันธุ์ ซึ่งรับผิดชอบผลกระทบ
( ระบุในรูปตาราง 23 ) การยึดเกาะเศษ
ที่สอดคล้องกับ caco-2 เซลล์ ที่นี่ปัญหาที่เกี่ยวข้องกับต่ำ MAF
( ระบุในส่วนของการวิเคราะห์ข้อมูลทางสถิติ ) ปรากฏ .
ตั้งค่าเกณฑ์ MAF 0.05 จะส่งผลในผล
อย่างมีนัยสำคัญเมื่อสอง ( หรือมากกว่า ) สายพันธุ์ทดสอบปรากฏร่วมกันและมีความเกี่ยวข้องกับ SNP
ค่อนข้างสูง ( หรือต่ำ ) เศษส่วนของสิ่งที่แนบมาเทียบ กับ
ทดสอบสายพันธุ์ที่ไม่แตกต่างจากสายพันธุ์อ้างอิงซาไกที่
การแปล กรุณารอสักครู่..
