Genomic characterisation of individual isolates/Within isolate genome-wide heterozygosity was calculated using the formula:where pi is the frequency of the i th of k alleles for a given SNP genotype and the 1st summation sums over all m SNP loci for a given isolate. Here, genotype calls consider the correct somy for each isolate and chromosome as described above (see ’Variant calling’). Isolate specific allele frequency spectra were obtained using mapped bam files including duplicate identification and indel realignment as described above (see ’Read Mapping Pipeline’). Bam files were subsequently filtered using samtools view (RRID:SCR_002105, v1.3, Li et al., 2009) to only keep reads mapped in a proper pair with mapping quality of at least 20. Filtered bam files were summarised using samtools mpileup (RRID:SCR_002105, v1.3, Li et al., 2009) with arguments -d 3500 -B -Q 10 limiting the per sample coverage to 3500, disabling probabilistic realignment for the computation of base alignment quality and a minimum base quality of 10. The resulting mpileup file was converted to sync format summarising SNP allele counts per isolate using the mpileup2sync.jar script requiring a minimum base quality of 20 (Kofler et al., 2011). For the 11 samples with extreme allele frequency spectra, heterozygous SNPs were additionally filtered for the highest SNP calling quality of 99 (~10 -10 probability of an incorrect genotype) and alternate alleles that were called as homozygous alternate alleles in at least five other isolates to confirm the presence of the skewed allele frequency spectra (Figure 4—figure supplement 11).
การจำแนกลักษณะทางพันธุกรรมของแต่ละไอโซเลต/ ภายในเฮเทอโรไซโกซิตีของจีโนมที่แยกเดี่ยวคำนวณโดยใช้สูตร: โดยที่ pi คือความถี่ของ i th ของ k อัลลีลสำหรับจีโนไทป์ SNP ที่กำหนด และผลรวมครั้งที่ 1 จะรวมกันเหนือ m SNP loci ทั้งหมดสำหรับไอโซเลทที่กำหนด ในที่นี้ การเรียกจีโนไทป์จะพิจารณาโซมีที่ถูกต้องสำหรับแต่ละไอโซเลตและโครโมโซมตามที่อธิบายไว้ข้างต้น (ดู 'การเรียกตัวแปร') ได้รับสเปกตรัมความถี่อัลลีลเฉพาะที่แยกได้โดยใช้ไฟล์ bam ที่แมป รวมถึงการระบุตัวตนที่ซ้ำกันและการจัดแนวอินเดลตามที่อธิบายไว้ข้างต้น (ดู 'อ่านไปป์ไลน์การทำแผนที่') ไฟล์ Bam จะถูกกรองในเวลาต่อมาโดยใช้มุมมอง samtools (RRID:SCR_002105, v1.3, Li et al., 2009) เพื่อเก็บเฉพาะการอ่านแมปในคู่ที่เหมาะสมโดยมีคุณภาพการแมปอย่างน้อย 20 ไฟล์ bam ที่กรองถูกสรุปโดยใช้ samtools mpileup ( RRID:SCR_002105, v1.3, Li et al., 2009) พร้อมด้วยอาร์กิวเมนต์ -d 3500 -B -Q 10 ซึ่งจำกัดความครอบคลุมต่อตัวอย่างไว้ที่ 3500 ปิดใช้งานการปรับแนวความน่าจะเป็นสำหรับการคำนวณคุณภาพการจัดตำแหน่งฐานและคุณภาพฐานขั้นต่ำที่ 10 ไฟล์ mpileup ที่ได้จะถูกแปลงเป็นรูปแบบการซิงค์โดยสรุปจำนวน SNP อัลลีลต่อไอโซเลทโดยใช้สคริปต์ mpileup2sync.jar ซึ่งต้องการคุณภาพพื้นฐานขั้นต่ำที่ 20 (Kofler et al., 2011) สำหรับตัวอย่าง 11 ตัวอย่างที่มีสเปกตรัมความถี่อัลลีลสุดขั้ว SNP แบบเฮเทอโรไซกัสถูกกรองเพิ่มเติมเพื่อให้ได้คุณภาพการโทร SNP สูงสุดที่ 99 (ความน่าจะเป็นประมาณ 10 -10 ของจีโนไทป์ที่ไม่ถูกต้อง) และอัลลีลสำรองที่ถูกเรียกว่าอัลลีลสำรองแบบโฮโมไซกัสในไอโซเลทอื่น ๆ อย่างน้อยห้าไอโซเลท เพื่อยืนยันการมีอยู่ของสเปกตรัมความถี่อัลลีลที่บิดเบี้ยว (รูปที่ 4—รูปที่เสริม 11)
การแปล กรุณารอสักครู่..

ลักษณะทางพันธุกรรมของตัวแยกเดียว/<br>ในสายพันธุ์ที่แยกได้ใช้สูตรต่อไปนี้เพื่อคํานวณความหลากหลายของจีโนมทั้งหมด:<br>ในกรณีที่piคือความถี่ของอัลลีลkแรกของยีนSNPที่กําหนดและผลรวมแรกของยีนทั้งหมดของยีนSNP mที่แยกได้ ที่นี่การระบุgenotypeคํานึงถึงจํานวนเซลล์somaticที่ถูกต้องสําหรับแต่ละแยกและโครโมโซมตามที่อธิบายไว้ข้างต้น(ดู"การระบุตัวแปร" ) สเปกตรัมความถี่อัลลีลที่เฉพาะเจาะจงที่แยกได้โดยใช้ไฟล์bamที่ประกอบด้วยการระบุซ้ําและการจัดเรียงใหม่ของindelตามที่อธิบายไว้ข้างต้น(ดู"การอ่านท่อกราฟิก" ) จากนั้นใช้มุมมองsamtools (: SCR _ 002105,v1.3,Li et al.,2009 )เพื่อกรองไฟล์Bamเพื่อรักษาเฉพาะการอ่านที่มีการแมปที่ถูกต้องโดยมีคุณภาพการทําแผนที่อย่างน้อย20 ไฟล์bamที่ได้รับการกรองจะสรุปโดยใช้samtools mpileup (: SCR _ 002105,v1.3,Li et al.,2009 )ซึ่งตัวแปรอิสระ- d 3500-b-q 10จํากัดความครอบคลุมต่อตัวอย่างเป็น3500ปิดการใช้งานสําหรับการคํานวณความน่าจะเป็นของการปรับเปลี่ยนคุณภาพของฐานและคุณภาพฐานต่ําสุดคือ10 การใช้สคริปต์mpileup2sync.jarที่ต้องใช้มวลฐานขั้นต่ํา20ไฟล์mpileupที่เกิดขึ้นจะถูกแปลงเป็นรูปแบบsyncที่สรุปการนับอัลลีลของSNPสําหรับแต่ละตัวแยก( cuffler et al.,2011 ) สําหรับตัวอย่าง11ตัวอย่างที่มีสเปกตรัมความถี่อัลลีลที่รุนแรงไฮบริดSNPจะถูกกรองเพิ่มเติมโดยมีมวลการโทรSNPสูงสุด99 (ความน่าจะเป็นของยีนที่ไม่ถูกต้องประมาณ10-10 )และอัลลีลทางเลือกที่เรียกว่าอัลลีลซับซ้อนในอย่างน้อยห้าตัวอื่นๆเพื่อยืนยันการดํารงอยู่ของสเปกตรัมความถี่อัลลีล(รูปที่4 -เสริม11 )
การแปล กรุณารอสักครู่..
