Copy number variation/To identify large copy number variants (CNVs), realigned bam files for each sample were filtered for proper-pairs and PCR or optical duplicates were removed using samtools view (RRID:SCR_002105, v1.3, Li et al., 2009). Coverage was then determined using bedtools genomecov (RRID:SCR_ 006646, v2.17.0) with parameters: ‘-d -split’ (Quinlan and Hall, 2010). Large duplications and deletion were identified using custom scripts in R (R Development Core Team, 2013): genome coverage was determined for 5 kb non-overlapping windows along the genome and each window was normalized by the haploid chromosome coverage of the respective chromosome and sample (i.e. median chromosome coverage divided by somy of the respective chromosome and sample). Large CNVs were identified through stretches of consecutive windows with a somy-normalized median coverage > = 0.5 or < = -0.5 for duplications and deletions, respectively, a minimum length of 25 kb and a median normalized coverage difference across windows > = 0.9 (Supplementary file 6). To identify large CNVs across samples at identical positions and variant type, we grouped CNVs across samples with identical start and end positions within < = 10 kb (i.e. up to two 5 kb windows difference) (Supplementary file 7). CNVs of individual genes were determined based on the filtered bam files (see genome coverages) with bedtools coverage (RRID:SCR_006646, v2.17.0) using parameters ‘-d - split’ (Quinlan and Hall, 2010) and analysing gene coverages in R (R Development Core Team, 2013). The coverage of each gene was approximated by its median coverage and normalized by the haploid coverage of the respective chromosome and sample (Supplementary file 9).
การแปรผันของจำนวนการคัดลอก/ เพื่อระบุการแปรผันของจำนวนการคัดลอกจำนวนมาก (CNV) ไฟล์ bam ที่ปรับแนวใหม่สำหรับแต่ละตัวอย่างถูกกรองสำหรับคู่ที่เหมาะสมและ PCR หรือสำเนาเชิงแสงถูกลบออกโดยใช้มุมมอง samtools (RRID:SCR_002105, v1.3, Li et al., 2552) ความครอบคลุมถูกกำหนดโดยใช้ bedtools Genomecov (RRID:SCR_ 006646, v2.17.0) พร้อมพารามิเตอร์: '-d -split' (Quinlan and Hall, 2010) การทำซ้ำและการลบขนาดใหญ่ถูกระบุโดยใช้สคริปต์ที่กำหนดเองใน R (ทีมพัฒนาหลัก R, 2013): ความครอบคลุมของจีโนมถูกกำหนดสำหรับหน้าต่างที่ไม่ทับซ้อนกันขนาด 5 kb ตามแนวจีโนมและแต่ละหน้าต่างถูกทำให้เป็นมาตรฐานโดยการครอบคลุมโครโมโซมเดี่ยวของโครโมโซมและตัวอย่างที่เกี่ยวข้อง (เช่น ความครอบคลุมของโครโมโซมมัธยฐานหารด้วยโซมีของโครโมโซมและตัวอย่างตามลำดับ) CNV ขนาดใหญ่ถูกระบุผ่านหน้าต่างที่ต่อเนื่องกันโดยมีค่ามัธยฐานความครอบคลุมของโซมีที่ทำให้เป็นมาตรฐาน > = 0.5 หรือ < = -0.5 สำหรับการทำซ้ำและการลบ ตามลำดับ ความยาวขั้นต่ำ 25 kb และค่ามัธยฐานของความครอบคลุมที่ปรับให้เป็นมาตรฐานในหน้าต่าง > = 0.9 (เสริม ไฟล์ 6) ในการระบุ CNV ขนาดใหญ่ในกลุ่มตัวอย่างที่ตำแหน่งและประเภทตัวแปรที่เหมือนกัน เราได้จัดกลุ่ม CNV ในกลุ่มตัวอย่างที่มีตำแหน่งเริ่มต้นและสิ้นสุดที่เหมือนกันภายใน < = 10 kb (เช่น สูงสุดสองหน้าต่าง 5 kb ที่แตกต่างกัน) (ไฟล์เสริม 7) CNV ของยีนแต่ละตัวถูกกำหนดตามไฟล์ bam ที่ถูกกรอง (ดูการครอบคลุมของจีโนม) ที่มีความครอบคลุมของ bedtools (RRID: SCR_006646, v2.17.0) โดยใช้พารามิเตอร์ '-d - split' (Quinlan และ Hall, 2010) และการวิเคราะห์ความครอบคลุมของยีนใน R (ทีมหลักพัฒนา R, 2013) ความครอบคลุมของแต่ละยีนนั้นประมาณด้วยความครอบคลุมของค่ามัธยฐานและทำให้เป็นมาตรฐานโดยการครอบคลุมเดี่ยวของโครโมโซมและตัวอย่างตามลำดับ (ไฟล์เสริม 9)
การแปล กรุณารอสักครู่..
จํานวนสําเนาที่เปลี่ยนแปลง<br>เพื่อระบุตัวแปรจํานวนมาก( CNVs )ไฟล์bamที่จัดเรียงใหม่ของแต่ละตัวอย่างจะถูกกรองโดยใช้มุมมองsamtoolsและPCRหรือการทําซ้ําแบบออปติคอลจะถูกลบออก( SCR _ 002105,v1.3,Li et al.,2009 ) จากนั้นใช้เครื่องมือbed genome cov ( RRID : SCR _ 006646,v2.17.0 )เพื่อกําหนดความครอบคลุมพารามิเตอร์: ' - d -split ' ( Quinlan and Hall,2010 ) การทําสําเนาและการลบที่สําคัญถูกระบุโดยใช้สคริปต์ที่กําหนดเองในR ( R development core team,2013 ) :ความครอบคลุมของจีโนมของหน้าต่างที่ไม่ทับซ้อนกัน5กิโลไบต์ตามจีโนมถูกกําหนดและแต่ละหน้าต่างจะครอบคลุมโครโมโซมโครโมโซมของโครโมโซมและตัวอย่างที่สอดคล้องกัน(เช่นความครอบคลุมของโครโมโซมเฉลี่ยหารด้วยโครโมโซมและตัวอย่างที่สอดคล้องกัน)มาตรฐาน CNVขนาดใหญ่จะถูกระบุโดยการขยายหน้าต่างอย่างต่อเนื่องความครอบคลุมของค่าเฉลี่ยมาตรฐานที่ซ้ํากันและขาดหายไปของหน้าต่างเหล่านี้คือ> =0.5หรือ< =-0. 5ตามลําดับความยาวขั้นต่ําคือ25กิโลไบต์และความแตกต่างของความคุ้มครองมาตรฐานระหว่างหน้าต่างคือ> =0.9 (เอกสารเสริม6 ) เพื่อระบุCNVขนาดใหญ่ในตัวอย่างที่มีตําแหน่งและรูปแบบเดียวกันเราจัดกลุ่มCNVในตัวอย่างที่มีตําแหน่งเริ่มต้นและจุดสิ้นสุดเดียวกันภายใน< = 10กิโลไบต์(เช่นความแตกต่างของหน้าต่าง5กิโลไบต์) (เอกสารเสริม7 ) การใช้พารามิเตอร์'-d-split ' ( Quinlan and Hall,2010 )และการวิเคราะห์ความครอบคลุมของยีนในr ( R development core team,2013 )ขึ้นอยู่กับความครอบคลุมของbedtools ( RRID:SCR _ 006646,v2.17.0 )ไฟล์bam (ดูความครอบคลุมของจีโนม)เพื่อกําหนดCNVของยีนแต่ละตัว ความครอบคลุมของยีนแต่ละตัวจะประมาณโดยความครอบคลุมของค่ากลางและมาตรฐานโดยความครอบคลุมของโครโมโซมและตัวอย่างที่เกี่ยวข้อง(เอกสารเสริม9 )
การแปล กรุณารอสักครู่..