We first cleaned the raw sequencing

We first cleaned the raw sequencing files (fastq sequencing files in Illumina 1.3+ format) to remove any low quality reads and potential contaminating vector sequences. To ensure high quality of data, we discarded reads where one or more position had a phred quality score below 3 (in either paired end). We then aligned the reads against the reference transcriptome using bwa (aln and sampe command, default parameters except for read trimming parameter (-q) set at 20 to ensure high quality alignments ). Following alignments, we used the Indel Realigner from the genome analysis toolkit (gatk ) to correct alignment errors near indel regions. We used samtools to extract the base-pair information at each site for each individual (pileup command, 17 million sites). Note that one individual (PI586932) was not included in the analysis given low sequencing yield (see results section). We parsed this output (base-pair information at each site for each individual) based on several criteria. First, sites with a read depth of less than three were called as missing. Then, if that site passed this first filter, the genotype was called as heterozygous only if the minor allele was represented by more than two reads and the minor allele frequency was at least 10%. At this point, we concatenated information from all individuals for all sites. From this dataset, we filtered on a per site basis, in order to keep only sites for which no more than 20% of all individuals had missing data, expected heterozygosity (He) was greater than 0.2 and observed heterozygosity (Ho) was smaller than 0.6. Polymorphic sites with values above the latter threshold likely represent paralogous sequence variants instead of true SNPs. Conversely, polymorphic sites with values below the former threshold either represent rare alleles, which possess little information for the sake of differentiating individuals, or sequencing errors (unless very high coverage is attained). Nevertheless, we are aware that our analysis likely contains a small fraction of false positives due to alignment and/or sequencing errors. However, given the large amount of data, high overall coverage, strict quality thresholds cut-offs and visual inspection of random subsets of alignments (several tens of kilobases), we expect the data to be more than sufficient for the analysis we report here. This is evident when the same trends are observed when conducting replicate analysis using small random subsamples (for example in the structure runs, see results).

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เราก่อนล้างแฟ้มลำดับดิบ (fastq ลำดับแฟ้มในรูปแบบ Illumina 1.3 +) เอาอ่านคุณภาพต่ำและศักยภาพขยะลำดับเวกเตอร์ใด ๆ การตรวจสอบคุณภาพของข้อมูล เราละทิ้งอ่านที่อย่าง น้อยหนึ่งตำแหน่งมีคะแนนคุณภาพ phred ด้านล่าง 3 (ในบันทึกจัดเป็นคู่) เราจัดแล้วอ่านจาก transcriptome อ้างอิงใช้ bwa (aln และ sampe คำสั่ง พารามิเตอร์เริ่มต้นยกเว้นตัดแต่งอ่านพารามิเตอร์ (-q) ตั้งที่ 20 ให้จัดแนวคุณภาพ) ต่อการจัดแนว เราใช้ Indel Realigner จากเครื่องมือการวิเคราะห์จีโนม (gatk) เพื่อแก้ไขข้อผิดพลาดในการจัดตำแหน่งใกล้ indel ภูมิภาค เราใช้ samtools เพื่อดึงข้อมูลฐานคู่ที่แต่ละไซต์สำหรับแต่ละบุคคล (คำสั่ง pileup ไซต์ 17 ล้าน) หมายเหตุบุคคลที่หนึ่ง (PI586932) ไม่รวมอยู่ในการวิเคราะห์ที่กำหนดลำดับต่ำสุดอัตราผลตอบแทน (ดูส่วนผล) เราแยกนี้ผลผลิต (ฐานคู่ข้อมูลที่แต่ละไซต์สำหรับแต่ละบุคคล) ตามเงื่อนไขต่าง ๆ ไซต์ที่ มีการอ่านความลึกน้อยกว่า 3 ครั้งแรก ถูกเรียกว่าขาด จากนั้น ถ้าไซต์ที่ผ่านการกรองนี้ ลักษณะทางพันธุกรรมมีเรียกเป็น heterozygous เมื่อถูกแสดง allele รองอ่านมากกว่าสอง และความถี่ของ allele น้อยถูกน้อยกว่า 10% จุดนี้ เรารับการรวมข้อมูลจากบุคคลทั้งหมดสำหรับไซต์ทั้งหมด จากชุดข้อมูลนี้ เรากรองบนพื้นฐานสำหรับแต่ละไซต์ ให้อเมริกาเท่านั้นซึ่งไม่เกิน 20% ของคนทั้งหมดมีข้อมูลที่ขาดหายไป heterozygosity คาด (เขา) ไม่มากกว่า 0.2 และสังเกต heterozygosity (โฮจิมินห์) ไม่น้อยกว่า 0.6 ไซต์ polymorphic มีค่าสูงกว่าขีดจำกัดหลังน่าจะแสดงตัวแปรลำดับ paralogous แทน SNPs จริงตรงกันข้าม ไซต์ polymorphic มีค่าต่ำกว่าขีดจำกัดเดิมอาจแสดง alleles หายาก ซึ่งมีข้อมูลเล็กน้อยเพื่อความแตกต่างบุคคล หรือข้อผิดพลาดลำดับเบส (เว้นแต่จะได้ความคุ้มครองสูงมาก) อย่างไรก็ตาม เราจะทราบว่า วิเคราะห์ของเราน่าจะประกอบด้วยส่วนเล็ก ๆ ของการทำงานผิดพลาดผิดพลาดเนื่องจากการจัดตำแหน่งและ/หรือข้อผิดพลาดลำดับ อย่างไรก็ตาม เราได้รับจำนวนมากของข้อมูล ความครอบคลุมโดยรวมสูง คุณภาพที่เข้มงวดขีดจำกัดตัดเลือก และตรวจสอบภาพของชุดย่อยสุ่มของจัดแนว (หลายสิบของ kilobases), คาดว่าข้อมูลเป็นมากกว่าเพียงพอสำหรับการวิเคราะห์ที่เรารายงานที่นี่ นี้จะเห็นได้ชัดเมื่อพบแนวโน้มเดียวกันเมื่อทำ replicate วิเคราะห์ใช้ subsamples เล็กสุ่ม (ตัวอย่างในการโครงสร้างการเรียกใช้ ผลลัพธ์ดู)

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ครั้งแรกที่เราทำความสะอาดไฟล์ลำดับดิบ (fastq ไฟล์ลำดับใน Illumina 1.3 + รูปแบบ) เพื่อลบที่มีคุณภาพต่ำใด ๆ ที่อาจเกิดขึ้นอ่านและปนเปื้อนลำดับเวกเตอร์ เพื่อให้แน่ใจว่าคุณภาพของข้อมูลที่เราทิ้งอ่านที่หนึ่งหรือตำแหน่งอื่น ๆ มีคะแนนคุณภาพ phred ต่ำกว่า 3 (ในที่สุดทั้งคู่) จากนั้นเราจะสอดคล้องกับการอ่านยีนอ้างอิงใช้ BWA (ALN และคำสั่ง SAMPE พารามิเตอร์เริ่มต้นยกเว้นสำหรับการอ่านการตัดแต่งพารามิเตอร์ (-q) ชุดที่ 20 เพื่อให้แน่ใจว่าการจัดแนวที่มีคุณภาพสูง) ต่อไปนี้การจัดแนวเราใช้ Indel Realigner จากการวิเคราะห์จีโนมเครื่องมือ (gatk) เพื่อแก้ไขข้อผิดพลาดในการจัดตำแหน่งใกล้ภูมิภาค Indel เราใช้ samtools จะดึงข้อมูลคู่ฐานที่แต่ละเว็บไซต์สำหรับแต่ละบุคคล (คำสั่งกระเจิดกระเจิง, 17 ล้านเว็บไซต์) หมายเหตุว่าบุคคลหนึ่ง (PI586932) ไม่ได้รวมอยู่ในการวิเคราะห์ผลตอบแทนลำดับต่ำที่กำหนด (ดูในส่วนของผลการค้นหา) เราแยกวิเคราะห์ออกนี้ (ข้อมูลฐานคู่ที่เว็บไซต์ของแต่ละบุคคลแต่ละ) ตามเกณฑ์หลาย ครั้งแรกที่เว็บไซต์ที่มีความลึกในการอ่านน้อยกว่าสามคนถูกเรียกว่าเป็นขาดหายไป แล้วถ้าเว็บไซต์ที่ผ่านการกรองครั้งแรกนี้จีโนไทป์ถูกเรียกว่าเป็น heterozygous เฉพาะในกรณีที่อัลลีลรองลงมาเป็นตัวแทนมากกว่าสองอ่านและความถี่อัลลีลรองลงมาเป็นอย่างน้อย 10% ณ จุดนี้เราตัดแบ่งข้อมูลจากประชาชนทุกคนสำหรับทุกไซต์ จากชุดนี้เรากรองบนพื้นฐานต่อเว็บไซต์เพื่อให้เว็บไซต์เท่านั้นที่ไม่เกิน 20% ของบุคคลทุกคนมีข้อมูลที่หายไปคาดว่า heterozygosity (เขา) เป็นมากกว่า 0.2 และสังเกต heterozygosity (โฮ) มีขนาดเล็กกว่า 0.6 เว็บไซต์ Polymorphic มีค่าสูงกว่าเกณฑ์หลังน่าจะเป็นตัวแทนของสายพันธุ์ลำดับ paralogous แทน SNPs จริง ตรงกันข้ามเว็บไซต์ polymorphic มีค่าต่ำกว่าเกณฑ์อดีตทั้งเป็นตัวแทนของอัลลีลที่หายากซึ่งมีข้อมูลเล็ก ๆ น้อย ๆ เพื่อประโยชน์ของความแตกต่างของบุคคลหรือข้อผิดพลาดลำดับ (ยกเว้นความคุ้มครองที่สูงมากจะบรรลุ) แต่เราจะทราบว่าการวิเคราะห์ของเราน่าจะมีส่วนเล็ก ๆ ของผลบวกปลอมเนื่องจากการจัดตำแหน่งและ / หรือข้อผิดพลาดในการจัดลำดับ แต่ให้ข้อมูลจำนวนมากครอบคลุมโดยรวมสูงเกณฑ์คุณภาพที่เข้มงวดตัดหนี้สูญและการตรวจสอบภาพของส่วนย่อยสุ่มของการจัดแนว (หลายสิบ kilobases) เราคาดหวังว่าข้อมูลจะเป็นมากกว่าเพียงพอสำหรับการวิเคราะห์ที่เรารายงานที่นี่ นี้เห็นได้ชัดเมื่อแนวโน้มเดียวกันจะสังเกตเห็นเมื่อดำเนินการวิเคราะห์ซ้ำโดยใช้ subsamples สุ่มขนาดเล็ก (ตัวอย่างเช่นในการทำงานโครงสร้างเห็นผล)

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เราทำความสะอาดไฟล์ระบบดิบ ( fastq จัดลำดับไฟล์ใน Illumina 1.3 รูปแบบ ) เพื่อลบใด ๆที่อาจปนเปื้อนอยู่ในลำดับต่ำอ่านเวกเตอร์ เพื่อให้มั่นใจว่าคุณภาพของข้อมูล เราทิ้งคนอ่านที่หนึ่งหรือมากกว่าหนึ่งตำแหน่งมีคะแนนคุณภาพ phred ด้านล่าง 3 ( ในคู่สุดท้าย )เราอ่านแล้วชิดกับทราน ริปโตมอ้างอิงโดยใช้ bwa ( พารามิเตอร์เริ่มต้น ALN sampe คำสั่งและพารามิเตอร์ ( ยกเว้นอ่านตัด - Q ) เพื่อให้แน่ใจว่า การตั้งค่าที่ 20 ที่มีคุณภาพสูง ) ต่อไปนี้การ เราใช้ realigner INDEL จากพันธุกรรมการวิเคราะห์เครื่องมือ ( gatk ) เพื่อแก้ไขข้อผิดพลาดการใกล้ INDEL ภูมิภาคเราใช้ samtools เพื่อสกัดข้อมูลฐานคู่แต่ละเว็บไซต์สำหรับแต่ละบุคคล ( รำลึกคำสั่ง 17 ล้านเว็บไซต์ ) โปรดทราบว่าบุคคลหนึ่ง ( pi586932 ) ไม่ได้ถูกรวมอยู่ในการได้รับการวิเคราะห์ผลผลิตต่ำ ( ดูส่วนผล ) เราแยกออก ( คู่ฐานข้อมูลแต่ละเว็บไซต์แต่ละบุคคล ) ขึ้นอยู่กับเงื่อนไขต่าง ๆ ครั้งแรกเว็บไซต์ที่มีอ่านความลึกน้อยกว่าสามถูกเรียกว่าหายไป แล้วถ้าเว็บไซต์ที่ผ่านตัวกรองก่อนนี้ ถูกเรียกว่าเป็น homozygous genotype allele เท่านั้นถ้าผู้เยาว์ได้แสดงโดยมากกว่าสองอ่านและความถี่ allele รองเป็นอย่างน้อย 10% ณจุดนี้เราตัดแบ่งข้อมูลจากบุคคลทั้งหมดสำหรับเว็บไซต์ทั้งหมด จากข้อมูลนี้เรากรองต่อเว็บไซต์พื้นฐานเพื่อให้เว็บไซต์เท่านั้นที่ไม่เกิน 20% ของบุคคลทุกคนมีข้อมูลที่ขาดหายไป คาดว่าเฉพาะที่ ( เขา ) มากกว่า 0.2 โดยเฉพาะที่ ( โฮ ) มีขนาดเล็กกว่า 0.6 เว็บไซต์ polymorphic ด้วยคุณค่าเกณฑ์หลังอาจเป็นตัวแทนของ paralogous ลำดับตัวแปรแทนจริง snps . ในทางกลับกันเว็บไซต์ที่มีค่าต่ำกว่าเกณฑ์กับอดีตให้เป็นตัวแทนของอัลลีลที่หายากซึ่งมีข้อมูลเล็กน้อย เพื่อประโยชน์ของทั้งบุคคล หรือข้อผิดพลาด ( ยกเว้นความคุ้มครองสูงมาก การจะบรรลุ ) อย่างไรก็ตาม เราตระหนักดีว่า การวิเคราะห์ของเราน่าจะมีเศษเล็ก ๆของผลบวกปลอม เนื่องจากการจัดตำแหน่งและ / หรือข้อผิดพลาดของ อย่างไรก็ตามได้รับจำนวนมากของข้อมูลสูง โดยรวมครอบคลุม เกณฑ์คุณภาพอย่างเข้มงวดและตรวจสอบภาพตัดของชุดย่อยของการสุ่ม ( หลายสิบกิโลเบส ) เราคาดว่าข้อมูลที่เป็นมากกว่าเพียงพอสำหรับการวิเคราะห์เรารายงานที่นี่นี้เป็นที่เห็นได้ชัดเมื่อแนวโน้มเดียวกันตามลำดับเมื่อทำการวิเคราะห์โดยการเลียนแบบ subsamples ขนาดเล็ก ( ตัวอย่างเช่นในโครงสร้างจะเห็นผล )

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.