Score ranges are used for defining relative matrix score thresholds. The applied scoring method is in direct relation to the protein-DNA binding energy [1], and it therefore does not take into account statistical significance of an observed motif in relation to the local nucleotide composition (for example, GC-rich regions). The influence of the background distribution on the protein-DNA interaction is poorly understood. This is recognized as an open problem within the field, as it is highly controversial whether the surrounding base composition could have any influence on the thermodynamics of binding [37]. For these reasons, we choose to score the matrix profiles using a uniform base composition.
Parameter settings and manipulation
In all three analysis modes the user can choose relative matrix score thresholds (default 80%). In alignment analysis modes, one can also choose the size of the sliding window (default 50 nucleotides) and the conservation cutoff (percentage sequence identity within the window for the definition of conserved regions). There is no fixed default value for the latter parameter; instead, the conservation cutoff is set to retain the top 10% of conserved windows (based on nucleotide identity within a
window of sequence in the alignment). This latter mechanism was motivated by the different rates of evolution across genomes.
Matrix manipulation, site detection and phylogenetic footprinting
For matrix manipulation, TFBS detection and some other actions (such as sequence ‘logo’ drawing) we intensively used the ‘TFBS software’, a set of object-oriented Perl modules (with extensions in C and C++) developed for the acceleration of promoter analysis scripting [38].
The phylogenetic footprinting TFBS reference collection
An initial set of annotated binding sites was identified from TRANSFAC (version 4.0) [20,21] for human (662 sites) and mouse (376 sites). Each binding site was extended with 50 bp of flanking sequence in both directions from the respective promoter to allow unambiguous mapping onto the corresponding genome assembly (human version hg13 and mouse version mm2 [39,40]). Only sites bound by a TF with a corresponding matrix model in the JASPAR collection were kept.
In order to define orthology without regard to the sequences flanking the binding sites (which would introduce circularity problems), we defined human-mouse pairings on the basis of cDNA sequences. The mappings of GenBank [41] and RefSeq [42,43] cDNAs to the assemblies were obtained from the UCSC Genome Browser Database [39,40]. In addition 50,821 mouse cDNAs from the RIKEN project [44] were mapped to the mouse genome assembly using the client/server version of BLAT [45] with default settings. In brief, for all mappings of a given cDNA, we consider only those with cDNA coverage > 75% and with > 99% sequence identity to the genomic sequence, then sort the set by (number of matches)*(cDNA coverage), and finally take the first mapping in the sorted set.
Each promoter fragment was mapped to its corresponding genome assembly using BLAT, as above. Extended site sequences that unambiguously mapped to the promoter region of the TRANSFAC annotated gene were kept. For each mapped TRANSFAC binding site, the nearest downstream cDNA mapping was located and the GeneLynx record containing that cDNA retrieved. cDNAs with mouse-human ortholog pairs defined in the GeneLynx Mouse [46] database were retained.
For a pair of cDNA sequences thus identified, the genomic sequences spanning representative mappings were extracted and aligned, using BLASTZ [47] (default settings). For each aligned sequence pair, the alignment coverage and the similarities in gene structure as indicated by the mappings were manually evaluated to select not more than one orthologous region per initial TFBS-cDNA-GeneLynx identifier ‘triplet’. Promoter-region pairs corresponding to 1,000 bp upstream of the binding site and 100
bp into the first exon were extracted, using the BLASTZ alignment as reference.
Acknowledgements
This project was supported by funds from the Karolinska Institute and the Pharmacia Corporation.
ช่วงคะแนนที่ใช้ในการกำหนดเมตริกซ์ญาติคะแนนขีดจำกัด ใช้วิธีการให้คะแนนมีความสัมพันธ์โดยตรงกับพลังงานยึดเหนี่ยวของดีเอ็นเอโปรตีน [1], และมันจึงไม่พิจารณาถึงนัยสำคัญทางสถิติบัญชีของแปลนการสังเกตเกี่ยวกับองค์ประกอบของนิวคลีโอไทด์ภายใน (เช่น GC ริชภูมิภาค) ไม่ดีคือเข้าใจอิทธิพลของการแจกพื้นหลังในการโต้ตอบดีเอ็นเอโปรตีน นี้ถูกรู้จักว่าเป็นปัญหาเปิดภายในฟิลด์ ก็ขอแย้งว่าโดยรอบฐานองค์ประกอบอาจมีอิทธิพลใด ๆ ในอุณหพลศาสตร์ของผูก [37] ด้วยเหตุนี้ เราเลือกให้คะแนนโปรไฟล์เมตริกซ์โดยใช้องค์ประกอบพื้นฐานเป็นรูปตั้งค่าพารามิเตอร์และการจัดการในโหมดวิเคราะห์สามทั้งหมด ผู้ใช้สามารถเลือกเมตริกซ์ญาติคะแนนขีดจำกัดเริ่มต้น 80%) ในตำแหน่งวิเคราะห์โหมด หนึ่งสามารถเลือกขนาดของบานหน้าต่าง (เริ่มต้น 50 นิวคลีโอไทด์) และอนุรักษ์ตัดยอด (เปอร์เซ็นต์ลำดับรหัสประจำตัวภายในหน้าต่างสำหรับการนำภูมิภาค) มีค่าไม่คงที่สำหรับพารามิเตอร์หลัง แทน ตั้งอนุรักษ์ตัดยอดการรักษาสูงสุด 10% ของ windows นำ (ตามข้อมูลประจำตัวของนิวคลีโอไทด์ภายในการ หน้าต่างลำดับในการจัดตำแหน่ง) กลไกนี้หลังถูกแรงจูงใจ ด้วยอัตราต่าง ๆ ของวิวัฒนาการใน genomesจัดการเมตริกซ์ ตรวจสอบเว็บไซต์ และ phylogenetic footprintingสำหรับการจัดการเมตริกซ์ TFBS ตรวจสอบ และดำเนินการอื่น ๆ บางอย่าง (เช่นลำดับ 'สัญลักษณ์' วาด) เรา intensively ใช้ 'TFBS ซอฟต์แวร์' ชุดโมดูลภาษาเพิร์ลเชิงวัตถุ (มีนามสกุล C และ c ++) พัฒนาขึ้นสำหรับเร่งการวิเคราะห์โปรโมเตอร์สคริปต์ [38]คอลเลกชันอ้างอิง TFBS phylogenetic footprintingมีการระบุไว้เป็นชุดเริ่มต้นของไซต์รวมประกอบจาก TRANSFAC (เวอร์ชัน 4.0) [20,21] สำหรับมนุษย์ (ไซต์ 662 ก.) และเมาส์ (376 ไซต์) แต่ละไซต์ผูกถูกขยาย ด้วย 50 bp ของ flanking ลำดับในทั้งสองทิศทางจากโปรโมเตอร์นั้น ๆ ให้ชัดเจนการแมปไปยังแอสเซมบลีจีโนมเกี่ยวข้อง (มนุษย์รุ่น hg13 และเมาส์รุ่นมม 2 ได้ภาย [39,40]) เฉพาะไซต์ที่ผูก โดย TF ด้วยแบบจำลองเมตริกซ์ที่สอดคล้องกันในคอลเลกชัน JASPAR ถูกเก็บไว้การกำหนด orthology โดยไม่คำนึงถึงลำดับ flanking ไซต์รวม (ซึ่งจะแนะนำปัญหาการหมุนเวียน), เรากำหนดบุคคลเมาส์ pairings ตามลำดับ cDNA การแม็ปของ GenBank [41] และ RefSeq [42,43] cDNAs การแอสเซมบลีที่ได้รับจาก UCSC จีโนมเบราว์เซอร์ฐานข้อมูล [39,40] นอกจากนี้ 50,821 cDNAs เมาส์จากโครงการอาทิ [44] ถูกแมปกับแอสเซมบลีจีโนมเมาส์ใช้รุ่นไคลเอ็นต์/เซิร์ฟเวอร์ BLAT [45] การตั้งค่าเริ่มต้น สังเขป สำหรับการแม็ปทั้งหมดของ cDNA ที่กำหนด เราพิจารณาเฉพาะบรรดา cDNA ครอบคลุม > 75% และ มี > 99% ลำดับลำดับ genomic เรียงลำดับชุด *(cDNA coverage) (หมายเลขตรงกัน) แล้วสุดท้าย ใช้การแม็ปแรกในชุดเรียงลำดับแต่ละส่วนโปรโมเตอร์ถูกแมปกับประกอบจีโนมของที่สอดคล้องกันโดยใช้ BLAT ข้างต้น ขยายเว็บไซต์ที่ได้รับการเก็บลำดับที่แมปไปยังภูมิภาคโปรโมเตอร์ของยีนประกอบ TRANSFAC อย่างชัดเจน สำหรับแต่ละแมป TRANSFAC รวมเว็บไซต์ การแม็ป cDNA ปลายน้ำที่มีอยู่ และเรกคอร์ด GeneLynx ที่ประกอบด้วย cDNA ที่เรียก มีสะสม cDNAs กับคู่ ortholog เมาส์บุคคลที่กำหนดไว้ในฐานข้อมูล GeneLynx เมาส์ [46] สำหรับคู่ของลำดับ cDNA ดัง ระบุ ลำดับ genomic รัฐแทนการแมปถูกสกัด และชิด ใช้ BLASTZ [47] (ตั้งค่าเริ่มต้น) สำหรับแต่ละคู่ลำดับจัดตำแหน่ง ความครอบคลุมการจัดตำแหน่งและความคล้ายคลึงในยีนโครงสร้างตามที่ระบุ โดยการแม็ปได้ด้วยตนเองประเมินต้องไม่มากกว่าหนึ่ง orthologous ภาคต่อเริ่มต้นรหัส TFBS-cDNA-GeneLynx 'triplet' ภูมิภาคโปรโมเตอร์คู่ที่สอดคล้องกับ 1000 bp ต้นน้ำของเว็บไซต์รวมถึง 100 bp เป็น exon แรกถูกสกัด ใช้ตำแหน่ง BLASTZ เป็นการอ้างอิงถาม-ตอบโครงการนี้ได้รับการสนับสนุน โดยเงินทุนจาก สถาบัน Karolinska และ บริษัท Pharmacia
การแปล กรุณารอสักครู่..

ช่วงคะแนนที่ใช้สำหรับการกำหนดเกณฑ์คะแนนเมทริกซ์ญาติ วิธีการให้คะแนนที่ใช้อยู่ในความสัมพันธ์โดยตรงกับโปรตีนดีเอ็นเอปกพลังงาน [1] และมันจึงไม่คำนึงถึงนัยสำคัญทางสถิติของบรรทัดฐานสังเกตในความสัมพันธ์กับองค์ประกอบเบื่อหน่ายในท้องถิ่น (เช่นภูมิภาค GC-อุดมไปด้วย) อิทธิพลของการกระจายบนพื้นปฏิสัมพันธ์โปรตีนดีเอ็นเอเป็นที่เข้าใจได้ไม่ดี นี้ได้รับการยอมรับในฐานะที่เป็นปัญหาเปิดในสนามมันเป็นที่ถกเถียงกันอย่างมากไม่ว่าจะเป็นองค์ประกอบฐานโดยรอบอาจมีอิทธิพลใด ๆ ในอุณหพลศาสตร์ของการผูก [37] ด้วยเหตุนี้เราเลือกที่จะทำคะแนนโปรไฟล์เมทริกซ์โดยใช้องค์ประกอบฐานเครื่องแบบ.
การตั้งค่าพารามิเตอร์และการจัดการ
ในทุกสามโหมดการวิเคราะห์ผู้ใช้สามารถเลือกเกณฑ์คะแนนเมทริกซ์ญาติ (เริ่มต้น 80%) ในโหมดการวิเคราะห์การจัดตำแหน่งหนึ่งยังสามารถเลือกขนาดของหน้าต่างบานเลื่อนที่ (เริ่มต้น 50 นิวคลีโอ) และตัดการอนุรักษ์ (ตัวตนร้อยละลำดับภายในหน้าต่างสำหรับความหมายของพื้นที่ป่าสงวน) ไม่มีค่าเริ่มต้นคงที่สำหรับพารามิเตอร์หลังเป็น; แทนตัดอนุรักษ์มีการตั้งค่าที่จะเก็บ 10% ของยอดหน้าต่างอนุรักษ์ (ขึ้นอยู่กับตัวตนเบื่อหน่ายภายใน
หน้าต่างของลำดับในการจัดตำแหน่ง) กลไกนี้หลังได้แรงบันดาลใจจากอัตราที่แตกต่างของวิวัฒนาการทั่วจีโนม.
การจัดการ Matrix, การตรวจสอบสถานที่และ footprinting phylogenetic
สำหรับการจัดการเมทริกซ์, การตรวจสอบ TFBS และบางการกระทำอื่น ๆ (เช่นลำดับ 'โลโก้' วาดภาพ) เราใช้อย่างเข้มงวด 'ซอฟต์แวร์ TFBS', ชุดของโมดูล Perl เชิงวัตถุ (ที่มีนามสกุลใน C และ C ++) ที่พัฒนาขึ้นสำหรับการเร่งความเร็วของการเขียนสคริปต์การวิเคราะห์ก่อการ [38].
phylogenetic footprinting TFBS คอลเลกชันอ้างอิง
ชุดแรกของเว็บไซต์ที่มีผลผูกพันข้อเขียนถูกระบุจาก Transfac (รุ่น 4.0) [ 20,21] สำหรับมนุษย์ (662 เว็บไซต์) และเมาส์ (376 เว็บไซต์) แต่ละเว็บไซต์มีผลผูกพันได้ขยาย 50 bp ของขนาบลำดับในทิศทางทั้งจากผู้ก่อการที่เกี่ยวข้องเพื่อให้การทำแผนที่ชัดเจนบนจีโนมการชุมนุมที่สอดคล้องกัน (ฉบับ HG13 มนุษย์และรุ่น mm2 เมาส์ [39,40]) เว็บไซต์เท่านั้นผูกพันตาม TF ที่มีรูปแบบเมทริกซ์ที่สอดคล้องกันในคอลเลกชัน Jaspar ถูกเก็บไว้.
เพื่อที่จะกำหนด orthology โดยไม่คำนึงถึงลำดับขนาบเว็บไซต์ผูกพัน (ซึ่งจะแนะนำปัญหาวัฏจักร) เรากำหนดจับคู่มนุษย์เมาส์บนพื้นฐานของ ลำดับยีน การแมปของ GenBank [41] และ RefSeq [42,43] cDNAs ประกอบการที่ได้รับจากฐานข้อมูลเบราว์เซอร์จีโนม UCSC [39,40] นอกจาก 50,821 cDNAs เมาส์จากโครงการ RIKEN [44] ถูกแมปไปประกอบจีโนมเมาส์ใช้ไคลเอนต์ / เซิร์ฟเวอร์รุ่นของ BLAT [45] ด้วยการตั้งค่าเริ่มต้น ในช่วงสั้น ๆ สำหรับแมปทั้งหมดของยีนที่กำหนดให้เราพิจารณาเฉพาะผู้ที่มีความคุ้มครอง cDNA> 75% และมีการ> ลำดับบัตร 99% เป็นลำดับจีโนมแล้วเรียงที่กำหนดโดย (จำนวนขีด) * (คุ้มครอง cDNA) และ ในที่สุดก็ใช้เวลาทำแผนที่เป็นครั้งแรกในชุดเรียงลำดับ.
ส่วนโปรโมเตอร์แต่ละคนได้แมปกับการชุมนุมของจีโนมที่สอดคล้องกันโดยใช้ BLAT ตอนเหนือ ขยายลำดับเว็บไซต์ที่ไม่น่าสงสัยแมปไปยังภูมิภาคโปรโมเตอร์ของยีน Transfac ข้อเขียนถูกเก็บไว้ สำหรับเว็บไซต์ที่มีผลผูกพัน Transfac แต่ละแมป, การทำแผนที่ยีนปลายน้ำที่ใกล้ที่สุดอยู่และบันทึก GeneLynx บรรจุที่ cDNA ดึง cDNAs กับคู่ ortholog เมาส์ของมนุษย์ที่กำหนดไว้ใน GeneLynx Mouse [46] ฐานข้อมูลถูกเก็บไว้.
สำหรับคู่ของลำดับดีเอ็นเอระบุดังนั้นลำดับจีโนมซึ่งประกอบไปด้วยการแมปที่เป็นตัวแทนมาสกัดและสอดคล้องโดยใช้ BLASTZ [47] (การตั้งค่าเริ่มต้น) สำหรับคู่แต่ละลำดับสอดคล้องครอบคลุมการจัดตำแหน่งและความคล้ายคลึงกันในโครงสร้างของยีนตามที่ระบุโดยแมปได้รับการประเมินด้วยตนเองเพื่อเลือกไม่เกินหนึ่งภูมิภาค orthologous ต่อเริ่มต้น TFBS-cDNA-GeneLynx ระบุ 'แฝด' คู่โปรโมเตอร์ภูมิภาคสอดคล้องกับ 1,000 bp ต้นน้ำของเว็บไซต์ที่มีผลผูกพันและ 100
bp เป็นเอกซ์ซอนครั้งแรกที่ถูกสกัดโดยใช้การจัดตำแหน่ง BLASTZ เป็นข้อมูลอ้างอิง.
กิตติกรรมประกาศ
โครงการนี้ได้รับการสนับสนุนโดยเงินทุนจากสถาบัน Karolinska และ Pharmacia คอร์ปอเรชั่น
การแปล กรุณารอสักครู่..

ช่วงคะแนนที่ใช้สำหรับการกำหนดคะแนนเกณฑ์ญาติเมทริกซ์ . การประยุกต์วิธีการให้คะแนนอยู่ในความสัมพันธ์โดยตรงกับโปรตีนดีเอ็นเอมัดพลังงาน [ 1 ] และมันจึงไม่พิจารณาดูสถิติของการตรวจสอบรูปแบบในความสัมพันธ์กับองค์ประกอบของนิวคลีโอไทด์ท้องถิ่น ( เช่น GC รวยภูมิภาค )อิทธิพลของภูมิหลังการกระจายในโปรตีนดีเอ็นเอ ( ไม่ค่อยเข้าใจ . นี้ได้รับการยอมรับเป็นปัญหาภายใน เปิดสนาม ตามที่มีการโต้เถียงอย่างมาก ไม่ว่าจะเป็นองค์ประกอบโดยรอบฐานสามารถมีอิทธิพลต่ออุณหพลศาสตร์ของผูกพัน [ 37 ] ด้วยเหตุผลเหล่านี้เราเลือกคะแนนเมทริกซ์โปรไฟล์โดยใช้องค์ประกอบ
ฐานเหมือนกันการตั้งค่าพารามิเตอร์ในโหมดการวิเคราะห์และการจัดการ
3 ผู้ใช้สามารถเลือกคะแนนเกณฑ์ญาติเมทริกซ์ ( ค่าเริ่มต้น 80% ) ในโหมดการวิเคราะห์แนว หนึ่งยังสามารถเลือกขนาดของหน้าต่างบานเลื่อน ( เริ่มต้น 50 นิวคลีโอไทด์ ) และการอนุรักษ์ ( ค่าตัดดับตัวตนภายในหน้าต่างสำหรับนิยามของบริเวณอนุรักษ์ )ไม่มีการแก้ไขค่าเริ่มต้นสำหรับพารามิเตอร์หลัง ; แทน , การอนุรักษ์การตั้งค่าการรักษาด้านบน 10% เพื่อ Windows ( ขึ้นอยู่กับตัวตนภายในหน้าต่างของนิวคลีโอไทด์
ลำดับในตำแหน่ง ) กลไกหลังนี้ถูกกระตุ้นโดยอัตราที่แตกต่างกันของวิวัฒนาการในจีโนม .
Matrix จัดการ เว็บไซต์การตรวจสอบและยืนยัน footprinting
สำหรับเมทริกซ์จัดการtfbs ตรวจจับและบางการกระทำอื่น ๆ ( เช่นโลโก้ ' ดับ ' วาด ) เราและใช้ tfbs ' ซอฟต์แวร์ ' , ชุดโปรแกรมเชิงวัตถุ Perl โมดูล ( ที่มีนามสกุลใน C และ C ) ที่พัฒนาสำหรับการส่งเสริมการขายการวิเคราะห์สคริปต์ [ 38 ] .
ซึ่ง footprinting tfbs การอ้างอิงคอลเลกชันชุดแรกของบันทึกย่อ ผูกพัน เว็บไซต์ที่ถูกระบุจาก transfac ( รุ่น 4 )0 ) [ 20,21 ] สำหรับมนุษย์ ( 662 เว็บไซต์ ) และเมาส์ ( 376 เว็บไซต์ ) แต่ละมัดเว็บไซต์ขยาย 50 BP ของ flanking ลำดับในทั้งสองทิศทางจากโปรโมเตอร์ที่เกี่ยวข้องให้ชัดเจนลงบนแผนที่จีโนมที่เกี่ยวข้อง ( ประกอบ hg13 รุ่นของมนุษย์และเมาส์รุ่นแน่น [ 39,40 ] ) เพียงเว็บไซต์ผูกพัน TF กับเมตริกซ์ที่สอดคล้องกันในคอลเลกชัน jaspar
ไว้ .เพื่อกำหนด orthology โดยไม่เกี่ยวข้องกับลำดับจเว็บไซต์ผูกพัน ( ซึ่งจะแนะนำปัญหา circularity ) เรานิยามคู่เมาส์มนุษย์บนพื้นฐานของยีน ลำดับ การแมปของขนาด [ 41 ] และ refseq [ 42,43 ] cdnas ไปประกอบ ได้จาก ucsc จีโนมเบราว์เซอร์ฐานข้อมูล [ 39,40 ] นอกจากนี้ 50ถ้าเมาส์ cdnas จากริเคนโครงการ [ 44 ] ถูกแมปไปยังเมาส์จีโนมประกอบโดยใช้ไคลเอ็นต์ / เซิร์ฟเวอร์รุ่นของ blat [ 45 ] ด้วยการตั้งค่าเริ่มต้น ในช่วงสั้น ๆ เพื่อให้ชีวิตของยีน เราพิจารณาเฉพาะผู้ที่มียีนครอบคลุม > 75% และ > 99% ดับตัวตนเพื่อลำดับจีโนมแล้วเรียงชุด โดยจำนวนของการแข่งขัน ) * ( cDNA ครอบคลุม )และสุดท้าย ใช้แผนที่แรกในเรียงชุด แต่ละชิ้นถูกแมปไปยัง
โปรโมเตอร์ของจีโนมการสอดคล้องกัน ประกอบ blat เป็นข้างต้น ขยายเว็บไซต์ลำดับที่แมปไปยังภูมิภาคกันโปรโมเตอร์ของยีน transfac บันทึกย่อถูกเก็บไว้ สำหรับแต่ละแมป transfac ผูกพันเว็บไซต์แผนที่ยีนปลายน้ำที่ใกล้ที่สุดอยู่ และ genelynx บันทึกที่มียีนที่เรียก cdnas ด้วยเมาส์มนุษย์คู่ ortholog ที่กําหนดไว้ใน genelynx เมาส์ [ 46 ] ฐานข้อมูลถูกเก็บไว้
สำหรับคู่ของดีเอ็นเอลำดับจีโนมลำดับระบุ ดังนั้น ตัวแทนการแมปที่ครอบคลุมและสอดคล้อง โดยใช้ blastz [ 47 ] ( ค่าเริ่มต้น )สำหรับแต่ละชิดลำดับคู่ การคุ้มครองและความคล้ายคลึงกันในโครงสร้างของยีนตามที่ระบุโดยการแมปได้ด้วยตนเองแบบเลือกได้ไม่เกินหนึ่ง orthologous ภาคต่อแรก tfbs cDNA genelynx ระบุ ' สาม ' โปรโมเตอร์ เขตคู่กับ 1 , 000 BP ต้นน้ำของมัดเว็บไซต์และ 100
BP เป็นชนิดแรก คือ แยกการใช้ blastz จัดเป็นตัวอ้างอิง ขอบคุณ
โครงการนี้ได้รับการสนับสนุนโดยเงินทุนจากสถาบัน Karolinska และมุ่งมั่น
Corporation
การแปล กรุณารอสักครู่..
