window of sequence in the alignment). This latter mechanism was motivated by the different rates of evolution across genomes.
Matrix manipulation, site detection and phylogenetic footprinting
For matrix manipulation, TFBS detection and some other actions (such as sequence ‘logo’ drawing) we intensively used the ‘TFBS software’, a set of object-oriented Perl modules (with extensions in C and C++) developed for the acceleration of promoter analysis scripting [38].
The phylogenetic footprinting TFBS reference collection
An initial set of annotated binding sites was identified from TRANSFAC (version 4.0) [20,21] for human (662 sites) and mouse (376 sites). Each binding site was extended with 50 bp of flanking sequence in both directions from the respective promoter to allow unambiguous mapping onto the corresponding genome assembly (human version hg13 and mouse version mm2 [39,40]). Only sites bound by a TF with a corresponding matrix model in the JASPAR collection were kept.
In order to define orthology without regard to the sequences flanking the binding sites (which would introduce circularity problems), we defined human-mouse pairings on the basis of cDNA sequences. The mappings of GenBank [41] and RefSeq [42,43] cDNAs to the assemblies were obtained from the UCSC Genome Browser Database [39,40]. In addition 50,821 mouse cDNAs from the RIKEN project [44] were mapped to the mouse genome assembly using the client/server version of BLAT [45] with default settings. In brief, for all mappings of a given cDNA, we consider only those with cDNA coverage > 75% and with > 99% sequence identity to the genomic sequence, then sort the set by (number of matches)*(cDNA coverage), and finally take the first mapping in the sorted set.
Each promoter fragment was mapped to its corresponding genome assembly using BLAT, as above. Extended site sequences that unambiguously mapped to the promoter region of the TRANSFAC annotated gene were kept. For each mapped TRANSFAC binding site, the nearest downstream cDNA mapping was located and the GeneLynx record containing that cDNA retrieved. cDNAs with mouse-human ortholog pairs defined in the GeneLynx Mouse [46] database were retained.
For a pair of cDNA sequences thus identified, the genomic sequences spanning representative mappings were extracted and aligned, using BLASTZ [47] (default settings). For each aligned sequence pair, the alignment coverage and the similarities in gene structure as indicated by the mappings were manually evaluated to select not more than one orthologous region per initial TFBS-cDNA-GeneLynx identifier ‘triplet’. Promoter-region pairs corresponding to 1,000 bp upstream of the binding site and 100
bp into the first exon were extracted, using the BLASTZ alignment as reference.
Acknowledgements
This project was supported by funds from the Karolinska Institute and the Pharmacia Corporation.
window of sequence in the alignment). This latter mechanism was motivated by the different rates of evolution across genomes.Matrix manipulation, site detection and phylogenetic footprintingFor matrix manipulation, TFBS detection and some other actions (such as sequence ‘logo’ drawing) we intensively used the ‘TFBS software’, a set of object-oriented Perl modules (with extensions in C and C++) developed for the acceleration of promoter analysis scripting [38].The phylogenetic footprinting TFBS reference collectionAn initial set of annotated binding sites was identified from TRANSFAC (version 4.0) [20,21] for human (662 sites) and mouse (376 sites). Each binding site was extended with 50 bp of flanking sequence in both directions from the respective promoter to allow unambiguous mapping onto the corresponding genome assembly (human version hg13 and mouse version mm2 [39,40]). Only sites bound by a TF with a corresponding matrix model in the JASPAR collection were kept.In order to define orthology without regard to the sequences flanking the binding sites (which would introduce circularity problems), we defined human-mouse pairings on the basis of cDNA sequences. The mappings of GenBank [41] and RefSeq [42,43] cDNAs to the assemblies were obtained from the UCSC Genome Browser Database [39,40]. In addition 50,821 mouse cDNAs from the RIKEN project [44] were mapped to the mouse genome assembly using the client/server version of BLAT [45] with default settings. In brief, for all mappings of a given cDNA, we consider only those with cDNA coverage > 75% and with > 99% sequence identity to the genomic sequence, then sort the set by (number of matches)*(cDNA coverage), and finally take the first mapping in the sorted set.Each promoter fragment was mapped to its corresponding genome assembly using BLAT, as above. Extended site sequences that unambiguously mapped to the promoter region of the TRANSFAC annotated gene were kept. For each mapped TRANSFAC binding site, the nearest downstream cDNA mapping was located and the GeneLynx record containing that cDNA retrieved. cDNAs with mouse-human ortholog pairs defined in the GeneLynx Mouse [46] database were retained. For a pair of cDNA sequences thus identified, the genomic sequences spanning representative mappings were extracted and aligned, using BLASTZ [47] (default settings). For each aligned sequence pair, the alignment coverage and the similarities in gene structure as indicated by the mappings were manually evaluated to select not more than one orthologous region per initial TFBS-cDNA-GeneLynx identifier ‘triplet’. Promoter-region pairs corresponding to 1,000 bp upstream of the binding site and 100 bp into the first exon were extracted, using the BLASTZ alignment as reference.AcknowledgementsThis project was supported by funds from the Karolinska Institute and the Pharmacia Corporation.
การแปล กรุณารอสักครู่..
หน้าต่างของลำดับในการจัดตำแหน่ง) กลไกนี้หลังได้แรงบันดาลใจจากอัตราที่แตกต่างของวิวัฒนาการทั่วจีโนม.
การจัดการ Matrix, การตรวจสอบสถานที่และ footprinting phylogenetic
สำหรับการจัดการเมทริกซ์, การตรวจสอบ TFBS และบางการกระทำอื่น ๆ (เช่นลำดับ 'โลโก้' วาดภาพ) เราใช้อย่างเข้มงวด 'ซอฟต์แวร์ TFBS', ชุดของโมดูล Perl เชิงวัตถุ (ที่มีนามสกุลใน C และ C ++) ที่พัฒนาขึ้นสำหรับการเร่งความเร็วของการเขียนสคริปต์การวิเคราะห์ก่อการ [38].
phylogenetic footprinting TFBS คอลเลกชันอ้างอิง
ชุดแรกของเว็บไซต์ที่มีผลผูกพันข้อเขียนถูกระบุจาก Transfac (รุ่น 4.0) [ 20,21] สำหรับมนุษย์ (662 เว็บไซต์) และเมาส์ (376 เว็บไซต์) แต่ละเว็บไซต์มีผลผูกพันได้ขยาย 50 bp ของขนาบลำดับในทิศทางทั้งจากผู้ก่อการที่เกี่ยวข้องเพื่อให้การทำแผนที่ชัดเจนบนจีโนมการชุมนุมที่สอดคล้องกัน (ฉบับ HG13 มนุษย์และรุ่น mm2 เมาส์ [39,40]) เว็บไซต์เท่านั้นผูกพันตาม TF ที่มีรูปแบบเมทริกซ์ที่สอดคล้องกันในคอลเลกชัน Jaspar ถูกเก็บไว้.
เพื่อที่จะกำหนด orthology โดยไม่คำนึงถึงลำดับขนาบเว็บไซต์ผูกพัน (ซึ่งจะแนะนำปัญหาวัฏจักร) เรากำหนดจับคู่มนุษย์เมาส์บนพื้นฐานของ ลำดับยีน การแมปของ GenBank [41] และ RefSeq [42,43] cDNAs ประกอบการที่ได้รับจากฐานข้อมูลเบราว์เซอร์จีโนม UCSC [39,40] นอกจาก 50,821 cDNAs เมาส์จากโครงการ RIKEN [44] ถูกแมปไปประกอบจีโนมเมาส์ใช้ไคลเอนต์ / เซิร์ฟเวอร์รุ่นของ BLAT [45] ด้วยการตั้งค่าเริ่มต้น ในช่วงสั้น ๆ สำหรับแมปทั้งหมดของยีนที่กำหนดให้เราพิจารณาเฉพาะผู้ที่มีความคุ้มครอง cDNA> 75% และมีการ> ลำดับบัตร 99% เป็นลำดับจีโนมแล้วเรียงที่กำหนดโดย (จำนวนขีด) * (คุ้มครอง cDNA) และ ในที่สุดก็ใช้เวลาทำแผนที่เป็นครั้งแรกในชุดเรียงลำดับ.
ส่วนโปรโมเตอร์แต่ละคนได้แมปกับการชุมนุมของจีโนมที่สอดคล้องกันโดยใช้ BLAT ตอนเหนือ ขยายลำดับเว็บไซต์ที่ไม่น่าสงสัยแมปไปยังภูมิภาคโปรโมเตอร์ของยีน Transfac ข้อเขียนถูกเก็บไว้ สำหรับเว็บไซต์ที่มีผลผูกพัน Transfac แต่ละแมป, การทำแผนที่ยีนปลายน้ำที่ใกล้ที่สุดอยู่และบันทึก GeneLynx บรรจุที่ cDNA ดึง cDNAs กับคู่ ortholog เมาส์ของมนุษย์ที่กำหนดไว้ใน GeneLynx Mouse [46] ฐานข้อมูลถูกเก็บไว้.
สำหรับคู่ของลำดับดีเอ็นเอระบุดังนั้นลำดับจีโนมซึ่งประกอบไปด้วยการแมปที่เป็นตัวแทนมาสกัดและสอดคล้องโดยใช้ BLASTZ [47] (การตั้งค่าเริ่มต้น) สำหรับคู่แต่ละลำดับสอดคล้องครอบคลุมการจัดตำแหน่งและความคล้ายคลึงกันในโครงสร้างของยีนตามที่ระบุโดยแมปได้รับการประเมินด้วยตนเองเพื่อเลือกไม่เกินหนึ่งภูมิภาค orthologous ต่อเริ่มต้น TFBS-cDNA-GeneLynx ระบุ 'แฝด' คู่โปรโมเตอร์ภูมิภาคสอดคล้องกับ 1,000 bp ต้นน้ำของเว็บไซต์ที่มีผลผูกพันและ 100
bp เป็นเอกซ์ซอนครั้งแรกที่ถูกสกัดโดยใช้การจัดตำแหน่ง BLASTZ เป็นข้อมูลอ้างอิง.
กิตติกรรมประกาศ
โครงการนี้ได้รับการสนับสนุนโดยเงินทุนจากสถาบัน Karolinska และ Pharmacia คอร์ปอเรชั่น
การแปล กรุณารอสักครู่..