Abstract
The Protein Data Bank (PDB; http://www.rcsb.org/pdb/ ) is the single worldwide archive of structural data of biological macromolecules. This paper describes the goals of the PDB, the systems in place for data deposition and access, how to obtain further information, and near-term plans for the future development of the resource.
Previous Section
Next Section
Received September 20, 1999; Revised and Accepted October 17, 1999.
Previous Section
Next Section
INTRODUCTION
The Protein Data Bank (PDB) was established at Brookhaven National Laboratories (BNL) (1) in 1971 as an archive for biological macromolecular crystal structures. In the beginning the archive held seven structures, and with each year a handful more were deposited. In the 1980s the number of deposited structures began to increase dramatically. This was due to the improved technology for all aspects of the crystallographic process, the addition of structures determined by nuclear magnetic resonance (NMR) methods, and changes in the community views about data sharing. By the early 1990s the majority of journals required a PDB accession code and at least one funding agency (National Institute of General Medical Sciences) adopted the guidelines published by the International Union of Crystallography (IUCr) requiring data deposition for all structures.
The mode of access to PDB data has changed over the years as a result of improved technology, notably the availability of the WWW replacing distribution solely via magnetic media. Further, the need to analyze diverse data sets required the development of modern data management systems.
Initial use of the PDB had been limited to a small group of experts involved in structural research. Today depositors to the PDB have varying expertise in the techniques of X-ray crystal structure determination, NMR, cryoelectron microscopy and theoretical modeling. Users are a very diverse group of researchers in biology, chemistry and computer scientists, educators, and students at all levels. The tremendous influx of data soon to be fueled by the structural genomics initiative, and the increased recognition of the value of the data toward understanding biological function, demand new ways to collect, organize and distribute the data.
In October 1998, the management of the PDB became the responsibility of the Research Collaboratory for Structural Bioinformatics (RCSB). In general terms, the vision of the RCSB is to create a resource based on the most modern technology that facilitates the use and analysis of structural data and thus creates an enabling resource for biological research. Specifically in this paper, we describe the current procedures for data deposition, data processing and data distribution of PDB data by the RCSB. In addition, we address the issues of data uniformity. We conclude with some current developments of the PDB.
Previous Section
Next Section
DATA ACQUISITION AND PROCESSING
A key component of creating the public archive of information is the efficient capture and curation of the data—data processing. Data processing consists of data deposition, annotation and validation. These steps are part of the fully documented and integrated data processing system shown in Figure 1.
Figure
View larger version:
In this page In a new window
Download as PowerPoint Slide
Figure 1. The steps in PDB data processing. Ellipses represent actions and rectangles define content.
In the present system (Fig. 2), data (atomic coordinates, structure factors and NMR restraints) may be submitted via email or via the AutoDep Input Tool (ADIT; http://pdb.rutgers. edu/adit/ ) developed by the RCSB. ADIT, which is also used to process the entries, is built on top of the mmCIF dictionary which is an ontology of 1700 terms that define the macromolecular structure and the crystallographic experiment (2,3), and a data processing program called MAXIT (MAcromolecular EXchange Input Tool). This integrated system helps to ensure that the data submitted are consistent with the mmCIF dictionary which defines data types, enumerates ranges of allowable values where possible and describes allowable relationships between data values.
Figure
View larger version:
In this page In a new window
Download as PowerPoint Slide
Figure 2. The integrated tools of the PDB data processing system.
After a structure has been deposited using ADIT, a PDB identifier is sent to the author automatically and immediately (Fig. 1, Step 1). This is the first stage in which information about the structure is loaded into the internal core database (see section on the PDB Database Resource). The entry is then annotated as described in the validation section below. This process involves using ADIT to help diagnose errors or inconsistencies in the files. The completely annotated entry as it will appear in the PDB resource, together with the validation information, is sent back to the depositor (Step 2). After reviewing the processed file, the author sends any revisions (Step 3). Depending on the nature of these revisions, Steps 2 and 3 may be repeated. Once approval is received from the author (Step 4), the entry and the tables in the internal core database are ready for distribution. The schema of this core database is a subset of the conceptual schema specified by the mmCIF dictionary.
All aspects of data processing, including communications with the author, are recorded and stored in the correspondence archive. This makes it possible for the PDB staff to retrieve information about any aspect of the deposition process and to closely monitor the efficiency of PDB operations.
Current status information, comprised of a list of authors, title and release category, is stored for each entry in the core database and is made accessible for query via the WWW interface (http://www.rcsb.org/pdb/status.html ). Entries before release are categorized as ‘in processing’ (PROC), ‘in depositor review’ (WAIT), ‘to be held until publication’ (HPUB) or ‘on hold until a depositor-specified date’ (HOLD).
Content of the data collected by the PDB
All the data collected from depositors by the PDB are considered primary data. Primary data contain, in addition to the coordinates, general information required for all deposited structures and information specific to the method of structure determination. Table 1 contains the general information that the PDB collects for all structures as well as the additional information collected for those structures determined by X-ray methods. The additional items listed for the NMR structures are derived from the International Union of Pure and Applied Chemistry recommendations (IUPAC) (4) and will be implemented in the near future.
View this table:
In this window In a new window
Table 1.
Content of data in the PDB
The information content of data submitted by the depositor is likely to change as new methods for data collection, structure determination and refinement evolve and advance. In addition, the ways in which these data are captured are likely to change as the software for structure determination and refinement produce the necessary data items as part of their output. ADIT, the data input system for the PDB, has been designed so as to easily incorporate these likely changes.
Validation
Validation refers to the procedure for assessing the quality of deposited atomic models (structure validation) and for assessing how well these models fit the experimental data (experimental validation). The PDB validates structures using accepted community standards as part of ADIT’s integrated data processing system. The following checks are run and are summarized in a letter that is communicated directly to the depositor:
Covalent bond distances and angles. Proteins are compared against standard values from Engh and Huber (5); nucleic acid bases are compared against standard values from Clowney et al. (6); sugar and phosphates are compared against standard values from Gelbin et al. (7).
Stereochemical validation. All chiral centers of proteins and nucleic acids are checked for correct stereochemistry.
Atom nomenclature. The nomenclature of all atoms is checked for compliance with IUPAC standards (8) and is adjusted if necessary.
Close contacts. The distances between all atoms within the asymmetric unit of crystal structures and the unique molecule of NMR structures are calculated. For crystal structures, contacts between symmetry-related molecules are checked as well.
Ligand and atom nomenclature. Residue and atom nomenclature is compared against the PDB dictionary (ftp://ftp.rcsb. org/pub/pdb/data/monomers/het_dictionary.txt ) for all ligands as well as standard residues and bases. Unrecognized ligand groups are flagged and any discrepancies in known ligands are listed as extra or missing atoms.
Sequence comparison. The sequence given in the PDB SEQRES records is compared against the sequence derived from the coordinate records. This information is displayed in a table where any differences or missing residues are marked. During structure processing, the sequence database references given by DBREF and SEQADV are checked for accuracy. If no reference is given, a BLAST (9) search is used to find the best match. Any conflict between the PDB SEQRES records and the sequence derived from the coordinate records is resolved by comparison with various sequence databases.
Distant waters. The distances between all water oxygen atoms and all polar atoms (oxygen and nitrogen) of the macromolecules, ligands and solvent in the asymmetric unit are calculated. Distant solvent atoms are repositioned using crystallographic symmetry such that they fall within the solvation sphere of the macromolecule.
In almost all cases, serious errors detected by these checks are corrected through annotation and correspondence with the authors.
It is also possible to run these validation checks against structures before they are deposited. A validation s
บทคัดย่อธนาคารข้อมูลโปรตีน (PDB; http://www.rcsb.org/pdb/) คือ การเก็บถาวรทั่วโลกเดียวของข้อมูลโครงสร้างของ macromolecules ทางชีวภาพ เอกสารนี้อธิบายเป้าหมายของ PDB ระบบที่การสะสมข้อมูลเข้า การรับการเพิ่มเติมข้อมูล และ near-term แผนสำหรับอนาคตของทรัพยากรส่วนก่อนหน้านี้ส่วนถัดไป20 กันยายน 1999 ได้รับ ยอมรับ และปรับปรุง 17 ตุลาคม 1999ส่วนก่อนหน้านี้ส่วนถัดไปแนะนำการโปรตีนข้อมูลธนาคาร (PDB) ถูกตั้งขึ้นที่ Brookhaven ชาติปฏิบัติ (BNL) (1) ในปี 1971 เป็นเก็บถาวรสำหรับโครงสร้างผลึก macromolecular ชีวภาพ ในการเริ่มต้นเก็บถาวรจัดโครงสร้าง 7 และแต่ละปีได้หยิบ เพิ่มเติมก็ฝาก ในทศวรรษ 1980 จำนวนโครงสร้างนำฝากเริ่มเพิ่มขึ้นอย่างมาก ซึ่งเกิดจากเทคโนโลยีดีขึ้นทุก ๆ การ crystallographic นอกจากนี้โครงสร้างที่กำหนด โดยวิธีการสั่นพ้องแม่เหล็กนิวเคลียร์ (NMR) และการเปลี่ยนแปลงในมุมมองของชุมชนเกี่ยวกับการใช้ข้อมูลร่วมกัน โดยช่วงปี 1990 ส่วนใหญ่ของสมุดรายวันจำเป็นสำนักงานเงินทุนน้อย (ชาติสถาบันของทั่วไปวิทยาศาสตร์การแพทย์) และรหัสทะเบียน PDB นำแนวทางการเผยแพร่ โดยนานาชาติร่วมของผลิกศาสตร์ (IUCr) ต้องสะสมข้อมูลสำหรับโครงสร้างทั้งหมดมีการเปลี่ยนแปลงโหมดการเข้าถึงข้อมูล PDB ปีจากการปรับปรุงเทคโนโลยี ยวดพร้อมกระจายแทน WWW เท่านั้นผ่านสื่อแม่เหล็ก เพิ่มเติม ต้องวิเคราะห์ชุดข้อมูลมีความหลากหลายต้องการการพัฒนาระบบการจัดการข้อมูลที่ทันสมัยเริ่มต้นใช้ PDB ที่เคยจำกัดผู้เชี่ยวชาญที่เกี่ยวข้องในการวิจัยโครงสร้างขนาดเล็ก วันนี้ depositors เพื่อ PDB มีความเชี่ยวชาญแตกต่างกันในเทคนิคของการกำหนดโครงสร้างของผลึกเอ็กซ์เรย์ NMR, cryoelectron microscopy และแบบจำลองทฤษฎี ผู้ใช้คือ กลุ่มหลากหลายของนักวิจัย ในชีววิทยา เคมีและคอมพิวเตอร์นักวิทยาศาสตร์ นักการศึกษา นักศึกษาทุกระดับชั้น อีกมหาศาลข้อมูลเร็ว ๆ นี้จะสามารถเป็นเชื้อเพลิง โดยการริเริ่มโครงสร้าง genomics และการเพิ่มขึ้นของค่าของข้อมูลต่อการทำความเข้าใจฟังก์ชันชีวภาพ ต้องวิธีใหม่ในการรวบรวม จัดระเบียบ และกระจายข้อมูลในเดือน 2541 ตุลาคม จัดการ PDB กลายเป็น ความรับผิดชอบของงานวิจัย Collaboratory สำหรับโครงสร้าง Bioinformatics (RCSB) ในข้อตกลง วิสัยทัศน์ของการ RCSB คือการ สร้างทรัพยากรตามเทคโนโลยีทันสมัยที่อำนวยความสะดวกในการใช้และการวิเคราะห์โครงสร้างข้อมูล และสร้างทรัพยากรการเปิดใช้งานสำหรับการวิจัยทางชีวภาพดังนั้น โดยเฉพาะในเอกสารนี้ เราอธิบายขั้นตอนปัจจุบันสำหรับการสะสมข้อมูล ประมวลผลข้อมูล และการกระจายข้อมูลของข้อมูล PDB โดย RCSB นอกจากนั้น เราสามารถแก้ไขปัญหาของใจข้อมูล เราสรุป ด้วยบาง PDB พัฒนาปัจจุบันส่วนก่อนหน้านี้ส่วนถัดไปซื้อข้อมูลและประมวลผลส่วนประกอบที่สำคัญของการสร้างเก็บถาวรของสาธารณะของข้อมูลเป็นการจับภาพที่มีประสิทธิภาพและ curation ข้อมูล-การประมวลผลข้อมูล ประมวลผลข้อมูลประกอบด้วยข้อมูลสะสม คำอธิบาย และตรวจสอบ ขั้นตอนเหล่านี้เป็นส่วนหนึ่งของระบบประมวลผลข้อมูลแบบบูรณาการ และเอกสารทั้งหมดที่แสดงในรูปที่ 1รูปดูรูป:ในหน้านี้ในหน้าต่างใหม่ดาวน์โหลดเป็นภาพนิ่ง PowerPointรูปที่ 1 ขั้นตอนในการประมวลผลข้อมูล PDB รูปวงรีหมายถึงการดำเนินการ และสี่เหลี่ยมกำหนดเนื้อหาในปัจจุบันระบบ (Fig. 2), (พิกัดอะตอม โครงสร้างปัจจัย และ NMR restraints) ข้อมูลอาจส่งผ่าน ทางอีเมล์ หรือผ่าน ทางเครื่อง มือป้อน AutoDep (ADIT; http://pdb.rutgers. edu/adit /) โดย RCSB ได้ ADIT ซึ่งยังใช้การประมวลผลรายการ อยู่บนพจนานุกรม mmCIF ซึ่งเป็นภววิทยา 1700 เงื่อนไขที่กำหนดโครงสร้าง macromolecular และทดลอง crystallographic (2,3), และโปรแกรมประมวลผลข้อมูลเรียกว่า MAXIT (MAcromolecular แลกป้อนมือ) ระบบนี้รวมช่วยให้แน่ใจว่า ข้อมูลที่ส่งสอดคล้องกับพจนานุกรม mmCIF ซึ่งกำหนดชนิดข้อมูล ระบุช่วงของค่าที่อนุญาตได้ และอธิบายความสัมพันธ์ได้ระหว่างค่าข้อมูลรูปดูรูป:ในหน้านี้ในหน้าต่างใหม่ดาวน์โหลดเป็นภาพนิ่ง PowerPointรูปที่ 2 เครื่องมือรวมของระบบประมวลผลข้อมูล PDBหลังจากที่ได้รับฝากไว้เป็นโครงสร้างใช้ ADIT รหัส PDB ถูกส่งไปยังผู้เขียนทันที และโดยอัตโนมัติ (Fig. 1 ขั้นตอนที่ 1) โดยระยะแรกที่โหลดข้อมูลเกี่ยวกับโครงสร้างในฐานข้อมูลหลักภายใน (ดูส่วนบนทรัพยากรฐานข้อมูล PDB) รายการจะใส่คำอธิบายประกอบแล้วตามที่อธิบายไว้ในส่วนการตรวจสอบด้านล่าง กระบวนการนี้เกี่ยวข้องกับการใช้ ADIT เพื่อช่วยวินิจฉัยข้อผิดพลาดหรือไม่สอดคล้องกันในแฟ้ม รายการประกอบอย่างสมบูรณ์ ตามที่จะปรากฏในทรัพยากร PDB พร้อมกับตรวจสอบข้อมูล ถูกส่งกลับไปฝาก (ขั้นตอนที่ 2) หลังจากตรวจทานแฟ้มประมวลผล ผู้ส่งแก้ไขใด ๆ (ขั้นตอนที่ 3) ตามธรรมชาติของการปรับปรุงเหล่านี้ ขั้นตอนที่ 2 และ 3 อาจทำซ้ำ เมื่อได้รับอนุมัติจากผู้เขียน (ขั้นตอนที่ 4), รายการและตารางในฐานข้อมูลหลักภายในพร้อมสำหรับการแจกจ่าย Schema ของฐานข้อมูลหลักนี้เป็นเซตย่อยของแบบแผนแนวคิดตามพจนานุกรม mmCIFทุกแง่มุมของการประมวลผลข้อมูล รวมถึงการติดต่อสื่อสารกับผู้เขียน บันทึก และเก็บไว้ในเก็บถาวรที่มีการโต้ตอบ นี้ทำให้ได้พนักงาน PDB เพื่อดึงข้อมูลเกี่ยวกับส่วนหนึ่งส่วนใดของกระบวนการสะสม และ การตรวจสอบประสิทธิภาพของการดำเนินงาน PDB อย่างใกล้ชิดCurrent status information, comprised of a list of authors, title and release category, is stored for each entry in the core database and is made accessible for query via the WWW interface (http://www.rcsb.org/pdb/status.html ). Entries before release are categorized as ‘in processing’ (PROC), ‘in depositor review’ (WAIT), ‘to be held until publication’ (HPUB) or ‘on hold until a depositor-specified date’ (HOLD).Content of the data collected by the PDBAll the data collected from depositors by the PDB are considered primary data. Primary data contain, in addition to the coordinates, general information required for all deposited structures and information specific to the method of structure determination. Table 1 contains the general information that the PDB collects for all structures as well as the additional information collected for those structures determined by X-ray methods. The additional items listed for the NMR structures are derived from the International Union of Pure and Applied Chemistry recommendations (IUPAC) (4) and will be implemented in the near future.View this table:In this window In a new windowTable 1.Content of data in the PDBThe information content of data submitted by the depositor is likely to change as new methods for data collection, structure determination and refinement evolve and advance. In addition, the ways in which these data are captured are likely to change as the software for structure determination and refinement produce the necessary data items as part of their output. ADIT, the data input system for the PDB, has been designed so as to easily incorporate these likely changes.ValidationValidation refers to the procedure for assessing the quality of deposited atomic models (structure validation) and for assessing how well these models fit the experimental data (experimental validation). The PDB validates structures using accepted community standards as part of ADIT’s integrated data processing system. The following checks are run and are summarized in a letter that is communicated directly to the depositor:Covalent bond distances and angles. Proteins are compared against standard values from Engh and Huber (5); nucleic acid bases are compared against standard values from Clowney et al. (6); sugar and phosphates are compared against standard values from Gelbin et al. (7).Stereochemical validation. All chiral centers of proteins and nucleic acids are checked for correct stereochemistry.Atom nomenclature. The nomenclature of all atoms is checked for compliance with IUPAC standards (8) and is adjusted if necessary.Close contacts. The distances between all atoms within the asymmetric unit of crystal structures and the unique molecule of NMR structures are calculated. For crystal structures, contacts between symmetry-related molecules are checked as well.Ligand and atom nomenclature. Residue and atom nomenclature is compared against the PDB dictionary (ftp://ftp.rcsb. org/pub/pdb/data/monomers/het_dictionary.txt ) for all ligands as well as standard residues and bases. Unrecognized ligand groups are flagged and any discrepancies in known ligands are listed as extra or missing atoms.Sequence comparison. The sequence given in the PDB SEQRES records is compared against the sequence derived from the coordinate records. This information is displayed in a table where any differences or missing residues are marked. During structure processing, the sequence database references given by DBREF and SEQADV are checked for accuracy. If no reference is given, a BLAST (9) search is used to find the best match. Any conflict between the PDB SEQRES records and the sequence derived from the coordinate records is resolved by comparison with various sequence databases.Distant waters. The distances between all water oxygen atoms and all polar atoms (oxygen and nitrogen) of the macromolecules, ligands and solvent in the asymmetric unit are calculated. Distant solvent atoms are repositioned using crystallographic symmetry such that they fall within the solvation sphere of the macromolecule.
In almost all cases, serious errors detected by these checks are corrected through annotation and correspondence with the authors.
It is also possible to run these validation checks against structures before they are deposited. A validation s
การแปล กรุณารอสักครู่..
