3.1 Data Storage
We propose a hybrid (row-column) two-layered cloud-enabled data storage structure. Each of these layers is designed to store a special set of DICOM attributes. For that, we decompose DICOM attributes into three categories: (1) Mandatory/frequently used attributes (2) frequently accessed together attributes; and (3) optional/private attributes. Then, we propose the most appropriate layer to store each of them. We link these two layers by creating an internal unique identifier (row-id) that allows us to reconstruct our DICOM files. Both layers are cloud-based, which ensures the elasticity and fault tolerance (e.g. GFS [16] stores automatically several copies of data on geographically separated areas, so a server crash is not a problem). As a consequence, that will ensure the needed availability of medical data at any time. Another important aspect is the pay-per-use feature. A good level of normalization of our data and the choice of the appropriate cloud-enabled storage system for each layer could reduce enormously the storage cost.
3.1.1 Row-oriented layer:
We propose to store mandatory/frequently used attributes and the frequently accessed together attributes (e.g. patient name, birthdate) in a row-oriented database. As a result, we improve the query execution time, by minimizing the tuple reconstruction time for the attributes that are frequently accessed together. The advantage of this layer is its write-optimized feature (each tuple insertion in row-oriented databases needs one disk block I/O for insertion alone). Thus, having a lot of inserts over this layer will not be challenging. For example, if we have one thousand DICOM files, there will be one thousand inserts in this layer (for the mandatory attributes such as study date). Since we store the frequently used attributes in this layer, daily queries access mostly this layer. Sharded DB, like Azure or RDS, is candidate solution for such a layer. However, in order to reduce cost and have a more scalable solution, our current study focus on shared nothing MapReduce based approaches like Pig, Hive or Jaql.
3.1.2 Column-Oriented Layer
Optional/private attributes vary enormously from one medical file/center to another. For this highly heterogeneous attributes we propose storing them in column-oriented databases. Only non-null attributes values will be inserted into their corresponding columns (which improves significantly the performance). Therefore, this model copes perfectly with our heterogeneous data. This layer offers the ability to perform efficiently ad-hoc queries since column-oriented databases are OLAP-optimized. Additionally, it provides a good solution for the evolutive schema issue, since each column is stored in a separate disk block, so adding new columns is not challenging. Attributes stored in this layer are less frequently accessed together, so we minimize the result reconstruction time. Examples of possible implementation are BigTable, Cassandra, Vertica, HBase, and HyperTable. In fact, the high cost and proprietary features of Vertica and BigTable and the OLTP workload orientation of Cassandra lead us to focus on the other systems (HBase, HyperTable).
3.1.3 Column Mover
Our proposal includes a column mover, the column mover is a process that moves (when necessary) some attributes from the row layer to the column layer and vise versa according to: DICOM's evolutive schema, the previous queries and the data (for example optional attributes initially stored in the column layer which are in practice used in most of files can be moved to the row level). This process can be performed periodically (i.e. each month) to maintain the best distribution of attributes over this structure. The implementation of this process includes some important issues such as determining when to execute this process (ideally at off-peak time), under which conditions, and how to treat currently running and incoming queries while executing this process.
กระเป๋า 3.1 ข้อมูล
เรานำเสนอไฮบริด ( คอลัมน์แถว 2 ชั้นเมฆเปิดการใช้งานของโครงสร้างการจัดเก็บข้อมูล แต่ละชั้นเหล่านี้ถูกออกแบบมาเพื่อเก็บชุดของลักษณะพิเศษธรรมดา . การที่เราแยกคุณลักษณะ DICOM เป็นสามประเภท : ( 1 ) ข้อบังคับ / คุณลักษณะที่ใช้บ่อย ( 2 ) บ่อยเข้าด้วยกันคุณลักษณะ และ ( 3 ) เลือก / ส่วนบุคคลคุณลักษณะ จากนั้นเราเสนอชั้นเหมาะสมมากที่สุดเพื่อเก็บแต่ละของพวกเขา เราเชื่อมโยงทั้งสองชั้น โดยสร้างภายในระบุที่ไม่ซ้ำกัน ( แถว ID ) ที่ช่วยให้เราสามารถสร้างไฟล์ DICOM ของเรา ทั้งสองชั้นมีเมฆตาม , ซึ่งช่วยให้ความยืดหยุ่นและทนทานต่อความผิดพลาด ( เช่น GFS [ 16 ] ร้านค้าสำเนาหลายโดยอัตโนมัติของข้อมูลทางภูมิศาสตร์แยกพื้นที่ ดังนั้นเซิร์ฟเวอร์ล้มเหลวไม่เป็นปัญหา )โดยผลที่จะให้แน่ใจว่าต้องการความพร้อมของข้อมูลทางการแพทย์ที่เวลาใด ๆ สำคัญอีกแง่มุมคือจ่ายต่อการใช้งานคุณลักษณะ ระดับที่ดีของการฟื้นฟูของข้อมูลและทางเลือกของเมฆที่เหมาะสมของเราเปิดใช้งานระบบจัดเก็บสำหรับแต่ละชั้นสามารถลดต้นทุนมหาศาลเก็บแถวชั้น :
3.1.1 มุ่งเน้นเราขอเสนอให้ร้านค้าข้อบังคับ / ใช้บ่อยคุณลักษณะและบ่อยเข้าด้วยกันคุณลักษณะ ( เช่น ผู้ป่วยชื่อ วันเดือนปีเกิด ) ในแถวเชิงฐานข้อมูล เป็นผลให้เราปรับปรุงแบบสอบถามการเวลา โดยลดเวลาในการฟื้นฟู tuple สำหรับแอตทริบิวต์ที่เป็นบ่อย ๆ เข้าด้วยกันข้อดีของชั้นนี้คือการเพิ่มคุณสมบัติ ( เขียนแทรกในแต่ละทูเปิลแถวเชิงฐานข้อมูลความต้องการหนึ่งบล็อกดิสก์ I / O สำหรับการแทรกคนเดียว ) ดังนั้น มีแทรกผ่านชั้นนี้จะไม่ได้เป็นเรื่องที่ท้าทาย ตัวอย่างเช่น ถ้าเราได้หนึ่งพัน DICOM ไฟล์ จะมีหนึ่งพันแทรกในชั้นนี้ ( ในลักษณะบังคับ เช่น วันเรียน )เนื่องจากเราเก็บบ่อยใช้แอตทริบิวต์ในชั้นนี้ ถามทุกวัน เข้าถึงส่วนใหญ่ชั้นนี้ sharded DB เช่นสีฟ้าหรือ RDS , ผู้สมัคร โซลูชั่น เช่นชั้น อย่างไรก็ตาม เพื่อลดต้นทุน และมีโซลูชั่นที่ยืดหยุ่นมากขึ้น มุ่งเน้นการศึกษาของเราในปัจจุบันตามแนวทางร่วมกัน mapreduce ไม่มีอะไรเหมือนหมู รังผึ้ง หรือ jaql .
แนวคอลัมน์ดาวน์โหลดชั้นเลือก / ส่วนบุคคลคุณลักษณะแตกต่างอย่างมากจากไฟล์ / ศูนย์การแพทย์อื่น นี้ขอข้อมูลแอตทริบิวต์เราเสนอคอลัมน์ที่มุ่งเน้นและจัดเก็บไว้ในฐานข้อมูล แต่ไม่ใช่ null แอตทริบิวต์จะถูกแทรกลงในคอลัมน์ที่สอดคล้องกันของพวกเขา ( ซึ่งจะมีผลต่อประสิทธิภาพ ) ดังนั้นแบบจำลองนี้ copes อย่างสมบูรณ์กับข้อมูลที่แตกต่างกันของเราชั้นนี้มีความสามารถที่จะปฏิบัติงานอย่างมีประสิทธิภาพ Ad - hoc แบบสอบถามตั้งแต่คอลัมน์ฐานข้อมูล OLAP จะมุ่งเน้นให้เหมาะ นอกจากนี้ยังมีทางออกที่ดีสำหรับปัญหาของวิวัฒนาการ เนื่องจากแต่ละคอลัมน์จะถูกเก็บไว้ในบล็อกดิสก์ที่แยกต่างหากเพื่อเพิ่มคอลัมน์ใหม่ที่ไม่ท้าทาย แอตทริบิวต์เก็บไว้ในชั้นนี้จะน้อยกว่าเข้าด้วยกันเราจึงลดผลการฟื้นฟูครั้ง ตัวอย่างของการ bigtable Cassandra , เป็นไปได้ , ฐาน hbase , และ hypertable . ในความเป็นจริงค่าใช้จ่ายสูงและคุณลักษณะที่เป็นกรรมสิทธิ์ของฐาน bigtable และ OLTP และภาระงานปฐมนิเทศของคาสเซนดร้า พาให้เรามุ่งเน้นในระบบอื่น ๆ ( hbase hypertable , )
ข้อเสนอของเรารวมถึงผู้เสนอญัตติ 3.1.3 คอลัมน์คอลัมน์ผู้เสนอญัตติคอลัมน์ ผู้เสนอญัตติ คือ กระบวนการที่เคลื่อนไหวได้ ( เมื่อจำเป็น ) คุณลักษณะบางอย่างจากแถวชั้นคอลัมน์ชั้นปากกาจับของตาม : DICOM เป็นวิวัฒนาการคี , แบบสอบถามก่อนหน้านี้และข้อมูล ( ตัวอย่างเช่นคุณลักษณะตัวเลือกเริ่มต้นเก็บไว้ในคอลัมน์ชั้นซึ่งอยู่ในการปฏิบัติที่ใช้ในส่วนใหญ่ของไฟล์ที่สามารถย้ายไปอยู่ ระดับแถว ) กระบวนการนี้สามารถดำเนินการเป็นระยะ ๆ ( เช่นในแต่ละเดือน ) เพื่อรักษากระจายที่ดีที่สุดของแอตทริบิวต์มากกว่าโครงสร้างนี้ การดำเนินงานของกระบวนการนี้ประกอบด้วยประเด็นที่สำคัญบางอย่าง เช่น การกำหนดเวลาที่จะดำเนินการขั้นตอนนี้ ( นึกคิดในเวลาปิดยอด ) ภายใต้เงื่อนไขและวิธีการรักษาในปัจจุบัน วิ่ง วิ่ง และ สอบถามเข้ามาในขณะที่ดำเนินการขั้นตอนนี้
การแปล กรุณารอสักครู่..
