The implementation of a data warehouse that incorpo-
rates the best features of the MapReduce model - scalability
and fault tolerance - is the goal of several research, eg [30]
and [1]. However, the process remains the same. Assuming
a star schema data warehouse, with a fact table F F and
four dimensions D1, D2, D3, D4. With the distributed file
system HDFS, all the data in the data warehouse are split
into blocks of fixed size and stored on Datanodes. The block
size is configurable and defaults to 64MB. So there will be
F Fi, D1j, D2k, D3m and D4n blocks in the file system.
The integers (i, j, k, m, n) depends on the size of each ta-
ble: F F, D1, D2, D3, D4 respectively. By default, the data
placement policy of HDFS tries to balance load by placing
blocks randomly on the Datanodes. This default data place-
ment policy of HDFS arbitrarily places partitions across the
cluster so that mappers often have to read the correspond-
ing partitions from remote nodes. This causes a high data
shuffling costs and network overhead when querying step.
For the vast majority of OLAP cube-based queries, there
are four basic steps: Select measures and dimension at-
tributes; Join the cube and dimension views; Apply measure
นำข้อมูลคลังสินค้า incorpo ที่-จุดเด่นของรุ่น MapReduce - ขนาดราคาพิเศษและยอมรับข้อบกพร่อง - เป็นเป้าหมายของการวิจัยหลาย เช่น [30]และ [1] อย่างไรก็ตาม การยังคงเหมือนเดิม สมมติว่าแผนดาวข้อมูลคลังสินค้า มีตารางความจริง F F และสี่มิติง 1, D2 ดี 3, D4 มี file กระจายแบ่งระบบ HDFS ข้อมูลทั้งหมดในคลังข้อมูลเป็นบล็อกขนาด fixed และ Datanodes จัดเก็บไว้ใน บล็อคมีขนาด configurable และค่า 64 เมกะไบต์ ดังนั้น จะมีสาย F, D1j, D2k, D3m และ D4n บล็อกในระบบ fileจำนวนเต็ม (ฉัน j, k, m, n) ขึ้นอยู่กับขนาดของแต่ละตา-ble: F F ง 1, D2 ดี 3, D4 ตามลำดับ โดยค่าเริ่มต้น ข้อมูลวางนโยบายของ HDFS พยายามที่จะสมดุลการโหลด โดยการทำบล็อกแบบสุ่มในการ Datanodes นี้เริ่มต้นข้อมูลสถาน-ติดขัดนโยบายของ HDFS โดยพาร์ทิชันต่าง ๆคลัสเตอร์ที่ mappers มักอ่าน correspond-บริษัทพาร์ติชันจากโหนระยะไกล ทำให้ข้อมูลสูงshuffling ทุนและเครือข่ายเมื่อสอบถามค่าใช้จ่ายในขั้นตอนการสำหรับส่วนใหญ่ของ OLAP cube โดยใช้แบบสอบถาม มีมีสี่ขั้นตอนพื้นฐาน: เลือกหน่วยวัด และมิติที่-tributes รวมมุมมองลูกบาศก์และมิติ ใช้วัด
การแปล กรุณารอสักครู่..

การดำเนินการของคลังข้อมูลที่ incorpo-
อัตราคุณสมบัติที่ดีที่สุดของรูปแบบ MapReduce - ขยายขีดความสามารถ
และความอดทนความผิด - เป็นเป้าหมายของการวิจัยหลายเช่น [30]
และ [1] แต่กระบวนการยังคงเหมือนเดิม สมมติว่า
คลังข้อมูลสคีดาวกับความเป็นจริง FF โต๊ะและ
สี่มิติ D1, D2, D3, D4 ด้วย le ไฟกระจาย
ระบบ HDFS ข้อมูลทั้งหมดที่อยู่ในคลังข้อมูลจะแบ่ง
เป็นบล็อกที่มีขนาดคงที่และเก็บไว้ใน Datanodes บล็อก
ขนาด gurable Fi ปรับอากาศและเริ่มต้นที่ 64MB ดังนั้นจะมี
. F Fi, D1j, D2K, D3M และ D4N บล็อกในระบบไฟ le
จำนวนเต็ม (i, J, K, M, N) ขึ้นอยู่กับขนาดของแต่ละ ta-
เบิ้ล: FF, D1, D2, D3 , D4 ตามลำดับ โดยค่าเริ่มต้นข้อมูล
นโยบายการจัดวาง HDFS พยายามที่จะรักษาความสมดุลในการโหลดโดยการวาง
บล็อกสุ่มใน Datanodes ข้อมูลเริ่มต้นนี้ Place-
นโยบาย ment ของ HDFS พลสถานที่พาร์ทิชันทั่ว
คลัสเตอร์เพื่อให้ทำแผนที่คนมักจะมีการอ่าน correspond-
พาร์ทิชันไอเอ็นจีจากโหนดระยะไกล นี้ทำให้ข้อมูลสูง
Shu FFL ing ค่าใช้จ่ายและค่าใช้จ่ายในเครือข่ายเมื่อสอบถามขั้นตอน.
สำหรับส่วนใหญ่ของแบบสอบถามก้อนตาม OLAP มี
สี่ขั้นตอนพื้นฐาน: เลือกมาตรการและมิติ AT-
บรรณาการ; เข้าร่วมก้อนและมุมมองมิติ; สมัครวัด
การแปล กรุณารอสักครู่..

การดำเนินงานของคลังข้อมูลที่ incorpo -
ราคาคุณลักษณะที่ดีที่สุดของ mapreduce รูปแบบใหม่และความอดทน - -
ผิดเป็นเป้าหมายของการวิจัยหลาย ๆเช่น [ 30 ]
และ [ 1 ] อย่างไรก็ตามกระบวนการยังคงเหมือนเดิม สมมติว่า
โกดัง Star schema ข้อมูลที่มีความเป็นจริงตาราง F F
4 มิติ D1 , D2 , D3 , D4 . ด้วยระบบ hdfs กระจายจึงเลอ
,ข้อมูลทั้งหมดในคลังข้อมูลจะแยก
ลงในบล็อกของจึง xed ขนาดและเก็บไว้ใน datanodes . บล็อก
ขนาดคอน จึง gurable 64MB และค่าเริ่มต้น . ดังนั้นจะมี
F Fi d1j d2k d3m , , และบล็อก d4n จึงเลอระบบ .
จำนวนเต็ม ( I , J , K , M , N ) ขึ้นอยู่กับขนาดของแต่ละตา -
ble : F F , D1 , D2 , D3 , D4 ตามลำดับ โดยค่าเริ่มต้น , ข้อมูล
นโยบายการ hdfs พยายามที่จะสมดุลโหลดโดยการวางบล็อกแบบสุ่มบน datanodes
. นี้เริ่มต้นข้อมูลสถานที่ -
ment นโยบายของ hdfs ตามอำเภอใจที่พาร์ทิชันในกลุ่มเพื่อให้ mappers
มักจะต้องอ่านเหมือนกัน -
ไอเอ็นจีพาร์ทิชันจากระยะไกลโหนด สาเหตุนี้เป็นข้อมูล
สูงชูfflไอเอ็นจีค่าใช้จ่ายและค่าใช้จ่ายของเครือข่ายเมื่อสอบถามขั้นตอน .
สำหรับส่วนใหญ่ของก้อน OLAP ตามแบบสอบถาม มี
เป็นสี่ขั้นตอนพื้นฐาน : เลือกมาตรการและมิติที่ -
บรรณาการ รวมก้อนและมิติมุมมอง ใช้วัด
การแปล กรุณารอสักครู่..
