Around HDFS and MapReduce there are tens of projects
which cannot be presented in detail here. Those projects can
be classified according to their capabilities:
• Storage and Management Capability
– Cloudera Manager8
: an end-to-end management application
for Cloudera’s Distribution of Apache Hadoop.
– RCFile (Record Columnar File) [24], a data placement structure
for structured data. Here, tables are vertically and
horizontally partitioned, lazily compressed. It is an efficient
storage structure which allows fast data loading
and query processing.
• Database Capability:
– Oracle NoSQL a high performance pair
database convenient for non-predictive and dynamic
data thus for Big Data;
– Apache HBase a distributed, column-oriented database
management system, modeled on Google’s Big Table
[10], that runs on top of HDFS [11,12,15];
– Apache Cassandra a database which combines the
convenience of column-indexes and the performance of
log-structured updates;
– Apache Hive can be seen as a distributed data warehouse
[15]. It enables easy data ETL from HDFS or
other data storage like HBase [11,15] or other traditional
DBMS [25]. It has the advantage of using a SQL-like syntax,
the Hive QL;
– Apache ZooKeeper is “an open-source, in-memory, distributed
NoSQL database” [3, page 69] that is used for
coordination and naming services for managing distributed
applications [3,12,11,15].
• Processing Capability
– Pig which is intended to allow people using Hadoop to
focus more on analyzing large datasets and thus
spend less time having to write mapper and reducer
programs [11,12];
– Chukwa which is a data collection system for monitoring
large distributed systems [26,15];
– Oozie which is a open-source tool for handling complex
pipelines of data processing [12,3,11]. Using Oozie, users
can define actions and dependencies between them and
it will schedule them without any intervention [11].
• Data Integration Capability
– Apache Sqoop: a tool designed for transferring data from
a relational database directly into HDFS or into Hive
[12,18]. It automatically generates classes needed to
import data into HDFS after analyzing the schema’s
tables; then the reading of tables’ contents is a parallel
MapReduce job;
– Flume is a distributed, reliable, and available service
for efficiently collecting, aggregating, and moving large
amounts of log data. It is designed to import streaming
data flows [12,27].
HDFS และ MapReduce มีหลายสิบโครงการซึ่งไม่สามารถนำเสนอในรายละเอียดที่นี่ โครงการเหล่านั้นสามารถจำแนกตามความสามารถ:•จัดเก็บข้อมูลและความสามารถในการจัดการ– Cloudera Manager8: โปรแกรมประยุกต์การจัดการสิ้นสุดเพื่อสิ้นสุดสำหรับการกระจายของ Cloudera ของ Apache Hadoop-RCFile (บันทึกคอลัมน์แฟ้ม) [24], "โครงสร้างการจัดวางข้อมูลสำหรับโครงสร้างข้อมูล ที่นี่ ตารางเป็นแนวตั้ง และแบ่งตามแนวนอน มูมบีบอัด มีประสิทธิภาพโครงสร้างการจัดเก็บซึ่งช่วยให้การโหลดข้อมูลเร็วและการประมวลผลแบบสอบถาม•ความสามารถฐานข้อมูล:– Oracle NoSQL ประสิทธิภาพสูง คู่ฐานข้อมูลที่สะดวกไม่ใช่ทำนาย และแบบไดนามิกข้อมูลดังนั้นข้อมูล– HBase Apache กระจาย แนวคอลัมน์ฐานข้อมูลระบบการจัดการ จำลองบนโต๊ะขนาดใหญ่ของ Google[10], ที่ทำงานบน HDFS [11,12,15];– นี่ Apache ฐานข้อมูลซึ่งรวมการคอลัมน์ดัชนีและประสิทธิภาพของการปรับปรุงโครงสร้างบันทึก– กลุ่ม Apache สามารถมองเห็นเป็นคลังข้อมูลกระจาย[15] ช่วยให้ข้อมูลง่าย ๆ ETL จาก HDFS หรือการจัดเก็บข้อมูลอื่น ๆ เช่น HBase [11,15] หรืออื่น ๆ แบบดั้งเดิมDBMS [25] มีประโยชน์ของการใช้ไวยากรณ์ SQL เหมือนกลุ่ม QL– Apache ZooKeeper คือ "การเปิดแหล่ง ในหน่วยความจำ กระจาย"ฐานข้อมูล NoSQL [3 หน้า 69] ที่ใช้สำหรับประสานงานและบริการตั้งชื่อสำหรับการจัดการกระจายการใช้งาน [3,12,11,15]•ความสามารถในการประมวลผล– หมูซึ่งมีวัตถุประสงค์เพื่อให้คนใช้ Hadoop เพื่อมุ่งเน้นเพิ่มเติมเกี่ยวกับการวิเคราะห์ชุดข้อมูลขนาดใหญ่และใช้เวลาน้อยลงการแมปและลดโปรแกรม [11, 12];– Chukwa ซึ่งเป็นระบบเก็บข้อมูลสำหรับการตรวจสอบระบบกระจายขนาดใหญ่ [26,15];– Oozie ซึ่งเป็นเครื่องมือเปิดแหล่งสำหรับการจัดการที่ซับซ้อนท่อของการประมวลผลข้อมูล [12,3,11] ใช้ Oozie ผู้ใช้สามารถกำหนดดำเนินการและการอ้างอิงระหว่างกัน และมันจะกำหนดเวลาไว้โดยใด ๆ [11]•ความสามารถในการรวมข้อมูล– Apache Sqoop: เครื่องมือออกแบบมาสำหรับการถ่ายโอนข้อมูลจากฐานข้อมูลเชิงสัมพันธ์โดยตรงลง ใน HDFS หรือ ในกลุ่ม[12,18] การสร้างคลาสที่จำเป็นในการนำเข้าข้อมูลลงใน HDFS หลังจากวิเคราะห์แบบแผนตาราง อ่านสารบัญตาราง เป็น คู่ขนานงาน MapReduce– กระจาย เชื่อถือได้ และมีบริการรับไลเดอร์เก็บรวบรวมได้อย่างมีประสิทธิภาพ รวม และย้ายใหญ่จำนวนแฟ้มบันทึก การนำเข้าการส่งกระแสข้อมูลกระแสข้อมูล [12,27]
การแปล กรุณารอสักครู่..
บริเวณใกล้เคียงและ HDFS MapReduce มีหลายสิบโครงการ
ที่ไม่สามารถนำเสนอในรายละเอียดที่นี่ โครงการเหล่านั้นสามารถ
จำแนกตามความสามารถของตน: •การจัดเก็บข้อมูลและความสามารถในการบริหารจัดการ- Cloudera Manager8 : การประยุกต์ใช้การจัดการแบบ end-to-end สำหรับการจัดจำหน่าย Cloudera ของ Apache Hadoop. - RCFile (Record ไฟล์ Columnar) [24], โครงสร้างการจัดวางข้อมูลสำหรับ ข้อมูลที่มีโครงสร้าง ที่นี่จะมีตารางในแนวตั้งและแนวนอนแบ่งพาร์ติชันที่ถูกบีบอัดอย่างเฉื่อยชา มันเป็นที่มีประสิทธิภาพโครงสร้างการจัดเก็บซึ่งจะช่วยให้การโหลดข้อมูลได้อย่างรวดเร็วและการประมวลผลแบบสอบถาม. •ความสามารถในฐานข้อมูล: - Oracle NoSQL ที่มีประสิทธิภาพสูง
คู่
ฐานข้อมูลที่สะดวกสำหรับการที่ไม่ได้คาดการณ์และแบบไดนามิก
ข้อมูลดังนั้นสำหรับข้อมูลขนาดใหญ่;
- Apache HBase กระจายฐานข้อมูลคอลัมน์ที่มุ่งเน้น
ระบบการบริหารจัดการในรูปแบบตารางใหญ่ของ Google
[10], ที่ทำงานอยู่ด้านบนของ HDFS [11,12,15] ;
- Apache Cassandra ฐานข้อมูลซึ่งรวม
ความสะดวกสบายของคอลัมน์ดัชนีและประสิทธิภาพการทำงานของ
การปรับปรุงเข้าสู่ระบบโครงสร้าง
- Apache Hive สามารถมองเห็นเป็นคลังข้อมูลกระจาย
[15] ซึ่งจะช่วยให้ ETL ข้อมูลได้ง่ายจาก HDFS หรือ
การจัดเก็บข้อมูลอื่น ๆ เช่น HBase [11,15] หรือแบบดั้งเดิมอื่น ๆ
DBMS [25] มันมีความได้เปรียบของการใช้แบบ SQL ไวยากรณ์ที่
รัง QL;
- Apache ZooKeeper คือ "โอเพนซอร์สในหน่วยความจำกระจาย
NoSQL ฐานข้อมูล" [3, หน้า 69] ที่ใช้สำหรับการ
ประสานงานและการตั้งชื่อบริการสำหรับการจัดการ การกระจาย
การใช้งาน [3,12,11,15]. •ความสามารถในการประมวลผล- หมูซึ่งมีวัตถุประสงค์เพื่อให้ผู้ที่ใช้ Hadoop ที่จะมุ่งเน้นที่การวิเคราะห์ชุดข้อมูลขนาดใหญ่และทำให้ใช้เวลาน้อยลงต้องเขียน mapper และลดโปรแกรม [11,12]; - Chukwa ซึ่งเป็นระบบการเก็บรวบรวมข้อมูลสำหรับการตรวจสอบระบบการกระจายขนาดใหญ่ [26,15]; - Oozie ซึ่งเป็นเครื่องมือที่เปิดแหล่งที่มาสำหรับการจัดการที่ซับซ้อนท่อของการประมวลผลข้อมูล [12,3,11] ใช้ Oozie ผู้ใช้สามารถกำหนดการกระทำและการพึ่งพาระหว่างพวกเขาและมันจะกำหนดให้พวกเขาโดยปราศจากการแทรกแซงใด ๆ [11]. •บูรณาการข้อมูลความสามารถ- Apache Sqoop: เครื่องมือที่ออกแบบมาสำหรับการถ่ายโอนข้อมูลจากฐานข้อมูลเชิงสัมพันธ์โดยตรงใน HDFS หรือเข้าไปในรัง[12, 18] โดยจะสร้างการเรียนที่จำเป็นเพื่อนำเข้าข้อมูลลง HDFS หลังจากการวิเคราะห์คีมาของตาราง; แล้วอ่านเนื้อหาตาราง 'เป็นคู่ขนานงาน MapReduce; - ไลเดอร์เป็นบริการกระจายและเชื่อถือได้และสามารถใช้งานได้อย่างมีประสิทธิภาพสำหรับการเก็บรวบรวมการรวมและการเคลื่อนย้ายที่มีขนาดใหญ่ปริมาณของข้อมูลเข้าสู่ระบบ มันถูกออกแบบมาเพื่อนำเข้าสตรีมมิ่งข้อมูลไหล [12,27]
การแปล กรุณารอสักครู่..