There are various tools which can b

There are various tools which can be used in Big Data management from data acquisition to data analysis. Most of these tools are parts of Apache projects and are constructed around the famous Hadoop. Written in Java and created by Doug Cutting, Hadoop brings the ability to cheaply process large amounts of data, regardless of its structure [12]. Hadoop is made up of two core projects: Hadoop Distributed File System (HDFS) and MapReduce.
HDFS. HDFS is a distributed file system designed to run on large clusters of commodity hardware based on Google File System (GFS) [15,16,3]. Shvachko et al. [17, page 1] add HDFS strengths in their definition when saying it “is designed to store very large datasets reliably, and to stream those datasets at high bandwidth to user applications”. By large, we mean from 10 to 100 GB and above [12,16]. While the interface to HDFS is patterned after the UNIX file system, it trades off some POSIX requirements for performance [17,15,16]. HDFS is dedicated to batch processing rather than interactive use by users [16,12]. In HDFS applications, files are written once and accessed many times [16,18]; consequently data coherency is ensured and data are accessed in high throughput [16]. With HDFS file system metadata are stored in a dedicated server, the NameNode, and the application data in other servers called DataNodes. Except for processing large datasets, HDFS has many other goals whose major is to detect and handle failures at the application layer. This objective is realized through a well-organized mechanism of replication where files are divided into blocks. Each block is replicated on a number of datanodes; all the datanodes containing a replica of a block are not located in the same rack.
MapReduce. Originally put in place by Google to solve the web search index creation problem [12], MapReduce is nowa- days the main programming model and associated imple- mentation for processing and generating large datasets [19]. The input data format in MapReduce framework is application- specific, is specified by the user [20] and is suitable for semi- structured or unstructured data. The MapReduce’s output is a set of pairs. The name “MapReduce” expresses the fact that users specify an algorithm using two kernel functions: “Map” and “Reduce”. The Map function is applied on the input data and produces a list of intermediate pairs; and the Reduce function merges all intermediate val- ues associated with the same intermediate key [19] [20]. In a Hadoop cluster, a job (i.e a MapReduce program [11]) is ex- ecuted by subsequently breaking it down into pieces called tasks. When a node in Hadoopcluster receives a job, it is able to divide it, and run it in parallel over other nodes [12]. Here the data location problem is solved by the JobTracker which communicates with the NameNode to help datanodes to send tasks to near-data datanodes. Let us note that this processing in form of pairs is not a limitation to processing which does not seem, at first glance, feasible in map-reduce manner. Indeed, MapReduce has been successfully used in RDF/RDFS and OWL reasoning [21,22] and in struc- tured data querying [23].

• Storage and Management Capability
– Cloudera Manager8: an end-to-end management applica- tion for Cloudera’s Distribution of Apache Hadoop.
– RCFile (Record Columnar File) [24], a data placement struc- ture for structured data. Here, tables are vertically and horizontally partitioned, lazily compressed. It is an effi- cient storage structure which allows fast data loading and query processing.
• Database Capability:
– Oracle NoSQL a high performance pair database convenient for non-predictive and dynamic data thus for Big Data;
– Apache HBase a distributed, column-oriented database management system, modeled on Google’s Big Table [10], that runs on top of HDFS [11,12,15];
– Apache Cassandra a database which combines the convenience of column-indexes and the performance of log-structured updates;
– Apache Hive can be seen as a distributed data ware- house [15]. It enables easy data ETL from HDFS or other data storage like HBase [11,15] or other traditional DBMS [25]. It has the advantage of using a SQL-like syn- tax, the Hive QL;
– Apache ZooKeeper is “an open-source, in-memory, dis- tributed NoSQL database” [3, page 69] that is used for coordination and naming services for managing dis- tributed applications [3,12,11,15].
• Processing Capability
– Pig which is intended to allow people using Hadoop to focus more on analyzing large datasets and thus spend less time having to write mapper and reducer programs [11,12];
– Chukwa which is a data collection system for monitoring large distributed systems [26,15];
– Oozie which is a open-source tool for handling complex pipelines of data processing [12,3,11]. Using Oozie, users can define actions and dependencies between them and it will schedule them without any intervention [11].

• Storage and Management Capability
– Cloudera Manager8: an end-to-end management applica- tion for Cloudera’s Distribution of Apache Hadoop.
– RCFile (Record Columnar File) [24], a data placement struc- ture for structured data. Here, tables are vertically and horizontally partitioned, lazily compressed. It is an effi- cient storage structure which allows fast data loading and query processing.
• Database Capability:
– Oracle NoSQL a high performance  pair database convenient for non-predictive and dynamic data thus for Big Data;
– Apache HBase a distributed, column-oriented database management system, modeled on Google’s Big Table [10], that runs on top of HDFS [11,12,15];
– Apache Cassandra a database which combines the convenience of column-indexes and the performance of log-structured updates;
– Apache Hive can be seen as a distributed data ware- house [15]. It enables easy data ETL from HDFS or other data storage like HBase [11,15] or other traditional DBMS [25]. It has the advantage of using a SQL-like syn- tax, the Hive QL;
– Apache ZooKeeper is “an open-source, in-memory, dis- tributed NoSQL database” [3, page 69] that is used for coordination and naming services for managing dis- tributed applications [3,12,11,15].
• Processing Capability
– Pig which is intended to allow people using Hadoop to focus more on analyzing large datasets and thus spend less time having to write mapper and reducer programs [11,12];
– Chukwa which is a data collection system for monitoring large distributed systems [26,15];
– Oozie which is a open-source tool for handling complex pipelines of data processing [12,3,11]. Using Oozie, users can define actions and dependencies between them and it will schedule them without any intervention [11].

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

มีเครื่องมือต่าง ๆ ที่ใช้ในการจัดการข้อมูลขนาดใหญ่จากข้อมูลการวิเคราะห์ข้อมูล ส่วนใหญ่ของเครื่องมือเหล่านี้เป็นส่วนหนึ่งของโครงการ Apache และสร้างรอบ Hadoop มีชื่อเสียง เขียนใน Java และสร้างขึ้น โดยแอนดรูตัด Hadoop นำความสามารถในการซื้อจำนวนมากของข้อมูล โดยไม่คำนึงถึงโครงสร้างของ [12] Hadoop ขึ้นเป็นโครงการหลักที่สอง: Hadoop กระจายแฟ้มระบบ (HDFS) และ MapReduceHDFS HDFS เป็นระบบแฟ้มที่แจกจ่ายเพื่อเรียกใช้บนคลัสเตอร์ขนาดใหญ่ของสินค้าฮาร์ดแวร์ที่ใช้ในแฟ้มระบบ Google (GFS) [15,16,3] Shvachko ร้อยเอ็ด [17, 1 หน้า] เพิ่มว่า มัน "ถูกออกแบบมา เพื่อจัดเก็บชุดข้อมูลขนาดใหญ่มากได้ การสตรีมที่ datasets ที่แบนด์วิธสูงการใช้งานผู้ใช้" จุดแข็ง HDFS ในคำนิยามของ โดยใหญ่ เราเสมอตั้งแต่ 10 100 GB และ มากกว่า [12,16] ในขณะที่อินเตอร์เฟซที่จะ HDFS เป็นลวดลายหลังจากระบบไฟล์ของ UNIX มันเทรดออกข้อกำหนดบางอย่าง POSIX ประสิทธิภาพ [17,15,16] HDFS ทุ่มเทให้ชุดงานใช้การประมวลผล มากกว่าแบบโต้ตอบผู้ใช้ [16,12] ในการใช้งาน HDFS แฟ้มจะถูกเขียนครั้งเดียวและเข้าถึงเวลา [16,18]; ดังนั้นข้อมูลความมั่นใจ และมีการเข้าถึงข้อมูลในอัตราความเร็วสูง [16] กับข้อมูลเมตาของระบบแฟ้ม HDFS จะถูกเก็บไว้ในเซิร์ฟเวอร์เฉพาะ การ NameNode และข้อมูลโปรแกรมประยุกต์ในเซิร์ฟเวอร์อื่น ๆ เรียกว่า DataNodes ยกเว้นการประมวลผลชุดข้อมูลขนาดใหญ่ HDFS มีเป้าหมายอื่นสำคัญคือการ ตรวจจับ และจัดการกับความล้มเหลวที่มาก วัตถุประสงค์นี้ถูกรับรู้ผ่านกลไกของการจำลองแบบที่ไฟล์จะแบ่งออกเป็นบล็อกดีจัด แต่ละบล็อกจะถูกจำลองแบบบนจำนวน datanodes datanodes ทั้งหมดที่ประกอบด้วยแบบจำลองของบล็อกจะไม่อยู่ในชั้นเดียวกันMapReduce เดิม เก็บไว้ โดย Google เว็บค้นหาดัชนีสร้างปัญหา [12], MapReduce เป็น nowa วันจำลองการเขียนโปรแกรมหลัก และเชื่อมโยง imple-เอกสารสำหรับการประมวลผล และการสร้างชุดข้อมูลขนาดใหญ่ [19] รูปแบบข้อมูลที่ป้อนเข้าในกรอบ MapReduce เป็นเฉพาะโปรแกรมประยุกต์ ระบุ โดยผู้ใช้ [20] และเหมาะสำหรับกึ่งโครงสร้างหรือไม่มีโครงสร้างข้อมูล ผลลัพธ์ของ MapReduce เป็นชุดของ คู่นี้ ชื่อ "MapReduce" แสดงข้อเท็จจริงที่ผู้ใช้ระบุอัลกอริทึมโดยใช้ฟังก์ชันเคอร์เนลที่สอง: "แผนที่" และ "ลด" ฟังก์ชั่นแผนที่ใช้ข้อมูลการป้อนข้อมูล และสร้างรายการของกลาง คู่ และฟังก์ชันลดรวมทั้งหมดกลาง val ues เกี่ยวข้องกับคีย์กลางเดียวกัน [19] [20] ในคลัสเตอร์ Hadoop งาน (เช่นโปรแกรม MapReduce [11]) เป็นอดีต ecuted โดยต่อมาทำลายลงเป็นชิ้นงานที่เรียกว่า เมื่อโหนดใน Hadoopcluster รับงาน มันจะสามารถแบ่ง และรันในขนานบนโหนอื่น ๆ [12] นี่ข้อมูลตั้งปัญหาจะแก้ไขได้ โดยการ JobTracker ที่สื่อสารกับ NameNode ช่วย datanodes ส่งงานไปใกล้ข้อมูล datanodes แจ้งให้เราทราบว่า การประมวลผลในรูปแบบของ คู่ไม่มีข้อจำกัดในการประมวลผลที่ไม่เหมือน อย่างง่ายดาย เป็นไปได้ในแผนลดลักษณะ จริง MapReduce สำเร็จใช้ RDF/RDFS และนกฮูก [21,22] การใช้เหตุผล และข้อมูล struc-tured สอบถาม [23] •จัดเก็บข้อมูลและความสามารถในการจัดการ– Cloudera Manager8: การสิ้นสุดเพื่อสิ้นสุดการจัดการกอนหนาทางการค้าสำหรับของ Cloudera การกระจายของ Apache Hadoop-RCFile (บันทึกคอลัมน์แฟ้ม) [24], เป็นข้อมูลตำแหน่ง struc-ture สำหรับข้อมูล นี่ ตารางอยู่ในแนวตั้ง และแนวนอนแบ่งพาร์ติชัน มูมบีบอัด มันเป็นโครงสร้างที่จัดเก็บมี effi cient ซึ่งช่วยให้การโหลดข้อมูลและประมวลผลแบบสอบถาม•ความสามารถฐานข้อมูล:– Oracle NoSQL ประสิทธิภาพสูง ฐานข้อมูลคู่สะดวกไม่ทำนาย และแบบไดนามิกข้อมูลดังนั้นข้อมูล– ที่ทำงานบน HDFS [11,12,15]; HBase Apache ระบบการจัดการฐานข้อมูลแบบกระจาย แนวคอลัมน์ จำลองบนโต๊ะขนาดใหญ่ของ Google [10],– นี่ Apache ฐานข้อมูลซึ่งรวมความสะดวกของคอลัมน์ดัชนีและประสิทธิภาพของการปรับปรุงโครงสร้างบันทึก– กลุ่ม Apache สามารถดูได้ข้อมูลกระจายบ้านพัสดุ [15] ช่วยให้ข้อมูลง่าย ๆ ETL จาก HDFS หรือการจัดเก็บข้อมูลอื่น ๆ เช่น HBase [11,15] หรือ DBMS อื่น ๆ แบบดั้งเดิม [25] มีประโยชน์ของการใช้ SQL เหมือน syn-ภาษี QL ไฮฟ์– Apache ZooKeeper คือ "การเปิดแหล่ง ในหน่วยความจำ ส่ง tributed NoSQL ฐานข้อมูล" [3 หน้า 69] ที่ใช้สำหรับการประสานงานและบริการตั้งชื่อสำหรับการจัดการการส่ง - โปรแกรมประยุกต์ tributed [3,12,11,15]•ความสามารถในการประมวลผล– หมูซึ่งมีวัตถุประสงค์เพื่อให้คนใช้ Hadoop เพื่อเน้นการวิเคราะห์ชุดข้อมูลขนาดใหญ่มาก และจึง ใช้เวลาน้อยลงไม่ต้องแมปเปอร์การเขียนและลดโปรแกรม [11, 12];– Chukwa ซึ่งเป็นระบบเก็บข้อมูลสำหรับการตรวจสอบใหญ่กระจายระบบ [26,15];– Oozie ซึ่งเป็นเครื่องมือเปิดแหล่งการจัดการท่อซับซ้อนของการประมวลผลข้อมูล [12,3,11] ใช้ Oozie ผู้ใช้สามารถกำหนดการดำเนินการ และการอ้างอิงระหว่างพวกเขาและมันจะกำหนดเวลาไว้โดยใด ๆ [11]

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

มีเครื่องมือต่างๆที่สามารถนำมาใช้ในการบริหารจัดการข้อมูลขนาดใหญ่จากการเก็บข้อมูลการวิเคราะห์ข้อมูล ที่สุดของเครื่องมือเหล่านี้เป็นส่วนหนึ่งของโครงการ Apache และถูกสร้างขึ้นรอบ Hadoop ที่มีชื่อเสียง เขียนใน Java และสร้างขึ้นโดยการตัดดั๊ก Hadoop นำความสามารถในการประมวลผลอย่างถูกข้อมูลจำนวนมากโดยไม่คำนึงถึงโครงสร้างของมัน [12] Hadoop ถูกสร้างขึ้นจากสองโครงการหลัก:. Hadoop แจกจ่าย File System (HDFS) และ MapReduce
HDFS HDFS เป็นระบบไฟล์กระจายออกแบบให้ทำงานบนกลุ่มใหญ่ของฮาร์ดแวร์สินค้าขึ้นอยู่กับ Google File System (GFS) [15,16,3] Shvachko et al, [17 หน้า 1] เพิ่มจุดแข็ง HDFS ในความหมายของพวกเขาเมื่อบอกว่ามัน "ถูกออกแบบมาเพื่อเก็บชุดข้อมูลขนาดใหญ่อย่างน่าเชื่อถือและการสตรีมชุดข้อมูลผู้ที่มีแบนด์วิธสูงเพื่อการใช้งานผู้ใช้" โดยขนาดใหญ่ที่เราหมายถึง 10-100 GB และด้านบน [12,16] ในขณะที่อินเตอร์เฟซที่จะ HDFS เป็นลวดลายหลังจากที่ระบบไฟล์ UNIX, ธุรกิจการค้าออกข้อกำหนด POSIX บางอย่างสำหรับผลการดำเนินงาน [17,15,16] HDFS จะทุ่มเทให้กับการประมวลผลชุดแทนที่จะใช้โต้ตอบโดยผู้ใช้ [16,12] ในการใช้งาน HDFS ไฟล์จะถูกเขียนครั้งเดียวและเข้าถึงได้หลายต่อหลายครั้ง [16,18]; ดังนั้นการเชื่อมโยงกันของข้อมูลจะมั่นใจและข้อมูลจะถูกเข้าถึงได้ในอัตราความเร็วสูง [16] กับเมตาดาต้าระบบไฟล์ HDFS ถูกเก็บไว้ในเซิร์ฟเวอร์เฉพาะ NameNode และข้อมูลการใช้ในเซิร์ฟเวอร์อื่น ๆ เรียกว่า DataNodes ยกเว้นสำหรับการประมวลผลชุดข้อมูลขนาดใหญ่, HDFS มีเป้าหมายอื่น ๆ อีกมากมายที่มีความสำคัญคือการตรวจสอบและจัดการกับความล้มเหลวที่ชั้นสมัคร วัตถุประสงค์นี้จะตระหนักถึงกลไกการจัดระเบียบที่ดีของการจำลองแบบที่ไฟล์จะถูกแบ่งออกเป็นบล็อก แต่ละบล็อกถูกจำลองแบบอยู่กับจำนวนของ datanodes; datanodes ทั้งหมดที่มีแบบจำลองของบล็อกที่ไม่ได้อยู่ในชั้นเดียวกัน.
MapReduce แต่เดิมวางในสถานที่โดย Google ในการแก้ปัญหาการสร้างดัชนีการค้นหาเว็บ [12], MapReduce เป็นวัน nowa- รูปแบบหลักของการเขียนโปรแกรมและเกี่ยวข้อง mentation เนินสำหรับการประมวลผลและสร้างชุดข้อมูลขนาดใหญ่ [19] รูปแบบการป้อนข้อมูลในกรอบ MapReduce เป็นโปรแกรมประยุกต์เฉพาะที่ระบุโดยผู้ใช้ [20] และเหมาะสำหรับข้อมูลที่มีโครงสร้างหรือไม่มีโครงสร้างกึ่ง การส่งออกของ MapReduce คือชุดของคู่ ชื่อ "MapReduce" เป็นการแสดงออกถึงความเป็นจริงที่ผู้ใช้ระบุขั้นตอนวิธีการใช้สองฟังก์ชั่นเคอร์เนล: "แผนที่" และ "ลด" ฟังก์ชั่นแผนที่จะนำไปใช้ในการป้อนข้อมูลและการผลิตรายการของกลางคู่; และฟังก์ชั่นลดผสาน UES val- กลางทั้งหมดที่เกี่ยวข้องกับปุ่มกลางเดียวกัน [19] [20] ในคลัสเตอร์ Hadoop งาน (เช่นโปรแกรม MapReduce a [11]) จะ ecuted อดีตโดยต่อมาทำลายมันลงไปในงานชิ้นที่เรียกว่า เมื่อโหนดใน Hadoopcluster รับงานก็สามารถที่จะแบ่งมันและใช้มันในแบบคู่ขนานกว่าโหนดอื่น ๆ [12] นี่คือปัญหาที่ตั้งของข้อมูลที่ได้รับการแก้ไขโดย JobTracker ที่สื่อสารกับ NameNode ที่จะช่วยให้ datanodes ที่จะส่งงานให้กับ datanodes ใกล้ข้อมูล แจ้งให้เราทราบว่าการประมวลผลนี้ในรูปแบบของคู่ไม่ได้เป็นข้อ จำกัด ในการประมวลผลที่ไม่ได้ดูเหมือนได้อย่างรวดเร็วก่อนเป็นไปได้ในลักษณะแผนที่ลด แท้จริง MapReduce ได้รับการใช้ประสบความสำเร็จใน RDF / RDFS และนกฮูกเหตุผล [21,22] และในข้อมูล tured โครงสร้างสอบถาม [23]. •การจัดเก็บข้อมูลและความสามารถในการบริหารจัดการ- Cloudera Manager8: จัดการแบบ end-to-end การประยุกต์ใช้สำหรับ การกระจาย Cloudera ของ Apache Hadoop. - RCFile (Record Columnar File) [24], ture ตำแหน่งข้อมูลโครงสร้างสำหรับข้อมูลที่มีโครงสร้าง ที่นี่จะมีตารางในแนวตั้งและแนวนอนแบ่งพาร์ติชันที่ถูกบีบอัดอย่างเฉื่อยชา มันเป็นโครงสร้างการจัดเก็บเพียงพอซึ่งจะช่วยให้ประสิทธิภาพการโหลดข้อมูลได้อย่างรวดเร็วและการประมวลผลแบบสอบถาม. •ความสามารถในฐานข้อมูล: - Oracle NoSQL ที่มีประสิทธิภาพสูง

ฐานข้อมูลคู่ที่สะดวกสำหรับข้อมูลที่ไม่ใช่การทำนายและแบบไดนามิกดังนั้นสำหรับข้อมูลขนาดใหญ่;
- Apache HBase กระจายระบบการจัดการฐานข้อมูลคอลัมน์ที่มุ่งเน้นในรูปแบบตารางใหญ่ของ Google [10], ที่ทำงานอยู่ด้านบนของ HDFS [11,12,15] ;
- Apache Cassandra ฐานข้อมูลที่ผสมผสานความสะดวกสบายของคอลัมน์ดัชนีและประสิทธิภาพการทำงานของการปรับปรุงโครงสร้างเข้าสู่ระบบนั้น
- Apache Hive สามารถมองเห็นเป็นบ้านกระจายข้อมูล ware- [15] ซึ่งจะช่วยให้ ETL ข้อมูลได้ง่ายจาก HDFS หรือการจัดเก็บข้อมูลอื่น ๆ เช่น HBase [11,15] หรือ DBMS แบบดั้งเดิมอื่น ๆ [25] มันมีความได้เปรียบของการใช้ไวยากรณ์ SQL เหมือนรัง QL นั้น
- Apache ZooKeeper คือ "โอเพนซอร์สในหน่วยความจำปรากฏ tributed ฐานข้อมูล NoSQL" [3, หน้า 69] ที่ใช้สำหรับการประสานงานและ การตั้งชื่อบริการสำหรับการจัดการการใช้งานปรากฏ tributed [3,12,11,15].
•ความสามารถในการประมวลผล
- หมูซึ่งมีวัตถุประสงค์เพื่อให้ผู้ที่ใช้ Hadoop จะมุ่งเน้นที่การวิเคราะห์ชุดข้อมูลขนาดใหญ่และทำให้ใช้เวลาน้อยลงต้องเขียน mapper และลดโปรแกรม [11,12];
- Chukwa ซึ่งเป็นระบบการเก็บรวบรวมข้อมูลสำหรับการตรวจสอบระบบการกระจายขนาดใหญ่ [26,15];
- Oozie ซึ่งเป็นเครื่องมือที่เปิดแหล่งที่มาสำหรับการจัดการระบบท่อส่งที่ซับซ้อนของการประมวลผลข้อมูล [12,3,11] ใช้ Oozie ผู้ใช้สามารถกำหนดการกระทำและการอ้างอิงระหว่างพวกเขาและมันจะกำหนดให้พวกเขาโดยปราศจากการแทรกแซงใด ๆ [11]

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

มีเครื่องมือต่างๆที่สามารถใช้ในการจัดการข้อมูลครั้งใหญ่ จากข้อมูล การวิเคราะห์ข้อมูล ที่สุดของเครื่องมือเหล่านี้เป็นส่วนหนึ่งของโครงการของ Apache Hadoop และถูกสร้างขึ้นรอบ ๆที่มีชื่อเสียง เขียนใน Java และสร้างขึ้นโดย Doug ตัด Hadoop ทำให้ความสามารถที่ถูกกระบวนการข้อมูลปริมาณมาก โดยไม่คำนึงถึงโครงสร้าง [ 12 ] Hadoop มีสองหลักโครงการ : Hadoop กระจายแฟ้มระบบ ( hdfs ) และ mapreduce .hdfs . hdfs เป็นกระจายแฟ้มระบบที่ออกแบบมาเพื่อวิ่งในกลุ่มขนาดใหญ่ของฮาร์ดแวร์สินค้าตามระบบแฟ้ม Google ( GFS ) [ 15,16,3 ] shvachko et al . [ 17 หน้า 1 ] เพิ่ม hdfs จุดแข็งในความหมายของพวกเขาเมื่อว่ามัน " ถูกออกแบบมาเพื่อเก็บข้อมูลที่มีขนาดใหญ่มาก เชื่อถือได้ และกระแสข้อมูลที่แบนด์วิดธ์สูงในการใช้งาน " ผู้ใช้ โดยขนาดใหญ่ เราหมายถึง จาก 10 เป็น 100 GB ขึ้นไป [ 12,16 ] ในขณะที่อินเตอร์เฟซที่จะ hdfs เป็นลวดลายหลังจากที่ระบบแฟ้ม Unix ก็เทรดจาก POSIX ความต้องการประสิทธิภาพ [ 17,15,16 ] hdfs ทุ่มเทในการประมวลผลมากกว่าจะใช้แบบโต้ตอบโดยผู้ใช้ [ 16,12 ] ใน hdfs การใช้งานไฟล์เขียนครั้งเดียวและเข้าถึงได้หลายครั้ง [ 16,18 ] ; ดังนั้นข้อมูลรับสั่งมั่นใจและข้อมูลที่เข้าถึงได้ในอัตราความเร็วสูง [ 16 ] กับ hdfs เมตาดาต้าไฟล์ระบบจะถูกเก็บไว้ในเซิร์ฟเวอร์ทุ่มเท , namenode และโปรแกรมข้อมูลในเซิร์ฟเวอร์อื่น ๆเรียกว่า datanodes . ยกเว้นสำหรับการประมวลผลข้อมูลที่มีขนาดใหญ่ hdfs มีหลายอื่น ๆที่มีเป้าหมายหลักคือการตรวจสอบและจัดการกับความล้มเหลวที่ชั้นสมัคร ในครั้งนี้ มีวัตถุประสงค์ คือ ตระหนัก ผ่านกลไกของการจัดที่ไฟล์จะถูกแบ่งเป็นบล็อก แต่ละบล็อกจะถูกนำเกี่ยวกับจำนวนของ datanodes ; ทั้งหมด datanodes ที่มีสำเนาของบล็อกไม่ได้อยู่ในตู้เดียวกันmapreduce . แต่เดิมการวางในสถานที่โดย Google เพื่อแก้ปัญหาเว็บการสร้างดัชนีการค้นหาปัญหา [ 12 ] mapreduce เป็นโนว่า ี า - วันรุ่นโปรแกรมหลักและที่เกี่ยวข้อง imple - mentation สำหรับการประมวลผลและการสร้างขนาดใหญ่ข้อมูล [ 19 ] ข้อมูล mapreduce รูปแบบในกรอบเป็นโปรแกรมที่เฉพาะเจาะจง - , ที่ระบุโดยผู้ใช้ [ 20 ] และเหมาะสำหรับกึ่งมีโครงสร้างหรือข้อมูลที่ไม่มีโครงสร้าง . ของ mapreduce ผลผลิตคือชุดของค่า > < กุญแจคู่ ชื่อ " mapreduce " แสดงความเป็นจริงที่ผู้ใช้ระบุขั้นตอนวิธีใช้เคอร์เนลฟังก์ชัน " แผนที่ " และ " ลด " ฟังก์ชันที่ใช้กับข้อมูลแผนที่การป้อนข้อมูลและสร้างรายชื่อของคีย์กลาง < value > คู่ และลดการทำงานผสานทั้งหมดกลางวาล - ใช้ที่เกี่ยวข้องกับคีย์เดียวกันกลาง [ 19 ] [ 20 ] ใน Hadoop คลัสเตอร์ งาน ( คือเป็นโปรแกรม mapreduce [ 11 ] ) เป็นอดีต ecuted โดยต่อมาแบ่งลงเป็นชิ้น เรียกว่างาน เมื่อมีโหนดใน hadoopcluster ได้รับงาน มันสามารถแบ่งและเรียกใช้มันในแบบคู่ขนานผ่านโหนดอื่น ๆ [ 12 ] ที่นี่ข้อมูลสถานที่แก้ปัญหาโดย jobtracker ที่สื่อสารกับ namenode ช่วย datanodes ส่งงานใกล้ datanodes ข้อมูล แจ้งให้เราทราบว่ากระบวนการนี้ในรูปแบบของค่า > < คีย์คู่ไม่ใช่ข้อจำกัดในการประมวลผล ซึ่งดูเหมือน at glance ครั้งแรก ราคาลดไปได้ในลักษณะ แน่นอน mapreduce เรียบร้อยแล้วใช้ RDF / rdfs และ [ เหตุผลนกฮูก 21,22 ] และในอาคาร - tured ข้อมูลสอบถาม [ 23 ]- จัดเก็บและการจัดการความสามารถ- cloudera manager8 : end การจัดการสิ่งที่เห็นทั้งหมด - สมาคมเพื่อการกระจายของ cloudera Apache Hadoop .- rcfile ( บันทึกโดยแฟ้ม ) [ 24 ] เป็นข้อมูลแบบโครงสร้าง - ture สำหรับข้อมูลที่มีโครงสร้าง ที่นี่ตารางเป็นแนวตั้งและแนวนอนแบ่งอัดซม . มันเป็น effi - โครงสร้างกระเป๋า cient ซึ่งช่วยให้รวดเร็ว การโหลดข้อมูลและประมวลผลแบบสอบถาม- ความสามารถในฐานข้อมูล :สำหรับ Oracle nosql ประสิทธิภาพสูงค่า > < คีย์ฐานข้อมูลคู่สะดวกและไม่พยากรณ์ข้อมูลแบบไดนามิกและข้อมูลใหญ่และ Apache hbase กระจาย ระบบการจัดการฐานข้อมูลเชิงเสา แบบบนโต๊ะตัวใหญ่ของ Google [ 10 ] ที่วิ่งอยู่ด้านบนของ hdfs [ 11,12,15 ] ;และ Apache Cassandra ฐานข้อมูลซึ่งผสมผสานความสะดวกสบายของดัชนีคอลัมน์และประสิทธิภาพของการปรับปรุงโครงสร้างบันทึก ;และ Apache รังสามารถเห็นเป็นข้อมูลแบบกระจายเครื่อง - บ้าน [ 15 ] มันช่วยให้เพิ่มข้อมูลได้ง่ายจาก hdfs หรือการจัดเก็บข้อมูลอื่น ๆเช่น hbase [ 11,15 ] หรือ DBMS แบบดั้งเดิมอื่น ๆ [ 25 ] มีข้อดีของการใช้ SQL เช่น ; -- ภาษี รังเข้าร่วม ;และ Apache Zookeeper " โอเพ่นซอร์ส ในความทรงจำ จาก tributed nosql ฐานข้อมูล " [ 3 , หน้า 69 ] ที่ใช้สำหรับการประสานงานและการตั้งชื่อบริการสำหรับการจัดการจาก tributed การใช้งาน [ 3,12,11,15 ]- ความสามารถในการประมวลผล- หมู ซึ่งมีวัตถุประสงค์เพื่อช่วยให้ผู้คนใช้ Hadoop เพื่อมุ่งเน้นการวิเคราะห์ข้อมูลที่มีขนาดใหญ่ และใช้เวลาน้อยกว่า จึงต้องเขียนโปรแกรม 11,12 Mapper และ reducer [ ] ;- chukwa ซึ่งเป็นระบบรวบรวมข้อมูลสำหรับการตรวจสอบขนาดใหญ่ระบบกระจาย [ 26,15 ] ;- oozie ซึ่งเป็นโอเพนซอร์สเครื่องมือสำหรับการจัดการข้อมูลการประมวลผล [ 12,3,11 ] ท่อที่ซับซ้อน การใช้ oozie ผู้ใช้สามารถกำหนดการกระทำและ dependencies ระหว่างพวกเขา และมันจะ schedu

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.