3.1. Big Data technologies
There are various tools which can be used in Big Data
management from data acquisition to data analysis. Most of
these tools are parts of Apache projects and are constructed
around the famous Hadoop. Written in Java and created by
Doug Cutting, Hadoop brings the ability to cheaply process
large amounts of data, regardless of its structure [12]. Hadoop is
made up of two core projects: Hadoop Distributed File System
(HDFS) and MapReduce.
HDFS. HDFS is a distributed file system designed to run
on large clusters of commodity hardware based on Google
File System (GFS) [15,16,3]. Shvachko et al. [17, page 1] add
HDFS strengths in their definition when saying it “is designed
to store very large datasets reliably, and to stream those
datasets at high bandwidth to user applications”. By large, we
mean from 10 to 100 GB and above [12,16]. While the interface
to HDFS is patterned after the UNIX file system, it trades off
some POSIX requirements for performance [17,15,16]. HDFS is
dedicated to batch processing rather than interactive use by
users [16,12]. In HDFS applications, files are written once and
accessed many times [16,18]; consequently data coherency is
ensured and data are accessed in high throughput [16]. With
HDFS file system metadata are stored in a dedicated server,
the NameNode, and the application data in other servers called
DataNodes. Except for processing large datasets, HDFS has
many other goals whose major is to detect and handle failures
at the application layer. This objective is realized through
a well-organized mechanism of replication where files are
divided into blocks. Each block is replicated on a number of
datanodes; all the datanodes containing a replica of a block
are not located in the same rack.
MapReduce. Originally put in place by Google to solve the
web search index creation problem [12], MapReduce is nowadays
the main programming model and associated implementation
for processing and generating large datasets [19].
The input data format in MapReduce framework is applicationspecific,
is specified by the user [20] and is suitable for semistructured
or unstructured data. The MapReduce’s output is a
set of pairs. The name “MapReduce” expresses
the fact that users specify an algorithm using two kernel
functions: “Map” and “Reduce”. The Map function is applied on
the input data and produces a list of intermediate
pairs; and the Reduce function merges all intermediate values
associated with the same intermediate key [19] [20]. In
a Hadoop cluster, a job (i.e a MapReduce program [11]) is executed
by subsequently breaking it down into pieces called
tasks. When a node in Hadoopcluster receives a job, it is able
to divide it, and run it in parallel over other nodes [12].
Here the data location problem is solved by the JobTracker
which communicates with the NameNode to help datanodes
to send tasks to near-data datanodes. Let us note that this
processing in form of pairs is not a limitation to
processing which does not seem, at first glance, feasible in
map-reduce manner. Indeed, MapReduce has been successfully
used in RDF/RDFS and OWL reasoning [21,22] and in structured
data querying [23].
Around HDFS and MapReduce there are tens of projects
which cannot be presented in detail here. Those projects can
be classified according to their capabilities:
3.1. Big Data technologiesThere are various tools which can be used in Big Datamanagement from data acquisition to data analysis. Most ofthese tools are parts of Apache projects and are constructedaround the famous Hadoop. Written in Java and created byDoug Cutting, Hadoop brings the ability to cheaply processlarge amounts of data, regardless of its structure [12]. Hadoop ismade up of two core projects: Hadoop Distributed File System(HDFS) and MapReduce.HDFS. HDFS is a distributed file system designed to runon large clusters of commodity hardware based on GoogleFile System (GFS) [15,16,3]. Shvachko et al. [17, page 1] addHDFS strengths in their definition when saying it “is designedto store very large datasets reliably, and to stream thosedatasets at high bandwidth to user applications”. By large, wemean from 10 to 100 GB and above [12,16]. While the interfaceto HDFS is patterned after the UNIX file system, it trades offsome POSIX requirements for performance [17,15,16]. HDFS isdedicated to batch processing rather than interactive use byusers [16,12]. In HDFS applications, files are written once andaccessed many times [16,18]; consequently data coherency isensured and data are accessed in high throughput [16]. WithHDFS file system metadata are stored in a dedicated server,the NameNode, and the application data in other servers calledDataNodes. Except for processing large datasets, HDFS hasmany other goals whose major is to detect and handle failuresat the application layer. This objective is realized througha well-organized mechanism of replication where files aredivided into blocks. Each block is replicated on a number ofdatanodes; all the datanodes containing a replica of a blockare not located in the same rack.MapReduce. Originally put in place by Google to solve theweb search index creation problem [12], MapReduce is nowadaysthe main programming model and associated implementationfor processing and generating large datasets [19].The input data format in MapReduce framework is applicationspecific,is specified by the user [20] and is suitable for semistructuredor unstructured data. The MapReduce’s output is aset of pairs. The name “MapReduce” expressesthe fact that users specify an algorithm using two kernelfunctions: “Map” and “Reduce”. The Map function is applied onthe input data and produces a list of intermediate pairs; and the Reduce function merges all intermediate valuesassociated with the same intermediate key [19] [20]. Ina Hadoop cluster, a job (i.e a MapReduce program [11]) is executedby subsequently breaking it down into pieces calledtasks. When a node in Hadoopcluster receives a job, it is ableto divide it, and run it in parallel over other nodes [12].Here the data location problem is solved by the JobTrackerwhich communicates with the NameNode to help datanodesto send tasks to near-data datanodes. Let us note that thisprocessing in form of pairs is not a limitation toprocessing which does not seem, at first glance, feasible inmap-reduce manner. Indeed, MapReduce has been successfullyused in RDF/RDFS and OWL reasoning [21,22] and in structureddata querying [23].Around HDFS and MapReduce there are tens of projectswhich cannot be presented in detail here. Those projects canbe classified according to their capabilities:
การแปล กรุณารอสักครู่..

3.1 เทคโนโลยีข้อมูลขนาดใหญ่
มีเครื่องมือต่างๆที่สามารถนำมาใช้ในข้อมูลขนาดใหญ่ที่มี
การจัดการจากการเก็บข้อมูลเพื่อการวิเคราะห์ข้อมูล ที่สุดของ
เครื่องมือเหล่านี้เป็นส่วนหนึ่งของโครงการ Apache และถูกสร้างขึ้น
รอบ Hadoop ที่มีชื่อเสียง เขียนใน Java และสร้างขึ้นโดย
การตัดดั๊ก Hadoop นำความสามารถในการประมวลผลอย่างถูก
ข้อมูลจำนวนมากโดยไม่คำนึงถึงโครงสร้างของมัน [12] Hadoop ถูก
สร้างขึ้นจากสองโครงการหลัก: Hadoop แจกจ่าย File System
. (HDFS) และ MapReduce
HDFS HDFS เป็นระบบไฟล์กระจายออกแบบมาเพื่อทำงาน
ในกลุ่มใหญ่ของฮาร์ดแวร์สินค้าขึ้นอยู่กับ Google
File System (GFS) [15,16,3] Shvachko et al, [17 หน้า 1] เพิ่ม
จุดแข็ง HDFS ในความหมายของพวกเขาเมื่อบอกว่ามัน "ถูกออกแบบมา
เพื่อเก็บชุดข้อมูลขนาดใหญ่อย่างน่าเชื่อถือและการสตรีมเหล่านั้น
ชุดข้อมูลที่แบนด์วิธสูงเพื่อการใช้งานผู้ใช้" โดยขนาดใหญ่เรา
หมายถึง 10-100 GB และด้านบน [12,16] ในขณะที่อินเตอร์เฟซ
ที่จะ HDFS เป็นลวดลายหลังจากที่ระบบไฟล์ UNIX, ธุรกิจการค้าออก
ข้อกำหนด POSIX บางอย่างสำหรับผลการดำเนินงาน [17,15,16] HDFS จะ
ทุ่มเทให้กับการประมวลผลชุดแทนที่จะใช้โต้ตอบโดย
ผู้ใช้ [16,12] ในการใช้งาน HDFS ไฟล์จะถูกเขียนครั้งเดียวและ
เข้าถึงได้หลายต่อหลายครั้ง [16,18]; ดังนั้นการเชื่อมโยงกันข้อมูลจะ
มั่นใจและข้อมูลจะถูกเข้าถึงได้ในอัตราความเร็วสูง [16] กับ
เมตาดาต้าระบบไฟล์ HDFS ถูกเก็บไว้ในเซิร์ฟเวอร์เฉพาะ
NameNode และข้อมูลการใช้ในเซิร์ฟเวอร์อื่น ๆ เรียกว่า
DataNodes ยกเว้นสำหรับการประมวลผลชุดข้อมูลขนาดใหญ่, HDFS มี
เป้าหมายอื่น ๆ อีกมากมายที่มีความสำคัญคือการตรวจสอบและจัดการกับความล้มเหลว
ที่ชั้นสมัคร วัตถุประสงค์นี้จะตระหนักถึง
กลไกการจัดระเบียบที่ดีของการจำลองแบบที่ไฟล์จะถูก
แบ่งออกเป็นบล็อก แต่ละบล็อกถูกจำลองแบบอยู่กับจำนวนของ
datanodes; datanodes ทั้งหมดที่มีแบบจำลองของบล็อกที่
ไม่ได้อยู่ในชั้นเดียวกัน.
MapReduce แต่เดิมวางในสถานที่โดย Google ในการแก้
ปัญหาการสร้างดัชนีการค้นหาเว็บ [12], MapReduce ในปัจจุบัน
รูปแบบการเขียนโปรแกรมหลักและการดำเนินการที่เกี่ยวข้อง
สำหรับการประมวลผลและสร้างชุดข้อมูลขนาดใหญ่ [19].
รูปแบบการป้อนข้อมูลในกรอบ MapReduce เป็น applicationspecific,
มีการระบุ โดยผู้ใช้ [20] และเหมาะสำหรับแบบกึ่งโครงสร้าง
ข้อมูลหรือไม่มีโครงสร้าง การส่งออกของ MapReduce เป็น
ชุดของคู่ ชื่อ "MapReduce" เป็นการแสดงออกถึง
ความเป็นจริงที่ผู้ใช้ระบุขั้นตอนวิธีการใช้สองเคอร์เนล
ฟังก์ชั่น: "แผนที่" และ "ลด" ฟังก์ชั่นแผนที่จะนำไปใช้ในการ
ป้อนข้อมูลและการผลิตรายการของกลาง
คู่; และฟังก์ชั่นลดค่ากลางดังกล่าวทั้งหมด
ที่เกี่ยวข้องกับปุ่มกลางเดียวกัน [19] [20] ใน
คลัสเตอร์ Hadoop งาน (เช่นโปรแกรม MapReduce a [11]) จะดำเนินการ
ต่อจากนั้นทำลายมันลงไปในชิ้นส่วนที่เรียกว่า
งาน เมื่อโหนดใน Hadoopcluster รับงานก็จะสามารถ
ที่จะแบ่งมันและใช้มันในแบบคู่ขนานกว่าโหนดอื่น ๆ [12].
นี่คือปัญหาที่ตั้งของข้อมูลที่ได้รับการแก้ไขโดย JobTracker
ที่ติดต่อสื่อสารกับ NameNode ที่จะช่วยให้ datanodes
ที่จะส่งงานให้กับ ซึ่งอยู่ใกล้กับข้อมูล datanodes แจ้งให้เราทราบว่านี้
การประมวลผลในรูปแบบของคู่ไม่ได้เป็นข้อ จำกัด กับ
การประมวลผลซึ่งดูเหมือนจะไม่ได้อย่างรวดเร็วก่อนเป็นไปได้ใน
ลักษณะแผนที่ลด แท้จริง MapReduce ได้รับการประสบความสำเร็จ
ที่ใช้ใน RDF / RDFS และนกฮูกเหตุผล [21,22] และโครงสร้าง
ข้อมูลสอบถาม [23].
บริเวณใกล้เคียงและ HDFS MapReduce มีหลายสิบโครงการ
ที่ไม่สามารถนำเสนอในรายละเอียดที่นี่ โครงการเหล่านั้นสามารถ
จำแนกตามความสามารถของพวกเขา
การแปล กรุณารอสักครู่..
