Big Data is a term defining data that has three main characteristics. First, it involves a great volume of data. Second, the data cannot be structured into regular database tables and third, the data is produced with great velocity and must be captured and processed rapidly. Oracle adds a fourth characteristic for this kind of data and that is low value density, meaning that sometimes there is a very big volume of data to process before finding valuable needed information. Big Data is a relatively new term that came from the need of big companies like Yahoo, Google, Facebook to analyze big amounts of unstructured data, but this need could be identified in a number of other big enterprises as well in the research and development field. The framework for processing Big Data consists of a number of software tools that will be presented in the paper, and briefly listed here. There is Hadoop, an open source platform that consists of the Hadoop kernel, Hadoop Distributed File System (HDFS), MapReduce and several related instruments. Two of the main problems that occur when studying Big Data are the storage capacity and the processing power. That is the area where using Grid Technologies can provide help. Grid Computing refers to a special kind of distributed computing. A Grid computing system must contain a Computing Element (CE), and a number of Storage Elements (SE) and Worker Nodes (WN). The CE provides the connection with other GRID networks and uses a Workload Management System to dispatch jobs on the Worker Nodes. The Storage Element is in charge with the storage of the input and the output of the data needed for the job execution. The main purpose of this article is to present a way of processing Big Data using Grid Technologies. For that, the framework for managing Big Data will be presented along with the way to implement it around a grid architecture.
Published in:
Roedunet International Conference (RoEduNet), 2013 11th
Date of Conference:
17-19 Jan. 2013
Page(s):
1 - 4
ISSN :
2068-1038
Print ISBN:
978-1-4673-6114-9
INSPEC Accession Number:
13500804
Conference Location :
Sinaia
DOI:
10.1109/RoEduNet.2013.6511732
Publisher:
IEEE
ข้อมูลเป็นคำกำหนดข้อมูลที่มีลักษณะหลักสาม ครั้งแรก มันเกี่ยวข้องกับเสียงดีของข้อมูล ที่สอง ข้อมูลไม่มีโครงสร้างตารางฐานข้อมูลปกติ และสาม ข้อมูลผลิต ด้วยความเร็วที่ดี และต้องถูกจับ และประมวลผลอย่างรวดเร็ว ออราเคิลเพิ่มเป็นลักษณะสี่สำหรับชนิดของข้อมูล และที่เป็นค่าต่ำความหนาแน่น ซึ่งหมายความ ว่า บางครั้งเป็นเสียงใหญ่มากของข้อมูลการประมวลผลก่อนที่มีค่าหาข้อมูลที่จำเป็น ข้อมูลเป็นคำค่อนข้างใหม่ที่มาจากความต้องการของบริษัทขนาดใหญ่เช่น Yahoo, Google, Facebook การวิเคราะห์ข้อมูลไม่มีโครงสร้างขนาดใหญ่ แต่ต้องสามารถระบุได้ในจำนวนองค์กรใหญ่อื่น ๆ ในเขตข้อมูลการวิจัยและพัฒนา กรอบงานสำหรับการประมวลผลข้อมูลขนาดใหญ่ประกอบด้วยเครื่องมือซอฟต์แวร์ที่จะนำเสนอในกระดาษ และสั้น ๆ แสดงที่นี่ มี Hadoop เป็นแพลตฟอร์มเปิดแหล่งที่ประกอบไปด้วยเคอร์เนล Hadoop, Hadoop กระจายแฟ้มระบบ (HDFS), MapReduce และเครื่องมือที่เกี่ยวข้องหลาย สองปัญหาหลักที่เกิดขึ้นเมื่อศึกษาข้อมูลมีความจุและพลังการประมวลผล ที่เป็นพื้นที่ที่การใช้เทคโนโลยีกริดสามารถให้ความช่วยเหลือ คอมพิวเตอร์กริดหมายถึงชนิดพิเศษระบบคอมพิวเตอร์แบบกระจาย ระบบใช้คอมพิวเตอร์ต้องประกอบด้วยการประมวลผลองค์ประกอบ (CE), และจัดเก็บองค์ประกอบ (SE) และผู้ปฏิบัติงานโหน (ดับเบิ้ลยูเอ็น) CE เชื่อมต่อกับเครือข่ายอื่นตาราง และใช้ระบบการจัดการปริมาณงานส่งงานบนโหนผู้ปฏิบัติ องค์ประกอบที่จัดเก็บเป็นค่าการเก็บข้อมูลของการป้อนข้อมูลและผลลัพธ์ของข้อมูลที่จำเป็นสำหรับการดำเนินงาน จุดประสงค์หลักของบทความนี้จะแสดงวิธีการประมวลผลข้อมูลขนาดใหญ่ที่ใช้เทคโนโลยีกริด กรอบงานสำหรับการจัดการข้อมูลขนาดใหญ่จะแสดงพร้อมวิธีการใช้รอบสถาปัตยกรรมตารางที่ประกาศ:Roedunet การประชุมนานาชาติ (RoEduNet), 11 2013วันประชุม:17-19 2013 ม.ค.หน้า:1 - 4นอก:2068-1038พิมพ์ ISBN:978-1-4673-6114-9เลขทะเบียน INSPEC:13500804สถานที่ประชุม:ซินเนียดอย:10.1109/RoEduNet.2013.6511732ผู้เผยแพร่:มาตรฐาน IEEE
การแปล กรุณารอสักครู่..
