to schedule tasks and process data

to schedule tasks and process data needed by a query. In the future,
we plan to deploy the catalog as a separate service that would work
in a way similar to Hadoop’s NameNode.
5.2.3 Data Loader
The Data Loader is responsible for (i) globally repartitioning data
on a given partition key upon loading, (ii) breaking apart single
node data into multiple smaller partitions or chunks and (iii) finally
bulk-loading the single-node databases with the chunks.
The Data Loader consists of two main components: Global
Hasher and Local Hasher. The Global Hasher executes a custommade
MapReduce job over Hadoop that reads in raw data files
stored in HDFS and repartitions them into as many parts as the
number of nodes in the cluster. The repartitioning job does not
incur the sorting overhead of typical MapReduce jobs.
The Local Hasher then copies a partition from HDFS into the
local file system of each node and secondarily partitions the file into
smaller sized chunks based on the maximum chunk size setting.
The hashing functions used by both the Global Hasher and the
Local Hasher differ to ensure chunks are of a uniform size. They
also differ from Hadoop’s default hash-partitioning function to ensure
better load balancing when executing MapReduce jobs over
the data.
5.2.4 SQL to MapReduce to SQL (SMS) Planner
HadoopDB provides a parallel database front-end to data analysts
enabling them to process SQL queries.
The SMS planner extends Hive [11]. Hive transforms HiveQL, a
variant of SQL, into MapReduce jobs that connect to tables stored
as files in HDFS. The MapReduce jobs consist of DAGs of relational
operators (such as filter, select (project), join, aggregation)
that operate as iterators: each operator forwards a data tuple to the
next operator after processing it. Since each table is stored as a
separate file in HDFS, Hive assumes no collocation of tables on
nodes. Therefore, operations that involve multiple tables usually
require most of the processing to occur in the Reduce phase of
a MapReduce job. This assumption does not completely hold in
HadoopDB as some tables are collocated and if partitioned on the
same attribute, the join operation can be pushed entirely into the
database layer.
To understand how we extended Hive for SMS as well as the differences
between Hive and SMS, we first describe how Hive creates
an executable MapReduce job for a simple GroupBy-Aggregation
query. Then, we describe how we modify the execution plan for
HadoopDB by pushing most of the query processing logic into the
database layer.
Consider the following query:
SELECT YEAR(saleDate), SUM(revenue)
FROM sales GROUP BY YEAR(saleDate);
Hive processes the above SQL query in a series of phases:
(1) The parser transforms the query into an Abstract Syntax Tree.
(2) The Semantic Analyzer connects to Hive’s internal catalog,
the MetaStore, to retrieve the schema of the sales table. It also
populates different data structures with meta information such as
the Deserializer and InputFormat classes required to scan the table
and extract the necessary fields.
(3) The logical plan generator then creates a DAG of relational
operators, the query plan.
(4) The optimizer restructures the query plan to create a more
optimized plan. For example, it pushes filter operators closer to the
table scan operators. A key function of the optimizer is to break up
the plan into Map or Reduce phases. In particular, it adds a Repartition
operator, also known as a Reduce Sink operator, before Join
or GroupBy operators. These operators mark the Map and Reduce

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การจัดกำหนดการงาน และประมวลผลข้อมูลที่ต้องการสอบถาม ในอนาคตเราจะจัดวางแค็ตตาล็อกเป็นบริการที่แยกต่างหากที่จะทำงานในลักษณะที่คล้ายกับ NameNode ของอย่างไร Hadoop5.2.3 ข้อมูลโหลดโหลดข้อมูลรับผิดชอบ (i) ทั่วโลก repartitioning ข้อมูลบนพาร์ติชันที่กำหนดคีย์เมื่อโหลด, (ii) แบ่งแยกเดียวข้อมูลโหนในหลายขนาดเล็กกั้น หรือก้อน และ (iii) ในที่สุดจำนวนมากโหลดฐานข้อมูลโหนเดียวกับก้อนโหลดข้อมูลประกอบด้วยส่วนประกอบหลักที่สอง: ส่วนกลางHasher และ Hasher ท้องถิ่น Hasher สากลดำเนินการแบบ custommadeงาน MapReduce ผ่านอย่างไร Hadoop ที่อ่านในข้อมูลดิบเก็บไว้ใน HDFS และ repartitions พวกเขาเป็นส่วนมากเป็นการจำนวนโหนดในคลัสเตอร์ งาน repartitioning ไม่ใช้เรียงลำดับจ่ายงาน MapReduce ทั่วไปHasher เครื่องคัดลอกพาร์ทิชันแล้วจาก HDFS เป็นการระบบแฟ้มภายในเครื่อง ของแต่ละโหนด และเชื่อมกั้นแฟ้มลงในขนาดเล็กขนาดก้อนขึ้นอยู่กับการตั้งค่าขนาดสูงสุดของกลุ่มฟังก์ชันการ hashing ใช้ Hasher ทั้งสองโลกนี้และHasher ท้องถิ่นแตกต่างกันเพื่อให้ก้อนมีขนาดสม่ำเสมอ พวกเขานอกจากนี้ยัง แตกต่างจากของอย่างไร Hadoop เริ่มแฮพาร์ทิชันฟังก์ชันเพื่อให้แน่ใจดีกว่า โหลดดุลเมื่อดำเนินงาน MapReduce มากกว่าข้อมูล5.2.4 SQL การ MapReduce เพื่อวางแผน SQL (SMS)HadoopDB ให้ฐานข้อมูลแบบ front-end นักวิเคราะห์ข้อมูลเปิดใช้งานการประมวลผลแบบสอบถาม SQLวางแผนการ SMS ขยายรัง [11] กลุ่มแปลง HiveQL การตัวแปรของ SQL ในงาน MapReduce ที่เชื่อมต่อกับตารางที่เก็บไว้แฟ้มใน HDFS งาน MapReduce ประกอบด้วย DAGs ของเชิงตัวดำเนินการ (เช่นกรอง เลือก (โครงการ), รวม รวม)ที่ทำงานเป็น iterators: ทูเพิลข้อมูลเพื่อส่งต่อแต่ละตัวดำเนินการตัวดำเนินการต่อไปหลังจากการประมวลผล เนื่องจากแต่ละตารางจะถูกเก็บไว้เป็นแยกแฟ้มใน HDFS กลุ่มสมมติไม่ collocation ตารางบนโหน ดังนั้น การดำเนินงานที่เกี่ยวข้องกับหลายตารางปกติต้องการมากที่สุดของการประมวลผลเกิดขึ้นในขั้นตอนการลดของงาน MapReduce สมมติฐานนี้ไม่หมดเก็บไว้ในHadoopDB เป็นตารางบางตารางเป็น collocated และกั้นบนแอตทริบิวต์เดียวกัน การเข้าร่วมสามารถผลักทั้งหมดเป็นการชั้นของฐานข้อมูลเข้าใจว่าเราขยายกลุ่ม SMS รวมทั้งความแตกต่างระหว่างกลุ่มและ SMS เราต้องอธิบายวิธีสร้างกลุ่มงาน MapReduce การปฏิบัติสำหรับเรื่อง GroupBy รวมการสอบถาม จากนั้น เราอธิบายว่า เราปรับเปลี่ยนแผนปฏิบัติการสำหรับHadoopDB โดยการผลักดันของตรรกะในการประมวลผลแบบสอบถามชั้นของฐานข้อมูลพิจารณาแบบสอบถามต่อไปนี้:เลือก YEAR(saleDate), SUM(revenue)จากขายกลุ่มโดย YEAR(saleDate)กลุ่มกระบวนการสอบถาม SQL ข้างในชุดของขั้นตอน:(1) ตัวแยกวิเคราะห์การแปลงแบบสอบถามเป็นต้นไม้ไวยากรณ์เป็นนามธรรม(2) การเชื่อมต่อการวิเคราะห์ความหมายของกลุ่มภายในแค็ตตาล็อกการ MetaStore การดึงข้อมูล schema ของตาราง มันยังเติมข้อมูลโครงสร้างข้อมูลที่แตกต่างกัน ด้วยข้อมูล meta เช่นชั้นเรียน Deserializer และ InputFormat ที่ต้องการสแกนตารางและแยกฟิลด์จำเป็น(3 เครื่องกำเนิดไฟฟ้า)แผนตรรกะแล้วสร้างพื้นที่ของความสัมพันธ์ผู้ประกอบการ แผนการสอบถาม(4)เพิ่มประสิทธิภาพ restructures แผนการสอบถามการสร้างมากขึ้นปรับแผน ตัวอย่าง มัน pushes กรองผู้ใกล้ชิดกับการตัวดำเนินการการสแกนตาราง เป็นฟังก์ชันสำคัญของการเพิ่มประสิทธิภาพการแผนเป็นแผนที่หรือลดระยะ โดยเฉพาะ จะเพิ่มการ Repartitionดำเนินการ เรียกอีกอย่างว่าตัวลดจมดำเนิน ก่อนที่จะเข้าร่วมหรือผู้ประกอบการ GroupBy ตัวดำเนินการเหล่านี้ทำเครื่องหมายแผนที่และลด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การจัดกำหนดการงานและประมวลผลข้อมูลที่จำเป็นโดยแบบสอบถาม ในอนาคตเราวางแผนที่จะปรับใช้แคตตาล็อกเป็นบริการที่แยกต่างหากที่จะทำงานในลักษณะที่คล้ายกับของNameNode Hadoop. 5.2.3 ข้อมูล Loader ตัวโหลดข้อมูลเป็นผู้รับผิดชอบ (i) ข้อมูลทั่วโลกแบ่งพาร์คีย์พาร์ทิชันที่ได้รับเมื่อโหลด(ii) การทำลายเดียวนอกเหนือข้อมูลโหนดลงในพาร์ทิชันที่มีขนาดเล็กหรือหลายชิ้นและ(iii) ในที่สุดกลุ่มโหลดฐานข้อมูลเดียวกับโหนดชิ้น. ตัวโหลดข้อมูลประกอบด้วยสององค์ประกอบหลักทั่วโลกHasher Hasher และท้องถิ่น Hasher ทั่วโลกรัน CustomMade งานมากกว่า Hadoop MapReduce ที่อ่านในไฟล์ข้อมูลดิบที่เก็บไว้ในHDFS repartitions และพวกเขาเป็นส่วนมากที่สุดเท่าที่เป็นจำนวนโหนดในคลัสเตอร์ งาน repartitioning ไม่ต้องเสียค่าใช้จ่ายในการเรียงลำดับของงานMapReduce ทั่วไป. Hasher ท้องถิ่นแล้วคัดลอกพาร์ทิชันจาก HDFS เข้าสู่ระบบไฟล์ในท้องถิ่นของแต่ละโหนดและครั้งที่สองพาร์ติชันไฟล์ลงในชิ้นขนาดขนาดเล็กขึ้นอยู่กับการตั้งค่าขนาดก้อนสูงสุด. คร่ำเครียด ฟังก์ชั่นการใช้งานโดยทั้ง Hasher ทั่วโลกและHasher ท้องถิ่นที่แตกต่างกันเพื่อให้แน่ใจว่าเป็นชิ้นที่มีขนาดสม่ำเสมอ พวกเขายังแตกต่างจากฟังก์ชั่นเริ่มต้น Hadoop ของกัญชาแบ่งพาร์ทิชันเพื่อให้แน่ใจว่าการปรับสมดุลการโหลดที่ดีขึ้นเมื่อมีการดำเนินงานในช่วงMapReduce ข้อมูล. 5.2.4 SQL เพื่อ MapReduce กับ SQL (SMS) วางแผนHadoopDB ให้ฐานข้อมูลแบบขนาน front-end ที่นักวิเคราะห์ข้อมูลที่ช่วยให้พวกเขาในการประมวลผลแบบสอบถาม SQL. วางแผน SMS ขยายไฮฟ์ [11] ไฮฟ์แปลง HiveQL เป็นตัวแปรของSQL ลงไปในงาน MapReduce ที่เชื่อมต่อกับตารางการจัดเก็บเป็นไฟล์ในHDFS งาน MapReduce ประกอบด้วย DABs ความสัมพันธ์ของผู้ประกอบการ(เช่นกรองเลือก (โครงการ) เข้าร่วมการรวม) ที่ทำงานเป็น iterators: ผู้ประกอบการแต่ละ tuple ส่งต่อข้อมูลไปยังผู้ประกอบการต่อไปหลังจากการประมวลผลมัน เนื่องจากแต่ละโต๊ะจะถูกเก็บไว้เป็นไฟล์แยก HDFS, ไฮฟ์ถือว่าไม่มีการจัดระเบียบของตารางในโหนด ดังนั้นการดำเนินงานที่เกี่ยวข้องกับหลายตารางมักจะต้องใช้มากที่สุดของการประมวลผลที่จะเกิดขึ้นในขั้นตอนของการลดงานMapReduce สมมติฐานนี้ไม่สมบูรณ์ถืออยู่ในHadoopDB ตารางบางคน collocated และหากแบ่งพาร์ติชันในแอตทริบิวต์เดียวกันการดำเนินการเข้าร่วมสามารถผลักทั้งหมดลงไปในชั้นฐานข้อมูล. เพื่อให้เข้าใจถึงวิธีการที่เราขยายไฮฟ์สำหรับ SMS เช่นเดียวกับความแตกต่างระหว่างไฮฟ์และSMS เราอธิบายถึงวิธีการสร้างรังงานMapReduce ปฏิบัติการสำหรับการที่ง่าย GroupBy-รวมแบบสอบถาม จากนั้นเราจะอธิบายวิธีการที่เราปรับเปลี่ยนแผนการดำเนินการสำหรับHadoopDB โดยการผลักดันมากที่สุดของตรรกะประมวลผลแบบสอบถามลงในชั้นฐานข้อมูล. พิจารณาแบบสอบถามต่อไปนี้: SELECT ปี (saleDate) SUM (รายได้) จากยอดขายกลุ่มตามปี (saleDate); Hive ประมวลผลแบบสอบถาม SQL ดังกล่าวข้างต้นในชุดของขั้นตอนดังนี้(1) แปลงแยกวิเคราะห์แบบสอบถามเป็นต้นไม้ไวยากรณ์บทคัดย่อ. (2) การวิเคราะห์ความหมายเชื่อมต่อกับแคตตาล็อกภายในรังของMetaStore ที่จะดึงเค้าร่างของตารางการขาย นอกจากนี้ยังpopulates โครงสร้างข้อมูลที่แตกต่างกันมีข้อมูลเมตาเช่นเรียนdeserializer และ InputFormat ที่จำเป็นในการสแกนตารางและสารสกัดจากสาขาที่จำเป็น. (3) เครื่องกำเนิดไฟฟ้าแผนตรรกะแล้วสร้าง DAG ของความสัมพันธ์ผู้ประกอบการวางแผนการค้นหา. (4) เพิ่มประสิทธิภาพการปรับโครงสร้างแผนแบบสอบถามเพื่อสร้างเพิ่มเติมแผนเพิ่มประสิทธิภาพ ยกตัวอย่างเช่นมันดันผู้ประกอบการกรองที่ใกล้ชิดกับตารางประกอบการสแกน ฟังก์ชั่นที่สำคัญของการเพิ่มประสิทธิภาพคือการเลิกแผนลงในแผนที่หรือลดขั้นตอน โดยเฉพาะอย่างยิ่งจะเพิ่ม Repartition ผู้ประกอบการยังเป็นที่รู้จักในฐานะผู้ประกอบการลดอ่างล้างจานก่อนที่จะเข้าร่วมหรือผู้ประกอบการ GroupBy ผู้ประกอบการเหล่านี้ทำเครื่องหมายแผนที่และลด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ตารางเวลางานและข้อมูลที่จำเป็นตามแบบสอบถาม ในอนาคตเราวางแผนที่จะปรับใช้
แคตตาล็อกเป็นแยกบริการนั่น
ในลักษณะคล้ายคลึงกับ Hadoop เป็น namenode
.
5.2.3 โหลดข้อมูลข้อมูล Loader เป็นผู้รับผิดชอบ ( ฉัน ) ทั่วโลก repartitioning ข้อมูล
บนให้คีย์พาร์ทิชันบนโหลด ( 2 ) แตกเดียว
ข้อมูลในโหนดขนาดเล็กหลายพาร์ทิชันหรือ chunks และ ( iii ) ในที่สุด
เป็นกลุ่มโหลดโหนดเดียวฐานข้อมูลกับ chunks .
ข้อมูล Loader ประกอบด้วยสององค์ประกอบหลัก : hasher ทั่วโลก
และท้องถิ่น hasher . การ hasher ทั่วโลกรันคัสตอมเมด
mapreduce งานมากกว่า Hadoop ที่อ่านข้อมูลที่เก็บไว้ในไฟล์ดิบ
hdfs repartitions พวกเขาและเป็นหลายส่วน เช่น
โหนดในคลัสเตอร์การ repartitioning งานไม่ต้องเสียค่าใช้จ่ายในการเรียงลำดับของงาน

mapreduce ทั่วไป hasher ท้องถิ่นแล้วคัดลอกพาร์ทิชันจาก hdfs เข้า
ท้องถิ่นระบบแฟ้มของแต่ละโหนด และครั้งที่สองพาร์ทิชันไฟล์
ขนาดชิ้นขึ้นอยู่กับขนาดก้อนสูงสุด
แฮชฟังก์ชันการตั้งค่า ใช้ทั้ง hasher และทั่วโลก
hasher ท้องถิ่นแตกต่างกันเพื่อให้แน่ใจว่าชิ้นที่มีขนาดสม่ำเสมอ พวกเขา
ยังแตกต่างจาก Hadoop ปริยายของกัญชาฟังก์ชันพาร์ทิชันให้
ดีกว่าสมดุลภาระเมื่อรันงาน mapreduce มากกว่า

5.2.4 ข้อมูล SQL เพื่อ mapreduce เพื่อ SQL ( SMS ) hadoopdb วางแผน
ให้ front-end ฐานข้อมูลขนานนักวิเคราะห์ข้อมูล
ให้กระบวนการ SQL แบบสอบถาม .
SMS วางแผนขยายรังผึ้ง [ 11 ] .รังเปลี่ยน hiveql ,
แปรของ SQL ใน mapreduce งานที่เชื่อมต่อกับตารางเก็บไว้
เป็นแฟ้มใน hdfs . การ mapreduce งานประกอบด้วยเดคากรัมของผู้ประกอบการสัมพันธ์
( เช่นกรอง , เลือก ( โครงการ ) , ร่วม , aggregation )
ที่ทํางานเป็น iterators : ผู้ประกอบการแต่ละทูเปิลจะส่งต่อข้อมูล
ผู้ประกอบการต่อไป หลังจากการประมวลผลแล้ว เนื่องจากแต่ละตารางจะถูกเก็บไว้เป็นแฟ้มแยกต่างหากใน hdfs
,รังผึ้ง ถือว่าไม่มีการจัดวางโต๊ะใน
โหนด ดังนั้น การดำเนินการที่เกี่ยวข้องกับหลายตารางมักจะ
ต้องการมากที่สุดของการประมวลผลที่เกิดขึ้นในขั้นตอนของการลด mapreduce งาน สมมติฐานนี้ไม่สมบูรณ์ค้างใน
hadoopdb เป็นบางโต๊ะจะวางไว้ และหากแบ่งตาม
คุณลักษณะเดียวกันเข้าร่วมงานสามารถผลักดันทั้งหมดใน

ฐานข้อมูลชั้นเข้าใจว่าเราขยายรังผึ้ง SMS ตลอดจนความแตกต่าง
ระหว่างรังผึ้งและ SMS ครั้งแรกที่เราอธิบายวิธีการสร้างรัง
งาน mapreduce ปฏิบัติการเพื่อง่าย groupby
รวมแบบสอบถาม แล้ว เราจะได้อธิบายวิธีการที่เราปรับเปลี่ยนการดำเนินการวางแผน
hadoopdb โดยผลักดันมากที่สุดของแบบสอบถามการประมวลผลตรรกะเป็นฐานข้อมูลชั้น
.
พิจารณาแบบสอบถามต่อไปนี้ :
เลือกปี ( saledate ผลรวม ( รายได้ )
)1 ปีขาย ( saledate ) ;
รังกระบวนการแบบสอบถาม SQL ข้างต้นในชุดของขั้นตอน :
( 1 ) สำหรับแปลงแบบสอบถามเป็นต้นไม้ไวยากรณ์บทคัดย่อ .
( 2 ) เครื่องวิเคราะห์ระบบเชื่อมต่อกับรังภายในแคตตาล็อก
metastore , เพื่อดึง schema ของตารางการขาย มันยัง populates เป็นโครงสร้างข้อมูลที่แตกต่างกันด้วย

Meta ข้อมูลเช่นการ deserializer inputformat ชั้นเรียนและต้องเข้ารับการสแกนและสารสกัดจากข้อมูลที่จำเป็น ตาราง
.
( 3 ) แผนตรรกะ สร้างแล้วสร้างวันที่ของผู้ประกอบการแบบแผนแบบสอบถาม
.
( 4 ) การเพิ่มประสิทธิภาพแบบสอบถามวางแผนที่จะสร้างองวางแผนเพิ่มมากขึ้น

ตัวอย่างเช่น ผลักดันให้ผู้ประกอบการกรองเข้าใกล้
ตารางการสแกน ผู้ประกอบการ ฟังก์ชันหลักของการเพิ่มประสิทธิภาพคือการสลาย
แผนแผนที่ หรือลดระยะ โดยเฉพาะอย่างยิ่งมันเพิ่ม repartition
) ที่รู้จักกันว่าลดจม ) ก่อนที่จะเข้าร่วมผู้ประกอบการ
หรือ groupby . ผู้ประกอบการเหล่านี้เครื่องหมายแผนที่และลด

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.