partly due to the increased automation with which data can be produced
(more business processes are becoming digitized), the proliferation
of sensors and data-producing devices, Web-scale interactions
with customers, and government compliance demands along
with strategic corporate initiatives requiring more historical data
to be kept online for analysis. It is no longer uncommon to hear
of companies claiming to load more than a terabyte of structured
data per day into their analytical database system and claiming data
warehouses of size more than a petabyte [19].
Given the exploding data problem, all but three of the above
mentioned analytical database start-ups deploy their DBMS on a
shared-nothing architecture (a collection of independent, possibly
virtual, machines, each with local disk and local main memory,
connected together on a high-speed network). This architecture
is widely believed to scale the best [17], especially if one takes
hardware cost into account. Furthermore, data analysis workloads
tend to consist of many large scan operations, multidimensional aggregations,
and star schema joins, all of which are fairly easy to
parallelize across nodes in a shared-nothing network. Analytical
DBMS vendor leader, Teradata, uses a shared-nothing architecture.
Oracle and Microsoft have recently announced shared-nothing analytical
DBMS products in their Exadata1 and Madison projects,
respectively. For the purposes of this paper, we will call analytical
DBMS systems that deploy on a shared-nothing architecture parallel
databases2.
Parallel databases have been proven to scale really well into the
tens of nodes (near linear scalability is not uncommon). However,
there are very few known parallel databases deployments consisting
of more than one hundred nodes, and to the best of our knowledge,
there exists no published deployment of a parallel database with
nodes numbering into the thousands. There are a variety of reasons
why parallel databases generally do not scale well into the hundreds
of nodes. First, failures become increasingly common as one adds
more nodes to a system, yet parallel databases tend to be designed
with the assumption that failures are a rare event. Second, parallel
databases generally assume a homogeneous array of machines, yet
it is nearly impossible to achieve pure homogeneity at scale. Third,
until recently, there have only been a handful of applications that required
deployment on more than a few dozen nodes for reasonable
performance, so parallel databases have not been tested at larger
scales, and unforeseen engineering hurdles await.
As the data that needs to be analyzed continues to grow, the number
of applications that require more than one hundred nodes is beginning
to multiply. Some argue that MapReduce-based systems
ส่วนหนึ่งเนื่องจากการทำงานอัตโนมัติที่เพิ่มขึ้นซึ่งสามารถผลิตข้อมูล(กระบวนการทางธุรกิจมากขึ้นจะกลายเป็นรูปดิจิทัล), ขยายเซนเซอร์ และอุปกรณ์ผลิตข้อมูล โต้ตอบมาตราส่วนเว็บกับลูกค้า และรัฐบาลต้องปฏิบัติตามมีทธิ์ของบริษัทต้องการข้อมูลเพิ่มเติมประวัติศาสตร์จะเก็บไว้ออนไลน์สำหรับการวิเคราะห์ ไม่ใช่ฟังของบริษัทที่ว่า โหลด มากกว่าเทราไบต์ของโครงสร้างข้อมูลสำหรับแต่ละวันลงในระบบฐานข้อมูลวิเคราะห์ของพวกเขาและการอ้างข้อมูลคลังสินค้าขนาดมากกว่า [19] เพตะไบต์ให้ระเบิดข้อมูลปัญหา แต่ทั้งสามข้างต้นตอัพฐานข้อมูลการวิเคราะห์ดังกล่าวใช้ของ DBMS ในการสถาปัตยกรรมมีอะไรใช้ร่วมกัน (เป็นชุดของอิสระ อาจจะเครื่องเสมือน แต่ละดิสก์ภายในเครื่องและหน่วยความจำหลักภายในเครื่องเชื่อมต่อกันบนเครือข่ายความเร็วสูง) สถาปัตยกรรมนี้กันอย่างแพร่หลายเชื่อว่าขนาดดีที่สุด [17], โดยเฉพาะอย่างยิ่งถ้าเรานำฮาร์ดแวร์ที่ต้นทุนเป็นต้น นอกจากนี้ ข้อมูลวิเคราะห์ปริมาณงานมักจะ ประกอบด้วยหลายแกนใหญ่การดำเนินงาน รวมหลายและดาวแผนรวม ที่ได้ค่อนข้างง่ายparallelize ข้ามโหนดในเครือข่ายที่ใช้ร่วมกันไม่ วิเคราะห์ผู้นำของผู้จัดจำหน่าย DBMS, Teradata ใช้สถาปัตยกรรมมีอะไรร่วมกันOracle และ Microsoft ได้ออกมาประกาศไม่ร่วมวิเคราะห์ผลิตภัณฑ์ DBMS ในโครงการของพวกเขา Exadata1 และเมดิสันตามลำดับ สำหรับวัตถุประสงค์ของเอกสารนี้ เราจะเรียกวิเคราะห์DBMS systems that deploy on a shared-nothing architecture paralleldatabases2.Parallel databases have been proven to scale really well into thetens of nodes (near linear scalability is not uncommon). However,there are very few known parallel databases deployments consistingof more than one hundred nodes, and to the best of our knowledge,there exists no published deployment of a parallel database withnodes numbering into the thousands. There are a variety of reasonswhy parallel databases generally do not scale well into the hundredsof nodes. First, failures become increasingly common as one addsmore nodes to a system, yet parallel databases tend to be designedwith the assumption that failures are a rare event. Second, paralleldatabases generally assume a homogeneous array of machines, yetit is nearly impossible to achieve pure homogeneity at scale. Third,until recently, there have only been a handful of applications that requireddeployment on more than a few dozen nodes for reasonableperformance, so parallel databases have not been tested at largerscales, and unforeseen engineering hurdles await.As the data that needs to be analyzed continues to grow, the numberof applications that require more than one hundred nodes is beginningto multiply. Some argue that MapReduce-based systems
การแปล กรุณารอสักครู่..
