s the Data Warehouse Dead?
The role of the data warehouse in the big data era
MAY 31, 2013
by Andrew Foo
TOPICS: IBM Watson Foundations, Big Data Technology, Hadoop, Analytics
TAGS: big data, data warehouse, EDW, LDW, VDW
Many technologists have claimed that in the age of big data, the data warehouse is no longer relevant. Some thought leaders predict that implementations of data warehouses—particularly enterprise data warehouses (EDWs)—will decline and eventually cease to prevail.
Big data has spurred the creation of a new paradigm for how we manage and analyze data, and how we deliver insight. It has helped produce exciting opportunities for businesses that can capitalize on fresh sources of information. But does the emergence of big data mean that we should throw away what we’ve learned in the last 30 or so years of data warehousing? No. The data warehouse is not irrelevant, on its way out, nor dead. I would argue that it has evolved.
The need for data warehouses
Companies implement data warehouses to consolidate data from operational applications in order to provide a centralized repository built specifically for analysis and reporting. Some persist data for the entire enterprise (as in the EDW), but some provide this capability only for specific business departments so those departments can create subject-oriented data warehouses or line-of-business data marts.
Regardless of the scope of the data, the reason why companies choose to implement data warehouses is because the data and analysis to be gained from a data warehouse are of high value. This data, plus the analysis, helps to drive revenue growth, manage operational and financial risk, and maintain regulatory and legislative compliance. The insights derived from data warehouses are fundamental to the sustainability of the organization. As such, data stored in data warehouses, and the processes to manage and query this data, need to be governed. The data and processes must be structured, modeled, made repeatable, and made trustworthy. Accomplishing these goals requires an investment in time and personnel resources. Data must be processed so that it is presented in a standardized, normalized, and dimensional state that is fit for broad business consumption.
So why is there a perception that the data warehouse has not fulfilled its promise? The most common business answer is that traditional data warehousing is a costly and slow exercise, since data needs to be modeled and transformed. The practice of data warehousing has provided a successful foundation for organizations that choose to invest in treating their high-value information as an asset. However, data warehousing is stretched when organizations need to deal with volatile data sources that are highly variable in format. In today’s big data landscape, technology is producing large volumes and varieties of data at incredible speeds.
The introduction of big data technologies
Fortunately, technology has caught up to the volume, variety, and velocity of data. Options such as Hadoop, streams-based computing, and high-performance analytic solutions are changing the game by delivering rapid insights from big data. To reduce the time-to-insight barrier, these technologies avoid the redundancy of modeling and transformation by using methods such as assemble-on-demand, no-schema, schema-later, and schema-on-run.
The volatility of these approaches is a challenge for the humble data warehouse, though. As a result, some big data enthusiasts argue that traditional data warehousing methods are no longer applicable in today’s data landscape.
Many companies I work with are embarking on a big data strategy using Hadoop. In most situations, the Hadoop environment becomes a repository for data collection and a system that sits on its own. Universal data stores (UDS) and big data stores (BDS) serve as platforms for collecting all types of data sources, including internal and external (such as social media data). These platforms can be tapped and mined for potential business benefit.
Using big data solutions to complement data warehousing
Hadoop is an important part of what big data technologies can offer. But it is critical to merge big data with the traditional enterprise data strategy.
Many organizations are exploring and implementing a logical data warehouse (LDW) or a virtual data warehouse (VDW). The premise of an LDW or VDW is that there is no single data repository. Instead, the data warehouse is an ecosystem of multiple fit-for-purpose repositories, technologies, and tools that combine to manage and provide enterprise and personal analytics. In an LDW, Hadoop provides a powerful, low-cost repository for both structured and unstructured data. It complements the EDW for a UDS/ODS in the same way high-performance analytic appliances complement the EDW for data marts.
The key to this approach is the interoperability of these tools within the ecosystem. For example, the traditional data warehouse must be able to draw insight from Hadoop and vice versa. IT groups should agree on applicable use cases or design patterns (see Figure 1) when deciding which platform to use.
Once data is explored and considered to be of high value to the organization, there needs to be a path within the LDW for data and analyses to be propagated into the data warehouse for repeatability and broad consumption to the business user community.
[table id=1 /]
Bringing new life to the data warehouse
The idea that the data warehouse is dead is somewhat far-fetched. Yes, a data warehouse may be expensive and slow. But consider its use for your high-value information and think about why you would implement one.
Big data brings new life to the data warehouse by enriching it and introducing new insights taken from non-traditional sources, as well as unexplored data sources. The integration of big data and traditional data warehousing can produce results that are the best of both worlds. Together, big data solutions and data warehouses can deliver a complete solution for your enterprise data management strategy.
What is your approach to big data and warehousing? Which method has achieved the best outcome for your organization? Feel free to post your comments here or connect with me on Twitter @fooisms.
s โกดังข้อมูลตาย
บทบาทของคลังสินค้าของข้อมูลในยุคข้อมูล
ใหญ่ 31 พฤษภาคม 2556 โดย แอนดรูว์ ฟู
หัวข้อ : ไอบีเอ็ม วัตสัน ฐานรากใหญ่ข้อมูลเทคโนโลยี , Hadoop , Analytics
Tags : ใหญ่ข้อมูล คลังสินค้า ข้อมูล edw ldw VDW
, , มากนักได้อ้างว่าในยุคของข้อมูลใหญ่ คลังข้อมูลไม่เกี่ยวข้องผู้นำคิดว่าบางคนคาดการณ์ว่าการใช้งานของข้อมูลโดยเฉพาะอย่างยิ่งองค์กรคลังสินค้าข้อมูลคลังสินค้า ( edws ) จะลดลงและในที่สุดหยุดชนะ
ใหญ่ข้อมูลได้กระตุ้นการสร้างกระบวนทัศน์ใหม่สำหรับวิธีการที่เราจัดการและวิเคราะห์ข้อมูลอย่างไร และเราให้เข้าใจ มันช่วยสร้างโอกาสที่น่าตื่นเต้นสำหรับธุรกิจที่สามารถใช้ประโยชน์จากแหล่งใหม่ของข้อมูลแต่การเกิดขึ้นของข้อมูลใหญ่หมายความว่าเราควรจะทิ้งสิ่งที่เราได้เรียนรู้ในช่วง 30 หรือดังนั้นปีของคลังสินค้าข้อมูล ไม่ ข้อมูลคลังสินค้าไม่ไม่เกี่ยวข้อง ระหว่างทางออก หรือตาย ผมเห็นว่ามันมีการพัฒนา
ต้องการข้อมูลคลังสินค้าบริษัทใช้คลังสินค้าข้อมูลการรวมข้อมูลจากการปฏิบัติงานเพื่อให้เก็บที่ส่วนกลางที่สร้างขึ้นเฉพาะสำหรับการวิเคราะห์และการรายงาน บางยังคงข้อมูลทั่วทั้งองค์กร ( เช่นใน edw )แต่บางคนให้ความสามารถเฉพาะแผนกธุรกิจเฉพาะ ดังนั้น หน่วยงานเหล่านั้นสามารถสร้างวิชาที่มุ่งเน้นข้อมูลคลังสินค้าหรือบรรทัดของข้อมูลธุรกิจตลาด
ไม่ว่าขอบเขตของข้อมูล สาเหตุที่บริษัทเลือกใช้คลังสินค้าข้อมูล เพราะข้อมูลที่ได้รับจากคลังสินค้าของข้อมูลที่มีค่าสูง ข้อมูลนี้ บวกกับการวิเคราะห์จะช่วยผลักดันการเติบโตของรายได้บริหารความเสี่ยงด้านปฏิบัติการและการเงิน และรักษากฎระเบียบข้อบังคับทางกฎหมายและการปฏิบัติตาม ข้อมูลเชิงลึกที่ได้มาจากคลังสินค้าข้อมูลพื้นฐานเพื่อความยั่งยืนขององค์กร เช่น ข้อมูลที่เก็บไว้ในคลังสินค้าข้อมูล และกระบวนการจัดการและการสืบค้นข้อมูลนี้ ต้องถูกควบคุม ข้อมูลและกระบวนการจะต้องมีโครงสร้าง หุ่นจำลองให้ทำซ้ำ และเชื่อถือได้ การบรรลุเป้าหมายเหล่านี้ต้องใช้ในการลงทุนเวลาและบุคลากรทรัพยากร ข้อมูลจะถูกประมวลผลเพื่อให้มันแสดงในมาตรฐานปกติ และมิติของรัฐที่เหมาะสำหรับการบริโภคธุรกิจคร่าว ๆ
แล้วทำไมมีการรับรู้ที่คลังสินค้าของข้อมูลได้ไม่ปฏิบัติตามสัญญา ?ธุรกิจส่วนใหญ่ตอบว่าคลังข้อมูลดั้งเดิมเป็นการออกกำลังกายราคาแพงและช้า เนื่องจากข้อมูลที่ต้องสร้างและแปลง . การปฏิบัติของการจัดการข้อมูลได้ให้พื้นฐานที่ประสบความสำเร็จสำหรับองค์กรที่เลือกที่จะลงทุนในการรักษาข้อมูลสำคัญของพวกเขาเป็นสินทรัพย์ อย่างไรก็ตามคลังข้อมูลคือยืด เมื่อองค์กรต้องจัดการกับแหล่งข้อมูลระเหยที่ขอแปรในรูปแบบ ในวันนี้ใหญ่แนวนอนข้อมูล เทคโนโลยีการผลิต ปริมาณขนาดใหญ่และความหลากหลายของข้อมูลที่ความเร็วเหลือเชื่อ
โชคดีใหญ่ข้อมูลเบื้องต้นของเทคโนโลยีที่มีเทคโนโลยีจับระดับเสียงที่หลากหลายและความเร็วของข้อมูล ตัวเลือกเช่น Hadoop ,กระแสที่ใช้คอมพิวเตอร์ประสิทธิภาพสูงและโซลูชั่นการวิเคราะห์จะเปลี่ยนเกมด้วยการส่งอย่างรวดเร็วของข้อมูลเชิงลึกจากข้อมูลใหญ่ เพื่อลดเวลาในการเข้าใจอุปสรรคเทคโนโลยีเหล่านี้หลีกเลี่ยงความซ้ำซ้อนของแบบจำลองและการแปลงโดยใช้วิธีการเช่นรวบรวมความต้องการ ไม่มีคีคี , ต่อมา , และรูปแบบบน
วิ่งความผันผวนของวิธีการเหล่านี้คือความท้าทายสำหรับคลังสินค้าข้อมูล ต้อยนะ ผล บางใหญ่ข้อมูลผู้ยืนยันว่าวิธีการคลังข้อมูลดั้งเดิมไม่สามารถใช้ได้ในวันนี้ภูมิข้อมูล
หลาย บริษัท ที่ผมทำงานกับ embarking บนใหญ่ข้อมูลกลยุทธ์การใช้ Hadoop . ในสถานการณ์ส่วนใหญ่สิ่งแวดล้อม Hadoop กลายเป็นที่เก็บรวบรวมข้อมูลและระบบที่อยู่ในตัวของมันเอง ข้อมูลร้านค้าสากล ( เธอ ) และเก็บข้อมูลใหญ่ ( ให้ ) เป็นแพลตฟอร์มสำหรับการจัดเก็บทุกประเภทของแหล่งข้อมูล ทั้งภายในและภายนอก ( เช่น ข้อมูลสื่อสังคม ) แพลตฟอร์มเหล่านี้สามารถเคาะ และขุดเพื่อผลประโยชน์ทางธุรกิจที่มีศักยภาพ .
การใช้โซลูชั่นข้อมูลใหญ่ไปกว่า Hadoop คลังสินค้า
ข้อมูลเป็นส่วนหนึ่งของสิ่งที่เทคโนโลยีข้อมูลใหญ่เสนอได้ แต่มันเป็นสิ่งสำคัญที่จะผสานข้อมูลกับกลยุทธ์ข้อมูลองค์กรแบบดั้งเดิม
หลายองค์กรมีการสำรวจและการใช้คลังสินค้าของข้อมูลเชิงตรรกะ ( ldw ) หรือข้อมูลเสมือนคลังสินค้า ( VDW ) สถานที่ตั้งของ ldw หรือ VDW นั่นคือไม่มีข้อมูลเก็บข้อมูลแทน , ข้อมูลคลังสินค้าเป็นระบบนิเวศหลายเหมาะสมกับจุดประสงค์ที่เก็บ เทคโนโลยี และเครื่องมือที่ใช้ในการจัดการ และให้องค์กรและข้อมูลส่วนบุคคล ใน ldw Hadoop , ให้มีประสิทธิภาพ ต้นทุนต่ำ ทั้งโครงสร้าง และเก็บข้อมูลที่ไม่มีโครงสร้าง .มันจะช่วยให้ edw สําหรับเธอ / บอกในลักษณะเดียวกันเครื่องใช้วิเคราะห์ประสิทธิภาพสูงกว่า edw สำหรับศูนย์ข้อมูล .
คีย์ วิธีการนี้เป็นวิธีการของเครื่องมือเหล่านี้ภายในระบบนิเวศ ตัวอย่างเช่น ข้อมูลคลังสินค้าแบบดั้งเดิมจะต้องสามารถที่จะดึงข้อมูลเชิงลึกจาก Hadoop และในทางกลับกันกลุ่มนี้ควรจะเห็นด้วยกับกรณีการใช้ บังคับ หรือรูปแบบการออกแบบ ( ดูรูปที่ 1 ) ในการตัดสินใจซึ่งเป็นแพลตฟอร์มที่จะใช้
เมื่อข้อมูลมีการสํารวจและถือเป็นมูลค่าสูงให้กับองค์กรที่มีความต้องการที่จะเป็นเส้นทางภายใน ldw สำหรับข้อมูลและวิเคราะห์เพื่อขยายพันธุ์ในคลังข้อมูลสำหรับการ และกว้าง ใช้ชุมชนของผู้ใช้ทางธุรกิจ
[ ตาราง id = 1 ]
นำชีวิตใหม่กับคลังข้อมูล
ความคิดที่ว่า ข้อมูลคลังสินค้าตายแล้วค่อนข้างไกลเรียก . ใช่ , คลังสินค้าของข้อมูลอาจจะแพงและช้า แต่ลองใช้ของข้อมูลสำคัญของคุณและคิดเกี่ยวกับเหตุผลที่คุณจะใช้หนึ่ง
ใหญ่ข้อมูลใหม่ นำชีวิตไปยังคลังสินค้าของข้อมูลโดยสมบูรณ์ และนำเสนอข้อมูลเชิงลึกใหม่ถ่ายจากแหล่งที่ไม่ใช่แบบดั้งเดิมเช่นเดียวกับ unexplored ข้อมูลแหล่งที่มา การบูรณาการข้อมูลและคลังข้อมูลขนาดใหญ่แบบดั้งเดิมสามารถให้ผลลัพธ์ที่ดีที่สุดของโลกทั้งสอง กันใหญ่ ข้อมูลโซลูชั่นและข้อมูลคลังสินค้าสามารถส่งมอบโซลูชั่นที่สมบูรณ์สำหรับกลยุทธ์การจัดการข้อมูลองค์กรของคุณ .
อะไรวิธีการใหญ่ข้อมูลและคลังสินค้า ? วิธีที่ได้ผลที่ดีที่สุดสำหรับองค์กรของคุณรู้สึกฟรีเพื่อโพสต์ความคิดเห็นของคุณที่นี่หรือเชื่อมต่อกับฉัน fooisms Twitter @ .
การแปล กรุณารอสักครู่..