In this second fact table we will define the granularity to be the individual
page event in each customer session. With simple, static HTML pages, we may
be able to record only one interesting event per page view, namely, the page
view itself. As Web sites employ dynamically created XML-based pages with
the ability to establish an ongoing dialogue through the page, the number and
types of events will grow.
It is likely that this fact table will become astronomical in size. We will resist
the urge to aggregate the table up to a coarser granularity because such a step
inevitably involves eliminating dimensions. Actually, the first fact table we
built for this data mart represents just such an aggregation. It is a worthwhile
fact table, but the analyst cannot ask questions about visitor behavior or individual pages. When the individual page-oriented data set gets too large, then
in order to preserve the ability to analyze detailed behavior, either the time
span of the data must be restricted or statistical sampling techniques must be
used to reduce data size. Although disk storage capacity has been doubling
even faster (every 12 months, supposedly) than processing power, our propensity to collect reams of data seems to be doubling at an even faster pace.
Having chosen the grain, we can choose the appropriate dimensions. Our list
of dimensions includes calendar date, time of day, customer, page, event, session, session ID, product, causal, and referrer. The completed design is shown
in Figure 14.4.
ในความเป็นจริงสองโต๊ะเราจะกําหนด granularity เป็นเหตุการณ์แต่ละหน้า
ในลูกค้าแต่ละเซสชัน กับง่าย , หน้า HTML แบบคงที่ เราอาจ
สามารถบันทึกเพียงหนึ่งที่น่าสนใจเหตุการณ์ต่อเพจวิว คือ วิวหน้า
นั่นเอง เป็นเว็บไซต์แบบไดนามิกเว็บจ้างสร้าง XML ตามหน้าเว็บที่มีความสามารถในการสร้างอย่างต่อเนื่อง
บทสนทนาผ่านหน้าหมายเลข
ประเภทเหตุการณ์จะเติบโต .
มันมีแนวโน้มว่า ข้อเท็จจริงนี้ โต๊ะจะเป็นดาราศาสตร์ ในขนาด เราจะต่อต้าน
อยากรวมโต๊ะกับ granularity ชนิดเพราะขั้นตอนดังกล่าว
ย่อมเกี่ยวข้องกับการพิจารณา จริงๆ แล้ว เรื่องแรกที่สร้างขึ้นสำหรับข้อมูลตารางเรา
มาร์ทเป็นเพียงเช่นสมุห์ . มันคือโต๊ะ
ความเป็นจริงคุ้มค่าแต่นักวิเคราะห์ไม่สามารถถามคำถามเกี่ยวกับพฤติกรรมหรือการเข้าชมแต่ละหน้า เมื่อแต่ละหน้าและชุดข้อมูลที่ได้รับมีขนาดใหญ่เกินไปแล้ว
เพื่อรักษาความสามารถในการวิเคราะห์พฤติกรรมของทั้งเวลา
ช่วงของข้อมูลต้องถูก จำกัด หรือสถิติ การสุ่มตัวอย่างต้อง
ใช้เพื่อลดขนาดของข้อมูล ถึงแม้ว่าความจุดิสก์ได้รับสองเท่า
ได้เร็วขึ้น ( ทุก 12 เดือน สมมุติ ) มากกว่าการประมวลผลพลังงาน ความโน้มเอียงของเราเก็บรีมข้อมูลดูเหมือนจะเสแสร้งที่ก้าวเร็วขึ้น .
เลือกเมล็ดข้าว เราสามารถเลือกขนาดให้เหมาะสม รายชื่อของเรา
มิติรวมถึงวันที่ปฏิทิน , เวลาของวัน , ลูกค้า , หน้า , เหตุการณ์ , เซสชั่น , ID ของเซสชัน , ผลิตภัณฑ์ , สาเหตุ , และอ้างอิง . การออกแบบเสร็จสมบูรณ์จะแสดงในรูปที่ 6
.
การแปล กรุณารอสักครู่..