Data warehouses may contain large volumes of data. To
answer queries efficiently, therefore, requires highly efficient
access methods and query processing techniques. Several
issues arise. First, data warehouses use redundant structures
such as indices and materialized views. Choosing which
indices to build and which views to materialize is an
important physical design problem. The next challenge is to
effectively use the existing indices and materialized views to
answer queries. Optimization of complex queries is another
important problem. Also, while for data-selective queries,
efficient index scans may be very effective, data-intensive
queries need the use of sequential scans. Thus, improving the
efficiency of scans is important. Finally, parallelism needs to
be exploited to reduce query response times. In this short
paper, it is not possible to elaborate on each of these issues.
Therefore, we will only briefly touch upon the highlights.
Index Structures and their Usage
A number of query processing techniques that exploit indices
are useful. For instance, the selectivities of multiple
conditions can be exploited through index intersection. Other
useful index operations are union of indexes. These index
operations can be used to significantly reduce and in many
cases eliminate the need to access the base tables.
Warehouse servers can use bit map indices, which support
efficient index operations (e.g., union, intersection). Consider
a leaf page in an index structure corresponding to a domain
value d. Such a leaf page traditionally contains a list of the
record ids (RIDs) of records that contain the value d.
However, bit map indices use an alternative representation of
the above RID list as a bit vector that has one bit for each
record, which is set when the domain value for that record is
d. In a sense, the bit map index is not a new index structure,
but simply an alternative representation of the RID list. The
popularity of the bit map index is due to the fact that the bit
vector representation of the RID lists can speed up index
intersection, union, join, and aggregation11. For example, if
we have a query of the form column1 = d & column2 = d’,
then we can identify the qualifying records by taking the
AND of the two bit vectors. While such representations can
be very useful for low cardinality domains (e.g., gender), they
can also be effective for higher cardinality domains through
compression of bitmaps (e.g., run length encoding). Bitmap
indices were originally used in Model 204, but many products
support them today (e.g., Sybase IQ). An interesting question
is to decide on which attributes to index. In general, this is
really a question that must be answered by the physical
database design process.
คลังสินค้าข้อมูลอาจมีปริมาณมากของข้อมูล
ตอบแบบสอบถามได้อย่างมีประสิทธิภาพ จึงต้องใช้วิธีการเข้าถึงประสิทธิภาพสูงและเทคนิคการประมวลผลแบบสอบถาม
. หลายประเด็น
เกิดขึ้น แรก , คลังสินค้าข้อมูลใช้โครงสร้างซ้ำซ้อน
เช่นดัชนีและ materialized views เลือกที่
ดัชนีสร้างและมุมมองที่เป็นจริงเป็น
ปัญหาการออกแบบทางกายภาพที่สำคัญความท้าทายต่อไปคือ
มีประสิทธิภาพการใช้ดัชนีที่มีอยู่ และสามารถมองเห็นวิว
ตอบแบบสอบถาม การเพิ่มประสิทธิภาพของแบบสอบถามที่ซับซ้อน เป็นปัญหาสำคัญอีก
. นอกจากนี้ ในขณะที่ข้อมูลการค้นหา
สแกนดัชนีประสิทธิภาพอาจจะมีประสิทธิภาพมาก , ข้อมูลเข้ม
สงสัยต้องใช้สแกนต่อเนื่องกัน ดังนั้น การปรับปรุงประสิทธิภาพของการสแกน
เป็นสิ่งสำคัญ ในที่สุด ความต้องการ
สามารถใช้ประโยชน์เพื่อลดเวลาในการตอบสนองการสอบถาม ในกระดาษสั้น
นี้ , มันเป็นไปไม่ได้ที่จะอธิบายในแต่ละประเด็นเหล่านี้
ดังนั้นเราจะเพียงสั้น ๆ สัมผัสกับไฮไลท์
โครงสร้างดัชนีและการใช้งานของจำนวนแบบสอบถามที่ใช้เทคนิคการประมวลผลดัชนี
เป็นประโยชน์ เช่น selectivities ของเงื่อนไขหลายเงื่อนไข
สามารถใช้ดัชนีผ่านสี่แยก
อื่น ๆดัชนีการดำเนินงานที่มีประโยชน์เป็นสหภาพของดัชนี การดำเนินงานดัชนี
เหล่านี้สามารถใช้เพื่อลดและในหลายกรณี
ไม่ต้องเข้าถึงฐานตาราง
เซิร์ฟเวอร์คลังสินค้าสามารถใช้ดัชนีแผนที่ บิต ซึ่งสนับสนุนการดำเนินงานดัชนีประสิทธิภาพ ( สี่แยก
เช่นสหภาพ ) พิจารณา
ใบหน้าในดัชนีโครงสร้างที่สอดคล้องกับค่าโดเมน
dเช่นใบหน้าแต่เดิมประกอบด้วยรายการของ
บันทึกรหัส ( rids ) ของระเบียนที่มีค่า D .
แต่ดัชนีแผนที่บิตใช้เป็นตัวแทนของทางเลือก
รายการกำจัดข้างต้นเป็นบิตเวกเตอร์ที่มีบิตสำหรับแต่ละ
บันทึกซึ่งเป็นชุดเมื่อค่าโดเมนสำหรับบันทึกที่
D . ในความรู้สึก บิตแผนที่ดัชนีเป็นดัชนีโครงสร้างใหม่
แต่ก็เป็นทางเลือกที่เป็นตัวแทนของรายการที่จัด
แผนที่ดัชนีความนิยมของบิตเนื่องจากบิต
แทนเวกเตอร์รายการกำจัดสามารถเร่งความเร็วดัชนี
สี่แยก , สหภาพ , เข้าร่วม , และ aggregation11 . ตัวอย่างเช่น ถ้า
เรามีแบบสอบถามของแบบฟอร์ม column1 & column2 = D = D '
, แล้วเราสามารถระบุระเบียนที่มีคุณสมบัติโดยการ
และสองบิตเวกเตอร์ในขณะที่เช่นการแสดงสามารถ
เป็นประโยชน์มากสำหรับโดเมนภาวะเชิงการนับต่ำ ( เช่น เพศ ) พวกเขา
ยังสามารถมีประสิทธิภาพสูงกว่าภาวะเชิงการนับโดเมนผ่าน
อัดบิตแมป ( เช่น วิ่งยาวเข้ารหัส ) ดัชนีบิตแมป
ถูกใช้ในรูปแบบ 204 แต่
หลายผลิตภัณฑ์สนับสนุนพวกเขาวันนี้ ( เช่น Sybase IQ ) เป็นคำถามที่น่าสนใจคือ
ตัดสินใจซึ่งคุณลักษณะดัชนี โดยทั่วไป
จริงๆนี้เป็นคำถามที่ต้องตอบโดยทางกายภาพ
ฐานข้อมูลการออกแบบกระบวนการ
การแปล กรุณารอสักครู่..