6.2 Number of Database Passes and Misses
We experimented with Algorithm 1 with the above mentioned sample sizes 20,000 to 80,000. We selected the lowered threshold so that the probability of missing any given frequent set X is less than 6 = 0.001, i.e., given any set X with f?(X) 2 min-fi; we have
Pr~~X, s) < low-fr] < 0.001.
The lowered threshold depends on the frequency threshold and the sample size. The lowered threshold
values are given in Table 3; we used in the computa- tions t,heexact probabilities from the binomial distri- bution, not the Chernoff bounds.
Figure 1 shows the nurnber of database passes for the three different types of algorithms: the level-wise algorithm, Partition, and the sampling Algorithm 1. Each of the data points in t,he results shown for Al- gorithm 1 is the average value over 100 trials. Explain- ing the results is easy. The level-wise algorithm rnakes 1
6.2 จำนวนฐานข้อมูลผ่านและคิดถึง
เราทดลองกับขั้นตอนวิธีที่ 1 กับกลุ่มตัวอย่างดังกล่าวข้างต้นขนาด 20,000 ถึง 80,000 เราเลือกเกณฑ์ลดลงเพื่อให้ความน่าจะเป็นของที่ขาดหายไปได้รับชุดบ่อย X น้อยกว่า 6 = 0.001 คือ X ได้รับการตั้งค่าใด ๆ กับ f (x) 2 นาทีสาย; เรามี
Pr ~ ~ X, s) <ต่ำเ] <0.001
เกณฑ์ลดลงขึ้นอยู่กับเกณฑ์ความถี่และขนาดของกลุ่มตัวอย่าง เกณฑ์ลด
ค่าที่กำหนดในตารางที่ 3; เราใช้ใน computa tions-T, ความน่าจะเป็น heexact จากทวินามดิ-bution ไม่ขอบเขต Chernoff
รูปที่ 1 แสดงให้เห็น nurnber ของฐานข้อมูลผ่านสำหรับสามประเภทแตกต่างกันของขั้นตอนวิธีการ: ขั้นตอนวิธีการในระดับที่ฉลาด Partition, และการสุ่มตัวอย่าง วิธีที่ 1. แต่ละจุดข้อมูลในทีเขาผลการแสดงสำหรับอัล gorithm 1 เป็นค่าเฉลี่ยกว่า 100 การทดลอง อธิบาย-ing ผลเป็นเรื่องง่าย ขั้นตอนวิธีการที่ชาญฉลาดระดับ rnakes 1 <(+1) ผ่านฐานข้อมูลที่ K คือขนาดของชุดบ่อยที่ใหญ่ที่สุด ขั้นตอนวิธีการพาร์ทิชันที่ทำให้สองผ่านไปฐานข้อมูลเมื่อมีชุดบ่อยใด สำหรับ Algorit แฮะ 1 เศษของ ALS ไตรคิดถึงด้วยคาดว่าจะมีขนาดใหญ่กว่า 6 = 0.001, ขึ้นอยู่กับจำนวนชุดบ่อยมีความถี่ค่อนข้างใกล้เคียงกับเกณฑ์และจึงน่าจะคิดถึงในกลุ่มตัวอย่าง ขั้นตอนวิธีการประสบความสำเร็จในการหาชุดบ่อยทั้งหมดในหนึ่งผ่านในเกือบทุกกรณี จำนวนฐานข้อมูลที่ทำโดยผ่าน Partition อั gorithm เป็นจริงสองเท่าของขั้นตอนวิธีที่ 1 และจำนวนของขั้นตอนวิธีผ่านระดับฉลาดขึ้นถึงหกเท่าของขั้นตอนวิธีที่ 1 ตารางที่ 4 แสดงจำนวนของการทดลองที่มีความคิดถึงสำหรับ แต่ละชุดข้อมูลขนาดตัวอย่างและความถี่เกณฑ์ ใน140
การแปล กรุณารอสักครู่..
6.2 จำนวนฐานข้อมูลผ่าน และคิดถึง
เราทดลองกับขั้นตอนวิธีที่ 1 กับที่กล่าวถึงข้างต้นตัวอย่างขนาด 20 , 000 , 000 . เราเลือกปรับลดเกณฑ์เพื่อให้ความน่าจะเป็นของสูญหายให้บ่อยชุด x น้อยกว่า 6 = 0.001 , เช่น เอาชุด X ด้วยตัวอักษร F ( x ) 2 นาที Fi ; เรามี
ประชาสัมพันธ์ ~ ~ X , s ) < FR ] ต่ำ < 0.001 .
การปรับลดเกณฑ์ขึ้นอยู่กับความถี่และระดับขนาดตัวอย่าง การลดลงของค่าจะได้รับใน ตารางที่ 3
; เราใช้ใน computa - tions T , heexact ความน่าจะเป็นจากการแจกแจงทวินาม distri - bution ไม่ใช่เชอร์นอฟขอบเขต .
รูปที่ 1 แสดง nurnber ฐานข้อมูลผ่านสำหรับสามประเภทที่แตกต่างกันของอัลกอริทึม : ระดับปัญญาของพาร์ทิชันและศึกษาขั้นตอนวิธี 1แต่ละจุดข้อมูลใน t เขาพบอัล - gorithm 1 คือมีค่าเฉลี่ยมากกว่า 100 ครั้ง . อธิบาย - ing ผลง่าย ระดับปัญญาของ rnakes 1 < ( 1 ) ผ่านฐานข้อมูล โดยที่ k คือขนาดของชุดบ่อยมากที่สุด พาร์ทิชันนี้ทำให้สองผ่านฐานข้อมูลเมื่อมีบ่อย ๆ ชุด สำหรับ algorit หือ 1ส่วนของ Tri - ALS ด้วยความคิดถึง คาดว่าจะมีขนาดใหญ่กว่า 6 = 0.001 , ขึ้นอยู่กับวิธีที่พบบ่อย ชุดมีความถี่ค่อนข้างใกล้เคียงกับเกณฑ์ และดังนั้นจึงอาจพลาดในตัวอย่าง วิธีการประสบความสำเร็จในการหาชุดบ่อย ๆทั้งหมดในหนึ่งผ่านในกรณีเกือบทั้งหมด จำนวนฐานข้อมูลจะทำโดยพาร์ทิชัน อัล - gorithm เป็นจริงสองเท่าของขั้นตอนวิธี 1และจํานวนผ่านระดับปัญญานี้ถึงหกเท่าของขั้นตอนวิธีการ 1 .
ตารางที่ 4 แสดงจำนวนของการทดลองกับพลาดสำหรับข้อมูลแต่ละชุดมีขนาดตัวอย่างและค่าความถี่ ใน 140
การแปล กรุณารอสักครู่..