where fr(X) is the frequency of X in the relation from
which s was drawn.
To analyze the error, we consider sampling with replacement.
The reason is that we want to avoid making
other assumptions of the database size except that it
is large. For sampling with replacement the size of the
database has no effect on the analysis, so the results
apply, in principle, on infinitely large databases. To
emphasize this, the relation from which a sample is
drawn is not shown in the notation of the error. For
very large databases there is practically no difference
between sampling with and without replacement.
In the following we analyze the number of rows
in the sample s that contain X, denoted m(X, s).
The random variable m(X, s) has binomial distribution,
i.e., the probability of m(X, s) = c, denoted
Pr[m(X, s) = c], is
โดยที่ fr(X) คือ ความถี่ของ X ในความสัมพันธ์จาก
s ที่ออก
เพื่อวิเคราะห์ข้อผิดพลาด เราพิจารณาสุ่มตัวอย่างกับเปลี่ยน
เป็นเหตุผลที่เราต้องการหลีกเลี่ยงทำ
สมมติฐานอื่น ๆ ของฐานข้อมูลขนาดยกเว้นที่มัน
ใหญ่ สำหรับการสุ่มตัวอย่างกับเปลี่ยนขนาด
ไม่มีฐานข้อมูลมีผลการวิเคราะห์ ดังนั้นผลลัพธ์
ใช้ หลัก บนฐานข้อมูลขนาดใหญ่เพียบ การ
เน้นนี้ ซึ่งเป็นตัวอย่างความสัมพันธ์
วาดจะไม่แสดงสัญลักษณ์ของข้อผิดพลาด สำหรับ
ฐานข้อมูลขนาดใหญ่มากมีอยู่จริงไม่แตกต่าง
ระหว่างสุ่มตัวอย่างที่มี และไม่ มีเปลี่ยน.
ในต่อไปนี้ เราวิเคราะห์จำนวนแถว
ใน s ตัวอย่างที่ประกอบด้วย X สามารถบุ m(X, s) ว่า
m สุ่มตัวแปร (X, s) ได้ทวินาม distribution,
i.e ความน่าเป็นของ m (X, s) = c สามารถบุ
Pr [m (X, s) = c], เป็น
การแปล กรุณารอสักครู่..
ที่เ (X) เป็นความถี่ของ X ในความสัมพันธ์จากการ
ที่ถูกดึงออกมา
เพื่อวิเคราะห์ข้อผิดพลาดที่เราพิจารณาการเก็บตัวอย่างด้วยการเปลี่ยน
เหตุผลก็คือว่าเราต้องการที่จะหลีกเลี่ยงการทำ
สมมติฐานอื่น ๆ ของฐานข้อมูลขนาดยกเว้นว่าจะ
มีขนาดใหญ่ . สำหรับการสุ่มตัวอย่างด้วยการเปลี่ยนขนาดของ
ฐานข้อมูลมีผลต่อการวิเคราะห์ไม่ดังนั้นผลที่
ใช้ในหลักการเกี่ยวกับฐานข้อมูลขนาดใหญ่เพียบ ที่จะ
เน้นนี้ความสัมพันธ์ที่กลุ่มตัวอย่างมีความ
วาดไม่ได้แสดงในสัญกรณ์ของข้อผิดพลาด สำหรับ
ฐานข้อมูลขนาดใหญ่มากมีความเป็นจริงไม่มีความแตกต่าง
ระหว่างกลุ่มตัวอย่างที่มีและไม่มีการเปลี่ยน
ในต่อไปนี้เราจะวิเคราะห์จำนวนแถว
ในกลุ่มตัวอย่างของที่มี X, m แสดง (x, s)
ตัวแปรสุ่มเมตร (x, s) มีการกระจายทวินาม
คือความน่าจะเป็นของเมตร (x, s) = C, แสดง
Pr [ม (x, s) = ค] เป็น
การแปล กรุณารอสักครู่..
ที่ FR ( x ) คือ ความถี่ของ x ในความสัมพันธ์ที่ถูกวาดจาก
.
วิเคราะห์ข้อผิดพลาด เราพิจารณาตัวอย่างแทน .
เหตุผลที่เราต้องการที่จะหลีกเลี่ยงการ
สมมติฐานอื่น ๆของขนาดฐานข้อมูล ยกเว้นมัน
มีขนาดใหญ่ สำหรับตัวอย่างการขนาดของ
ฐานข้อมูลไม่มีผลต่อการวิเคราะห์ ดังนั้นผล
ใช้ในหลักการ บนฐานข้อมูลขนาดใหญ่เพียบ
เน้นนี้ ความสัมพันธ์ จากตัวอย่างที่เป็น
วาดจะไม่แสดงในสัญลักษณ์ของข้อผิดพลาด สำหรับฐานข้อมูลขนาดใหญ่มากมีจริง
) ไม่มีความแตกต่างระหว่างมีกับไม่มีแทน .
ในต่อไปนี้เราจะวิเคราะห์จำนวนแถว
ในตัวอย่างที่ประกอบด้วยเครื่องหมาย X , M ( x , S )
ตัวแปร m ( X , s ) มีการแจกแจงแบบทวินาม
I , ความน่าจะเป็น ของ M ( X , s ) = Cกล่าวคือ
PR [ M ( X , s ) = c ] ,
การแปล กรุณารอสักครู่..