each set of 100 trials, there have

each set of 100 trials, there have been zero to two trials
with misses. The overall fraction of trials with misses
was 0.0038. We repeated the experiment with d = 0.01,
i.e., so that the miss probability of any given frequent
set is at most 0.01. This experiment gave misses in
fraction 0.041 of all the trials. In both cases the fraction
of trials with misses was about four times 6.
The actual amount of reduction in the database
activity depends very much on the storage structures.
For instance, if the database has 10 million rows, a disk
block contains on average 100 rows, and the sample
size is 20,000, then the sampling phase could read up
to 20 % of the database. For the design and analysis of
sampling methods see, e.g, [OR89]. The related problem
of sampling for query estimation is considered in
more detail in [HSSP]. A n alternative for randomly
drawing each row in separation is, of course, to draw
whole blocks of rows to the sample. Depending on how
randomly the rows have been assigned to the blocks,
this method can give very good or very bad results.
141
The reduction in database activity is achieved at the
cost of considering some attribute sets that. the levelwise
algorithm does not generate and check. Table 5
shows the average number of sets considered for data
set T10.14.DlOOK with different sarnple sizes, and
the number of candidate sets of the level-wise algorithm.
The largest absolute overhead occurs with
low thresholds, where the number of itemsets considered
has grown from 318,588 by 64,694 in the worst
case. This growth is not significant for the total execution
time since the itemsets are handled entirely in
main memory. The relative overhead is larger with
higher thresholds, but since the absolute overheads are
very small the effect is negligible. Table 5 indicates
that larger samples cause less overhead (with equally
good results), but that for sample sizes from 20,000 to
80,000 the difference in the overhead is not significant.
To obtain a better picture of the relation of 6 and
the experimental number of trials with misses, we conducted
the following test. We took 100 samples (for
each frequency threshold and sample size) and determined
the lowered frequency threshold that would have
given misses in one out of the hundred trials. Figure 2
presents these results (as points), together with lines
showing the lowered thresholds with 6 = 0.01 or 0.001,
i.e., the thresholds corresponding to miss probabilities
of 0.01 and 0.001 for a given frequent set. The
frequency thresholds that would give misses in fraction
0.01 of cases approximate surprisingly closely the
thresholds for S = 0.01. Experiments with a larger
scale of sample sizes give comparable results. There
are two explanations for the similarity of the values.
One reason is that there are not necessarily many
potential misses, i.e., not many frequent sets with
frequency relatively close to the threshold. Another
reason that contributes to the similarity is that the sets
are not independent.
In the case of a possible failure, Algorithm 2 generates
itera.tively all new candidates and makes another
pass over the database. In our experiments the number
of frequent set.s missed-when any were missed-was
one or two for 6 = 0.001, and one to 16 for 6 = 0.01.
The number of candidates checked on the second pass
was very small compared to the total number of itemsets
checked

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

แต่ละชุดการทดลอง 100 มีศูนย์การทดลองสอง
กับพุ่ง เศษส่วนโดยรวมของการทดลองกับพุ่ง
ถูก 0.0038 เราซ้ำทดลองกับ d = 0.01,
i.e. ให้ความน่าเป็นนางสาวใด ๆ ให้บ่อย
ไว้ที่ 0.01 ส่วนใหญ่ การทดลองนี้ให้พุ่งใน
เศษ 0.041 ของการทดลองทั้งหมด ทั้งในกรณีที่เศษส่วน
ของทดลองกับพุ่งได้ประมาณ 4 ครั้ง 6.
จำนวนลดลงในฐานข้อมูลจริง
กิจกรรมมากขึ้นอยู่กับโครงสร้างที่เก็บ
เช่น ถ้าฐานข้อมูลมีราคา 10 ล้านแถว ดิสก์
บล็อกประกอบด้วยแถวเฉลี่ย 100 และตัวอย่าง
20000 มีขนาด ระยะการสุ่มตัวอย่างสามารถอ่านค่า แล้ว
20% ของฐานข้อมูล สำหรับการออกแบบและวิเคราะห์
สุ่มตัวอย่างวิธีดู เช่น, [OR89] ปัญหาที่เกี่ยวข้อง
ชักตัวอย่างสำหรับการประเมินแบบสอบถามจะถือว่าใน
[HSSP] รายละเอียดเพิ่มเติม ทาง n สำหรับสุ่ม
วาดแต่ละแถวในแยกเป็น หลักสูตร การวาด
บล็อกทั้งหมดของแถวตัวอย่าง ขึ้นอยู่กับว่า
สุ่มแถวได้ถูกกำหนดให้กับบล็อก,
วิธีนี้จะดี หรือเลวร้ายมากผลลัพธ์ได้
141
ลดในกิจกรรมฐานข้อมูลสามารถทำได้ที่
ต้นทุนพิจารณาแอททริบิวต์บางชุดที่ ที่ levelwise
อัลกอริทึมสร้าง และตรวจสอบ ตาราง 5
แสดงจำนวนเฉลี่ยของชุดที่พิจารณาสำหรับข้อมูล
ตั้ง T10.14.DlOOK มีขนาดแตกต่างกัน sarnple และ
จำนวนชุดตัวเลือกของ level-wise อัลกอริทึม
โอเวอร์เฮดแบบสัมบูรณ์ที่ใหญ่ที่สุดเกิดขึ้น
ต่ำขีดจำกัด ซึ่งถือเป็นจำนวน itemsets
ได้เติบโตขึ้นจาก 318,588 โดย 64694 ในร้าย
กรณี เจริญเติบโตนี้ไม่สำคัญสำหรับการดำเนินการรวม
เวลาตั้งแต่ itemsets จะจัดการทั้งหมดใน
หน่วยความจำหลัก ค่าโสหุ้ยญาติขึ้นด้วย
ตั้งแต่วัสดุแน่นอนแต่มีขีดจำกัดสูง
เล็กผลคือระยะ ตาราง 5 แสดง
ว่า ตัวอย่างขนาดใหญ่ทำให้ค่าใช้จ่ายในน้อย (มีเท่า ๆ กัน
ผลดี), แต่สำหรับขนาดตัวอย่างจาก 20000 ให้
80000 ความแตกต่างของค่าโสหุ้ยไม่สำคัญ.
เพื่อให้ได้ภาพดีขึ้นของความสัมพันธ์ของ 6 และ
คิดถึงจำนวนทดลองกับทดลอง เราดำเนิน
การทดสอบต่อไปนี้ เราเอาตัวอย่าง 100 (สำหรับ
แต่ละความถี่จำกัดและตัวอย่างขนาด) และกำหนด
ขีดจำกัดความถี่ต่ำลงซึ่งจะมี
ให้พุ่งในหนึ่งจากทดลองร้อย รูปที่ 2
แสดงผลลัพธ์เหล่านี้ (เป็นจุด), พร้อมกับบรรทัด
แสดงขีดจำกัดลดลง 6 = 0.01 หรือ 0.001,
i.e. ขีดจำกัดที่จะพลาดกิจกรรม
0.01 และ 0.001 สำหรับชุดบ่อยให้ ใน
ขีดจำกัดความถี่ที่จะให้พุ่งเศษ
ประมาณ 0.01 กรณีจู่ ๆ อย่างใกล้ชิด
ขีดจำกัดสำหรับ S = 0.01 ทดลอง มีขนาดใหญ่
ขนาดของกลุ่มตัวอย่างขนาดให้ผลเทียบเท่า มี
เป็นคำอธิบายที่สองสำหรับความคล้ายกันของค่า
เหตุผลหนึ่งคือ ว่า มีไม่จำเป็นต้องมาก
อาจพุ่ง เช่น ไม่ได้เป็นชุดกับ
ความถี่แหขีดจำกัด อื่น
เหตุผลที่สนับสนุนความคล้ายกันคือชุด
ไม่อิสระ
ในกรณีของความล้มเหลวเป็นไปได้ อัลกอริทึม generates
itera.tively ทั้งหมด 2 ผู้สมัครใหม่ และทำให้อีก
ผ่านฐานข้อมูล ในการทดลองของเราหมายเลข
ของบ่อย set.s พลาดเมื่อใดที่พลาด-ถูก
หนึ่งหรือสอง 6 = 0.001 และหนึ่ง 16 สำหรับ 6 = 0.01
จำนวนผู้ตรวจสอบในรอบสอง
เล็กมากเมื่อเทียบกับจำนวน itemsets
ตรวจสอบ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ชุดละ 100 ครั้ง , มีศูนย์สองการทดลอง
ด้วยคิดถึง . สัดส่วนโดยรวมของการทดลองกับคิดถึง
คือ 0.0038 . เราทำซ้ำการทดลองกับ D = 0.01
คือเพื่อให้คุณมีโอกาสใด ๆ ให้บ่อยที่สุด
ชุดที่ 0.01 การทดลองนี้ทำให้พลาด
ส่วน 0.041 ของการทดลองทั้งหมด ในทั้งสองกรณีเศษ
ของการทดลองกับขาดหายไปประมาณ 4 ครั้ง 6 .
จำนวนเงินที่แท้จริงของการลดลงในฐานข้อมูล
กิจกรรมขึ้นอยู่กับการจัดเก็บโครงสร้าง .
ตัวอย่าง ถ้าฐานข้อมูลมี 10 ล้านแถว ดิสก์
บล็อกมีเฉลี่ย 100 แถว และตัวอย่าง
ขนาด 20 , 000 แล้วตัวอย่างเฟสสามารถอ่าน
20% ของฐานข้อมูล สำหรับการออกแบบและการวิเคราะห์
วิธีดู ตัวอย่าง เช่น , [ or89 ] ที่เกี่ยวข้องกับปัญหา
ตัวอย่างการประเมินแบบสอบถามจะพิจารณารายละเอียดเพิ่มเติมใน hssp
[ ] n ทางเลือกสำหรับสุ่ม
รูปวาดแต่ละแถวแยกเป็น แน่นอน การวาด
บล็อกทั้งหมดของแถวกับตัวอย่าง ขึ้นอยู่กับว่า
สุ่มแถวได้รับมอบหมายให้บล็อก
วิธีนี้จะให้ผลที่ดีมาก หรือเลวร้ายมาก .

ลด 141 ในกิจกรรมฐานข้อมูลความ
ต้นทุนของการพิจารณาบางแอตทริบิวต์ชุดนั้น การ levelwise
ขั้นตอนวิธีที่ไม่สร้างและตรวจสอบ ตารางที่ 5 แสดงจำนวนชุด

ถือว่าข้อมูลชุด sarnple t10.14.dlook ที่มีขนาดแตกต่างกันและ
จำนวนผู้สมัครชุดระดับปัญญา อัลกอริทึม ที่ใหญ่ที่สุดที่เกิดขึ้นกับค่าใช้จ่ายแน่นอน

ต่ำเกณฑ์ ซึ่งจำนวน itemsets ถือว่า
ได้เติบโตขึ้นจาก 318588 โดย 64 ,เพราะในกรณีเลวร้ายที่สุด

การเติบโตนี้ไม่ใช่ที่สำคัญสำหรับการรวมเวลาตั้งแต่ itemsets จัดการ

ทั้งหมดในหน่วยความจำหลัก ค่าใช้จ่ายสัมพัทธ์มีขนาดใหญ่กับ
ธรณีประตูสูง แต่เนื่องจากค่าโสหุ้ยสัมบูรณ์อยู่
ขนาดเล็กมากผลเป็นเล็กน้อย ตารางที่ 5 พบว่า ตัวอย่างที่มีขนาดใหญ่เพราะค่าใช้จ่ายน้อยกว่า
( อย่างเท่าเทียมกัน
ผลลัพธ์ที่ดี ) แต่สำหรับขนาดตัวอย่างจาก 20
, ความแตกต่างในค่าใช้จ่ายไม่สําคัญ
เพื่อให้ได้ภาพที่ดีขึ้นของความสัมพันธ์ของ 6
หมายเลขทดลองทดสอบกับคิดถึงเราดำเนินการ
ทดสอบต่อไปนี้ เราเอา 100 ตัวอย่าง (
แต่ละความถี่ขีดเริ่ม และขนาดตัวอย่าง ) และมุ่งมั่น
ลดความถี่ขีดเริ่มที่จะมี
ให้พลาด 1 ในร้อยการทดลอง รูปที่ 2
แสดงผล ( คะแนน ) พร้อมกับแสดงลดลง 2.33 สาย
6 = 0.01 หรือ 0.001 ,
เช่น ซึ่งสอดคล้องกับคิดถึงความน่าจะเป็น
0.01 และ 0.001 ให้บ่อย ๆ การตั้งค่า
ความถี่ ซึ่งจะทำให้พลาดในส่วน
0.01 กรณีโดยประมาณ จู่ ๆอย่างใกล้ชิด
ธรณีประตูสำหรับ S = 0.01 การทดลองที่มีขนาดใหญ่
ขนาดของขนาดตัวอย่างให้ผลใกล้เคียงกัน มี
2 คำอธิบายสำหรับความคล้ายคลึงกันของค่า
เหตุผลหนึ่งคือ มีไม่หลาย
ศักยภาพคิดถึง คือ ไม่พบบ่อย ชุดกับ
ความถี่ค่อนข้างใกล้กับธรณีประตู อีกเหตุผลที่ก่อให้เกิด
ความเหมือนคือชุด

ไม่อิสระ ในกรณีของความล้มเหลวที่เป็นไปได้วิธีการ 2 สร้าง
itera.tively ใหม่ทั้งหมด ผู้สมัคร และทำให้ผ่านอีก
ผ่านฐานข้อมูล ในการทดลองของเราหมายเลข
ชุดบ่อย ผิดนัดเมื่อพลาดถูก
หนึ่งหรือสอง 6 = 0.001 และหนึ่งถึง 16 6 = 0.01
หมายเลขของผู้สมัครได้ตรวจสอบ
ผ่านสองมีขนาดเล็กมากเมื่อเทียบกับจำนวน itemsets
ตรวจสอบ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.