3, 6, or 29 hours with 1 minute granularity, graphing one line for
each of the top 10 services. The same query is much easier to express in the Scuba GUI, as shown in Figure 9. This query produces
2 aggregation metrics per service, per minute. The limit of 1800 =
180 minutes ∗ 10 services. This query passes and aggregates 1800
points for each of 2 metrics at every level of the aggregation tree;
its aggregation time TA is noticeable.
5.3 Single client experiments
The first set of experiments test query latency for a single client.
For these experiments, we use the 29 hour version of each query
and run each query 200 times. We plot the mean response time and
the error bars indicate the minimum and maximum response times.
5.3.1 Speedup
We first measure speed up of a single query over data distributed
in a 20 machine cluster. We varied the amount of data from 1 GB
to 8 GB per Leaf. The total amount of data thus varied from 160
GB to the full 1.2 TB.
Figure 10 shows the results. The time to scan data at each leaf is
proportional to the amount of data. The aggregation cost, however,
is independent of the amount of data at each leaf; it is a function
of the query and the cluster size. In this experiment, the cluster
size is constant. With 20 machines and a fanout of 5, there are 3
levels in the tree (1 Root Aggregator, 5 Intermediate Aggregators,
and 20 Leaf Aggregators). The scan query passes only one point up
the aggregation tree so aggregation takes negligible time. The time
series query needs to aggregate a large number of points at every
level of the tree, so it takes longer.
5.3.2 Scaleup
We then measure scale up as we vary the number of machines in
the cluster from 10 to 160 (doubling the number of machines each
time). Each leaf has 1 GB of data.
Figure 11 shows that the time to scan the data (done in parallel on
each Leaf) is constant. The aggregation cost grows logarithmically
with N. Since the aggregation cost is negligible for the scan query,
its response time is constant as the number of machines increases.
The time series query, however, needs to aggregate many points at
every Aggregator and its response time increases with the number
3 , 6 , หรือ 29 ชั่วโมงกับ granularity 1 นาที กราฟหนึ่งบรรทัดสำหรับ
แต่ละด้านบน 10 บริการ แบบสอบถามเดียวกันคือง่ายมากที่จะแสดงในแบบ GUI , ดังแสดงในรูปที่ 9 แบบสอบถามนี้ผลิต
2 รวมวัดต่อบริการต่อนาที วงเงิน 1 , 800 =
180 นาที∗บริการ 10 แบบสอบถามนี้ผ่านและมวลรวม 1800
คะแนนของแต่ละตัวชี้วัดที่ 2 ทุกระดับของต้นไม้รวม ;
เวลาในการทาการทดลอง 5.3 เดียวลูกค้าสามารถ .
ชุดแรกของการทดลองทดสอบแบบสอบถาม ( สำหรับลูกค้าเดียว .
สำหรับการทดลองนี้ เราใช้ 29 ชั่วโมง แต่ละรุ่นและแต่ละแบบสอบถามแบบสอบถาม
วิ่ง 200 ครั้ง เราแปลงค่าเฉลี่ยเวลาตอบสนองและ
ข้อผิดพลาดน้อยที่สุดและแถบแสดงเวลาการตอบสนองสูงสุด 5.3.1 SpeedUp
เราวัดความเร็วของแบบสอบถามเดียวผ่านเครื่องกระจายข้อมูล
ใน 20 กลุ่ม เราเปลี่ยนแปลงปริมาณของข้อมูลจาก 1 GB
8 GB ต่อ 1 ใบ ยอดรวมของข้อมูลจึงแตกต่างจาก 160 GB เต็ม 1.2 TB
.
รูปที่ 10 แสดงผล เวลาในการสแกนข้อมูลที่แต่ละใบคือ
เป็นสัดส่วนกับปริมาณข้อมูล กลุ่มต้นทุน อย่างไรก็ตาม
เป็นอิสระของปริมาณของข้อมูลในแต่ละใบ มันเป็นฟังก์ชัน
ของแบบสอบถามและกลุ่มขนาด ในการทดลองครั้งนี้กลุ่ม
ขนาดคงที่ กับ 20 เครื่อง และ fanout 5 มี 3
ระดับต้น ( 1 ราก รวบรวม , รวบรวม 5 ระดับกลาง , และรวบรวม
20 ใบ ) การสแกนแบบสอบถามผ่านเพียงจุดเดียวขึ้น
ต้นไม้รวม ดังนั้นการใช้เวลาเล็กน้อยเวลาเวลา
ชุดแบบสอบถามความต้องการที่จะรวมจำนวนของจุดที่ทุก
ระดับต้น จึงใช้เวลานาน scaleup
5.3.2 เป็นเราแล้ววัดระดับขึ้น เมื่อเราเปลี่ยนแปลงจำนวนเครื่องจักรในกลุ่ม 10
160 ( สองเท่าของจำนวนเครื่องแต่ละ
ครั้ง ) แต่ละใบได้ 1 GB ของข้อมูล .
รูปที่ 11 แสดงให้เห็นว่าเวลาในการสแกนข้อมูล ( ทำแบบขนานบน
แต่ละใบ ) จะคงที่ต้นทุนรวมเติบโต logarithmically
กับเอ็น เนื่องจากต้นทุนรวมเป็นเล็กน้อยสำหรับการสแกนแบบสอบถาม
เวลาตอบสนองของค่าคงที่เป็นตัวเลขการเพิ่มขึ้นของเครื่องจักร
เวลาชุดแบบสอบถาม , อย่างไรก็ตาม , ความต้องการที่จะรวมหลายจุดที่ทุกและเวลาตอบสนองของ
รวบรวมเพิ่ม ด้วยหมายเลข
การแปล กรุณารอสักครู่..
