4.3.2. Results for the person activity dataset
Fig. 12 shows the classification accuracy of the three big data
mining procedures over the person activity dataset. We can see
that when using the distributed procedure the classification accuracy
gradually decreases as the number of computer nodes increases.
In particular, the degradation in performance is more obvious
than with the covertype dataset when more computer nodes
are used.
In contrast, the MapReduce based procedure allows the SVM
classifier to produce the highest rate of classification accuracy and
the classification accuracy remains stable no matter how many
computer nodes are used, at 90.91%. As this dataset is an 11-class
classification domain problem, which can be regarded as a complex
dataset like the covertype dataset, these results demonstrate
the suitability of using the MapReduce based procedure for this
type of large dataset.
Fig. 13 shows the computational costs of the distributed and
MapReduce based procedures. The baseline procedure takes 542
seconds to accomplish this task. In the distributed procedure, as
the number of computer nodes increases, the computational cost
is reduced, but it becomes larger in the MapReduced based procedure.
This indicates that there is no need to use a large number
of computer nodes in this dataset to ensure classification accuracy
and processing times. Specifically, one single machine can be
used in the MapReduce based procedure to make the SVM produce
the highest accuracy rate and require the least processing time, i.e.
21 s.
The covertype and person activity datasets contain very large
numbers of data samples and they are multi-class classification
domain problems, which are much larger and more complex than
two-class datasets used in Section 4.2. For this type of big dataset,
the MapReduce based procedure (by one to ten visual machines) is
the best choice since it can allow the classifier to provide the highest
rate of classification accuracy and requires the least amount of
processing time compared with the baseline and distributed procedures.
In other words, the MapReduce based procedure can deal
with more complex and larger volumes of data more effectively
and efficiently than the conventional baseline and distributed procedures.
This indicates that the MapReduce based procedure is a
better solution for big data mining, especially when the datasets
contain some highly complex characteristics, such as a very large
volume of data samples and multi-class classification problems.
For the memory consumption during the classifier training
stage, on average the baseline, distributed (20 nodes), and MapReduce
(20 nodes) procedures require 15.7 GB of RAM, 1.5 GB of RAM,
and 1.1 GB of RAM, respectively. On the other hand, for the classi-
fier testing stage, which is similar to the results of Section 4.2, the
4.3.2 . ผลการค้นหาสำหรับกิจกรรมข้อมูลบุคคลรูปที่ 12 แสดงความแม่นยำในการจำแนกของใหญ่สามข้อมูลเหมืองแร่ขั้นตอนกว่าบุคคล กิจกรรม ข้อมูล . เราสามารถดูเมื่อใช้กระบวนการความแม่นยำในการจำแนกแจกจ่ายค่อย ๆ ลดลงเป็นจำนวนเพิ่มโหนดคอมพิวเตอร์โดยเฉพาะอย่างยิ่ง การย่อยสลายในการปฏิบัติได้ชัดเจนมากขึ้นกว่ากับ covertype เมื่อโหนดคอมพิวเตอร์ข้อมูลเพิ่มเติมจะใช้ในทางตรงกันข้าม , mapreduce ตามขั้นตอนให้ SVMลักษณนามผลิตอัตราความแม่นยำในการจำแนกและความแม่นยำในการจำแนกยังคงไม่ว่ากี่โหนดของคอมพิวเตอร์ที่ใช้ใน 90.91 % เป็นชุดข้อมูลนี้คือ 11 ชั้นปัญหาโดเมนหมวดหมู่ซึ่งสามารถถือได้ว่าเป็นคอมเพล็กซ์ข้อมูล เช่น ข้อมูล covertype ผลลัพธ์เหล่านี้แสดงความเหมาะสมของการใช้ขั้นตอนตาม mapreduce นี้ประเภทของชุดข้อมูลที่มีขนาดใหญ่รูปที่ 13 แสดงการคำนวณต้นทุนของการกระจายและmapreduce ตามขั้นตอน ขั้นตอนที่ 4 ใช้ 542วินาทีเพื่อให้บรรลุงานนี้ ในการกระจายกระบวนการ เช่นจำนวนที่เพิ่มขึ้น , คอมพิวเตอร์ , ราคาคอมพิวเตอร์จะลดลง แต่มันจะกลายเป็นขนาดใหญ่ใน mapreduced ขั้นตอนตามแสดงว่าไม่ต้องใช้จำนวนมากของโหนดคอมพิวเตอร์ในชุดข้อมูลนี้เพื่อให้แน่ใจว่า ความแม่นยำในการจำแนกและการประมวลผลครั้ง โดยเฉพาะเครื่องเดียวสามารถที่ใช้ใน mapreduce ตามขั้นตอนเพื่อให้ SVM ผลิตสูงสุดอัตราความถูกต้องและต้องการการประมวลผลเวลาที่น้อยที่สุด คือ21 .การ covertype คนกิจกรรมและข้อมูลมีขนาดใหญ่มากตัวอย่างข้อมูลและตัวเลขของพวกเขาจะจัดชั้นเรียนหลายปัญหาโดเมนซึ่งมีมากขนาดใหญ่และซับซ้อนกว่า2 ห้อง ข้อมูลที่ใช้ในส่วนของ 4.2 . สำหรับของข้อมูลชนิดนี้ขั้นตอน mapreduce ตาม ( หนึ่งถึงสิบเครื่อง ภาพ )ทางเลือกที่ดีที่สุดเพราะมันสามารถให้ตัวให้มากที่สุดอัตราความแม่นยำในการจำแนกและต้องมีจํานวนน้อยของเวลาในการประมวลผลเมื่อเทียบกับพื้นฐานและการกระจายการในคำอื่น ๆ mapreduce ขั้นตอนตามสามารถจัดการที่ซับซ้อนมากขึ้นและขนาดใหญ่ปริมาณของข้อมูลได้อย่างมีประสิทธิภาพและมีประสิทธิภาพมากกว่าพื้นฐานปกติ และการกระจายการนี้บ่งชี้ว่า mapreduce ขั้นตอนพื้นฐานคือทางออกที่ดีสำหรับการทำเหมืองข้อมูลใหญ่ โดยเฉพาะอย่างยิ่งเมื่อข้อมูลมีบางลักษณะที่ซับซ้อนสูง เช่น มีขนาดใหญ่มากปริมาณของตัวอย่างข้อมูลและหลายชั้นหมวดหมู่ปัญหาสำหรับการบริโภคหน่วยความจำในตัว ฝึกอบรมเวที เฉลี่ยพื้นฐานกระจาย ( 20 ข้อ ) และ mapreduce( 20 ข้อ ) รวมทั้งต้อง 4 GB RAM 1.5 GB of RAM ,และ 1.1 GB of RAM , ตามลำดับ บนมืออื่น ๆ , classi - สำหรับเฟียร์ขั้นตอนการทดสอบซึ่งคล้ายกับผลของมาตรา 4.2 ,
การแปล กรุณารอสักครู่..