In their original human detection experiment, Dalal and Triggs compared their R-HOG and C-HOG descriptor blocks against generalized Haar wavelets, PCA-SIFT descriptors, and shape context descriptors. Generalized Haar wavelets are oriented Haar wavelets, and were used in 2001 by Mohan, Papageorgiou, and Poggio in their own object detection experiments. PCA-SIFT descriptors are similar to SIFT descriptors, but differ in that principal component analysis is applied to the normalized gradient patches. PCA-SIFT descriptors were first used in 2004 by Ke and Sukthankar and were claimed to outperform regular SIFT descriptors. Finally, shape contexts use circular bins, similar to those used in C-HOG blocks, but only tabulate votes on the basis of edge presence, making no distinction with regards to orientation. Shape contexts were originally used in 2001 by Belongie, Malik, and Puzicha.
The testing commenced on two different data sets. The Massachusetts Institute of Technology (MIT) pedestrian database contains 509 training images and 200 test images of pedestrians on city streets. The set only contains images featuring the front or back of human figures and contains little variety in human pose. The set is well-known and has been used in a variety of human detection experiments, such as those conducted by Papageorgiou and Poggio in 2000. The MIT database is currently available for research at http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html. The second set was developed by Dalal and Triggs exclusively for their human detection experiment due to the fact that the HOG descriptors performed near-perfectly on the MIT set. Their set, known as INRIA, contains 1805 images of humans taken from personal photographs. The set contains images of humans in a wide variety of poses and includes difficult backgrounds, such as crowd scenes, thus rendering it more complex than the MIT set. The INRIA database is currently available for research at http://lear.inrialpes.fr/data.
The above site has an image showing examples from the INRIA human detection database.
As for the results, the C-HOG and R-HOG block descriptors perform comparably, with the C-HOG descriptors maintaining a slight advantage in the detection miss rate at fixed false positive rates across both data sets. On the MIT set, the C-HOG and R-HOG descriptors produced a detection miss rate of essentially zero at a 10−4 false positive rate. On the INRIA set, the C-HOG and R-HOG descriptors produced a detection miss rate of roughly 0.1 at a 10−4 false positive rate. The generalized Haar wavelets represent the next highest performing approach: they produced roughly a 0.01 miss rate at a 10−4 false positive rate on the MIT set, and roughly a 0.3 miss rate on the INRIA set. The PCA-SIFT descriptors and shape context descriptors both performed fairly poorly on both data sets. Both methods produced a miss rate of 0.1 at a 10−4 false positive rate on the MIT set and nearly a miss rate of 0.5 at a 10−4 false positive rate on the INRIA set.
ในการตรวจหาของเดิมมนุษย์ทดลองและเปรียบเทียบพวกเขาและ triggs Dalal r-hog c-hog หัวเรื่องบล็อกกับตัวคลื่น pca-sift Haar , ใน , รูปร่างและในบริบท โดยทั่วไปคลื่นเชิง Haar Haar คลื่น และถูกนำมาใช้ในปี 2001 โดยโมฮัน papageorgiou และป๊ตนเองการตรวจจับวัตถุทดลองpca-sift บอกลักษณะคล้ายกับร่อนใน แต่แตกต่างในการวิเคราะห์องค์ประกอบหลักที่ใช้กับรูปไล่ระดับแพทช์ pca-sift ในถูกใช้เป็นครั้งแรกในปี 2004 โดย Ke sukthankar และพบว่ามีประสิทธิภาพสูงกว่าปกติและร่อนใน . ในที่สุดรูปร่างบริบทใช้ถังขยะกลม คล้ายกับที่ใช้ใน c-hog บล็อกแต่เป็นตารางคะแนนบนพื้นฐานของตนขอบ ทำให้ไม่มีความแตกต่างกับการปฐมนิเทศ รูปร่างบริบทเดิมที่ใช้ในปี 2001 โดย belongie มาลิค , และ , puzicha
การทดสอบเริ่มสองที่แตกต่างกันข้อมูลชุด ที่สถาบันเทคโนโลยีแมสซาชูเซตส์ ( MIT ) ฐานข้อมูลคนเดินเท้ามี 509 การฝึกอบรมและทดสอบภาพภาพ 200 คนเดินเท้าบนถนนเมืองชุดเท่านั้นที่มีภาพที่มีด้านหน้าหรือด้านหลังของร่างมนุษย์และมีความหลากหลายเล็กน้อยในท่าทางของมนุษย์ ชุดเป็นที่รู้จักและมีการใช้ในความหลากหลายของการทดลองการตรวจหามนุษย์ เช่นการทำงานและ papageorgiou ป๊ 2000 ฐานข้อมูลเพื่อการวิจัยที่ MIT อยู่ในปัจจุบัน http://cbcl.mit.edu/cbcl/software-datasets/pedestriandata.html .ชุดที่สองถูกพัฒนาโดย Dalal triggs สำหรับการทดลองการตรวจหาและมนุษย์ของพวกเขาเนื่องจากความจริงที่ว่าหมูในการใกล้สมบูรณ์บนชุดด้วยโดยเฉพาะ ชุดของพวกเขา , ที่รู้จักกันเป็น inria มี 0 รูปภาพของมนุษย์มาจากรูปถ่ายส่วนตัว ชุดประกอบด้วยภาพของมนุษย์ในหลากหลายของท่าและมีพื้นหลังที่ยาก เช่น ฉากที่ฝูงดังนั้น ภาพมันซับซ้อนมากขึ้นกว่าชุด MIT การ inria ฐานข้อมูลจะใช้ได้สำหรับการวิจัยที่ http : / / เลียร์ . inrialpes . fr / ข้อมูล
เว็บไซต์ข้างต้นมีภาพตัวอย่างการแสดงจาก inria มนุษย์ตรวจหาฐานข้อมูล
สำหรับผลลัพธ์ c-hog ในบล็อก r-hog ปานกันและแสดง ,ในการรักษาด้วย c-hog ได้เปรียบเล็กน้อยในการตรวจสอบอัตราคงที่อัตราบวกเท็จที่พลาดในข้อมูลทั้งสองชุด ในชุด MIT , c-hog r-hog ผลิตและในการตรวจจับพลาดคะแนนจากหลักศูนย์ที่ 10 − 4 เท็จบวกอัตรา ใน inria เตรียม และใน c-hog r-hog ผลิตตรวจจับพลาดคะแนนประมาณ 0.1 ที่ 10 − 4 เท็จบวกอัตราที่คลื่น โอเค ทั่วไปเป็นตัวแทนสูงสุดถัดไปแสดงเข้าหาพวกเขาผลิตประมาณ 0.01 คิดถึงเท่ากันที่ 10 − 4 อัตราบวกเท็จในชุดด้วย และประมาณ 0.3 พลาดคะแนนใน inria ชุด ในการ pca-sift และรูปร่างในบริบททั้งสองดำเนินการค่อนข้างไม่ดีในข้อมูลทั้งสองชุด ทั้งสองวิธีที่คุณอัตรา 01 ใน 10 − 4 อัตราบวกเท็จในชุดด้วย และเกือบพลาดคะแนน 0.5 ที่ 10 − 4 เท็จบวกอัตราใน inria ชุด
การแปล กรุณารอสักครู่..
