Histogram of Oriented Gradients and

Histogram of Oriented Gradients and Object Detection

I’m not going to review the entire detailed process of training an object detector using Histogram of Oriented Gradients (yet), simply because each step can be fairly detailed. But I wanted to take a minute and detail the general algorithm for training an object detector using Histogram of Oriented Gradients. It goes a little something like this:

Step 1:

Sample P positive samples from your training data of the object(s) you want to detect and extract HOG descriptors from these samples.

Step 2:

Sample N negative samples from a negative training set that does not contain any of the objects you want to detect and extract HOG descriptors from these samples as well. In practice N >> P.

Step 3:

Train a Linear Support Vector Machine on your positive and negative samples.

Step 4:

Figure 2: Example of the sliding a window approach, where we slide a window from left-to-right and top-to-bottom.
Figure 2: Example of the sliding a window approach, where we slide a window from left-to-right and top-to-bottom. Note: Only a single scale is sown. In practice this window would be applied to multiple scales of the image.
Apply hard-negative mining. For each image and each possible scale of each image in your negative training set, apply the sliding window technique and slide your window across the image. At each window compute your HOG descriptors and apply your classifier. If your classifier (incorrectly) classifies a given window as an object (and it will, there will absolutely be false-positives), record the feature vector associated with the false-positive patch along with the probability of the classification. This approach is called hard-negative mining.

Step 5:

Take the false-positive samples found during the hard-negative mining stage, sort them by their confidence (i.e. probability) and re-train your classifier using these hard-negative samples. (Note: You can iteratively apply steps 4-5, but in practice one stage of hard-negative mining usually [not not always] tends to be enough. The gains in accuracy on subsequent runs of hard-negative mining tend to be minimal.)

Step 6:

Your classifier is now trained and can be applied to your test dataset. Again, just like in Step 4, for each image in your test set, and for each scale of the image, apply the sliding window technique. At each window extract HOG descriptors and apply your classifier. If your classifier detects an object with sufficiently large probability, record the bounding box of the window. After you have finished scanning the image, apply non-maximum suppression to remove redundant and overlapping bounding boxes.

These are the bare minimum steps required, but by using this 6-step process you can train and build object detection classifiers of your own! Extensions to this approach include a deformable parts model and Exemplar SVMs, where you train a classifier for each positive instance rather than a collection of them.

However, if you’ve ever worked with object detection in images you’ve likely ran into the problem of detecting multiple bounding boxes around the object you want to detect in the image.

Here’s an example of this overlapping bounding box problem:

Figure 3: (Left) Detecting multiple overlapping bounding boxes around the face we want to detect. (Right) Applying non-maximum suppression to remove the redundant bounding boxes.
Figure 3: (Left) Detecting multiple overlapping bounding boxes around the face we want to detect. (Right) Applying non-maximum suppression to remove the redundant bounding boxes.
Notice on the left we have 6 overlapping bounding boxes that have correctly detected Audrey Hepburn’s face. However, these 6 bounding boxes all refer to the same face — we need a method to suppress the 5 smallest bounding boxes in the region, keeping only the largest one, as seen on the right.

This is a common problem, no matter if you are using the Viola-Jones based method or following the Dalal-Triggs paper.

There are multiple ways to remedy this problem. Triggs et al. suggests to use the Mean-Shift algorithm to detect multiple modes in the bounding box space by utilizing the (x, y) coordinates of the bounding box as well as the logarithm of the current scale of the image.

I’ve personally tried this method and wasn’t satisfied with the results. Instead, you’re much better off relying on a strong classifier with higher accuracy (meaning there are very few false positives) and then applying non-maximum suppression to the bounding boxes.

I spent some time looking for a good non-maximum suppression (sometimes called non-maxima suppression) implementation in Python. When I couldn’t find one, I chatted with my friend Dr. Tomasz Malisiewicz, who has spent his entire career working with object detector algorithms and the HOG descriptor. There is literally no one that I know who has more experience in this area than Tomasz. And if you’ve ever read any of his papers, you’ll know why. His work is fantastic.

Anyway, after chatting with him, he pointed me to two MATLAB implementations. The first is based on the work by Felzenszwalb et al. and their deformable parts model.

The second method is implemented by Tomasz himself for his Exemplar SVM project which he used for his dissertation and his ICCV 2011 paper, Ensemble of Exemplar-SVMs for Object Detection and Beyond. It’s important to note that Tomasz’s method is over 100x faster than the Felzenszwalb et al. method. And when you’re executing your non-maximum suppression function millions of times, that 100x speedup really matters.

I’ve implemented both the Felzenszwalb et al. and Tomasz et al. methods, porting them from MATLAB to Python. Next week we’ll start with the Felzenszwalb method, then the following week I’ll cover Tomasz’s method. While Tomasz’s method is substantially faster, I think it’s important to see both implementations so we can understand exactly why his method obtains such drastic speedups.

Be sure to stick around and check out these posts! These are absolutely critical steps to building object detectors of your own!

Histogram of Oriented Gradients and Object Detection

I’m not going to review the entire detailed process of training an object detector using Histogram of Oriented Gradients (yet), simply because each step can be fairly detailed. But I wanted to take a minute and detail the general algorithm for training an object detector using Histogram of Oriented Gradients. It goes a little something like this:

Step 1:

Sample P positive samples from your training data of the object(s) you want to detect and extract HOG descriptors from these samples.

Step 2:

Sample N negative samples from a negative training set that does not contain any of the objects you want to detect and extract HOG descriptors from these samples as well. In practice N >> P.

Step 3:

Train a Linear Support Vector Machine on your positive and negative samples.

Step 4:

Figure 2: Example of the sliding a window approach, where we slide a window from left-to-right and top-to-bottom.
Figure 2: Example of the sliding a window approach, where we slide a window from left-to-right and top-to-bottom. Note: Only a single scale is sown. In practice this window would be applied to multiple scales of the image.
Apply hard-negative mining. For each image and each possible scale of each image in your negative training set, apply the sliding window technique and slide your window across the image. At each window compute your HOG descriptors and apply your classifier. If your classifier (incorrectly) classifies a given window as an object (and it will, there will absolutely be false-positives), record the feature vector associated with the false-positive patch along with the probability of the classification. This approach is called hard-negative mining.

Step 5:

Take the false-positive samples found during the hard-negative mining stage, sort them by their confidence (i.e. probability) and re-train your classifier using these hard-negative samples. (Note: You can iteratively apply steps 4-5, but in practice one stage of hard-negative mining usually [not not always] tends to be enough. The gains in accuracy on subsequent runs of hard-negative mining tend to be minimal.)

Step 6:

Your classifier is now trained and can be applied to your test dataset. Again, just like in Step 4, for each image in your test set, and for each scale of the image, apply the sliding window technique. At each window extract HOG descriptors and apply your classifier. If your classifier detects an object with sufficiently large probability, record the bounding box of the window. After you have finished scanning the image, apply non-maximum suppression to remove redundant and overlapping bounding boxes.

These are the bare minimum steps required, but by using this 6-step process you can train and build object detection classifiers of your own! Extensions to this approach include a deformable parts model and Exemplar SVMs, where you train a classifier for each positive instance rather than a collection of them.

However, if you’ve ever worked with object detection in images you’ve likely ran into the problem of detecting multiple bounding boxes around the object you want to detect in the image.

Here’s an example of this overlapping bounding box problem:

Figure 3: (Left) Detecting multiple overlapping bounding boxes around the face we want to detect. (Right) Applying non-maximum suppression to remove the redundant bounding boxes.
Figure 3: (Left) Detecting multiple overlapping bounding boxes around the face we want to detect. (Right) Applying non-maximum suppression to remove the redundant bounding boxes.
Notice on the left we have 6 overlapping bounding boxes that have correctly detected Audrey Hepburn’s face. However, these 6 bounding boxes all refer to the same face — we need a method to suppress the 5 smallest bounding boxes in the region, keeping only the largest one, as seen on the right.

This is a common problem, no matter if you are using the Viola-Jones based method or following the Dalal-Triggs paper.

There are multiple ways to remedy this problem. Triggs et al. suggests to use the Mean-Shift algorithm to detect multiple modes in the bounding box space by utilizing the (x, y) coordinates of the bounding box as well as the logarithm of the current scale of the image.

I’ve personally tried this method and wasn’t satisfied with the results. Instead, you’re much better off relying on a strong classifier with higher accuracy (meaning there are very few false positives) and then applying non-maximum suppression to the bounding boxes.

I spent some time looking for a good non-maximum suppression (sometimes called non-maxima suppression) implementation in Python. When I couldn’t find one, I chatted with my friend Dr. Tomasz Malisiewicz, who has spent his entire career working with object detector algorithms and the HOG descriptor. There is literally no one that I know who has more experience in this area than Tomasz. And if you’ve ever read any of his papers, you’ll know why. His work is fantastic.

Anyway, after chatting with him, he pointed me to two MATLAB implementations. The first is based on the work by Felzenszwalb et al. and their deformable parts model.

The second method is implemented by Tomasz himself for his Exemplar SVM project which he used for his dissertation and his ICCV 2011 paper, Ensemble of Exemplar-SVMs for Object Detection and Beyond. It’s important to note that Tomasz’s method is over 100x faster than the Felzenszwalb et al. method. And when you’re executing your non-maximum suppression function millions of times, that 100x speedup really matters.

I’ve implemented both the Felzenszwalb et al. and Tomasz et al. methods, porting them from MATLAB to Python. Next week we’ll start with the Felzenszwalb method, then the following week I’ll cover Tomasz’s method. While Tomasz’s method is substantially faster, I think it’s important to see both implementations so we can understand exactly why his method obtains such drastic speedups.

Be sure to stick around and check out these posts! These are absolutely critical steps to building object detectors of your own!

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ฮิสโตแกรมวางไล่ระดับสีและตรวจจับวัตถุที่ฉันกำลังไปตรวจสอบทั้งรายละเอียดขั้นตอนการฝึกอบรมเป็นเครื่องตรวจจับวัตถุโดยใช้ฮิสโตแกรมของเน้นไล่ระดับสี (ยัง), เพียง เพราะแต่ละขั้นตอนสามารถค่อนข้างรายละเอียด แต่อยากจะใช้เวลาหนึ่งนาที และรายละเอียดขั้นตอนวิธีทั่วไปในการฝึกอบรมเป็นเครื่องตรวจจับวัตถุโดยใช้ฮิสโตแกรมของเน้นไล่ระดับสี มันไปสิ่งเล็กน้อยเช่นนี้:ขั้นตอนที่ 1:ตัวอย่างตัวอย่างบวก P จากข้อมูลฝึกอบรมของวัตถุที่คุณต้องการตรวจสอบ และแยกตัวบอกหมูจากตัวอย่างเหล่านี้ขั้นตอนที่ 2:ตัวอย่างตัวอย่างลบ N จากชุดฝึกค่าลบที่ไม่ประกอบด้วยวัตถุที่คุณต้องการตรวจสอบ และแยกตัวบอกหมูจากตัวอย่างเหล่านี้เป็นอย่างดี ในทางปฏิบัติ N >> พีขั้นตอนที่ 3:รถไฟเครื่องจักรเวกเตอร์สนับสนุนเชิงบนตัวอย่างการบวก และลบขั้นตอนที่ 4:รูปที่ 2: ตัวอย่างการเลื่อนเป็นหน้าต่างวิธี ที่เราเลื่อนหน้าต่างจากซ้ายไปขวาและบนลงล่างรูปที่ 2: ตัวอย่างการเลื่อนเป็นหน้าต่างวิธี ที่เราเลื่อนหน้าต่างจากซ้ายไปขวาและบนลงล่าง หมายเหตุ: จะหว่านเพียงสเกลเดียว ในทางปฏิบัติ จะใช้หน้าต่างนี้เพื่อหลายสเกลของภาพใช้ลบยากทำเหมืองแร่ สำหรับแต่ละรูปและแต่ละขนาดได้ของแต่ละภาพในชุดฝึกลบ ใช้เทคนิคหน้าต่างบานเลื่อน และหน้าต่างภาพนิ่งทั้งภาพ ในแต่ละหน้าต่างคำนวณตัวบอกคุณหมู และใช้ของ classifier ถ้าของ classifier (ถูก) แบ่งประเภทของหน้าต่างกำหนดเป็นวัตถุ (และ จะ มีจริง ๆ จะไม่ทำงานผิดพลาด), บันทึกเวกเตอร์คุณลักษณะที่เกี่ยวข้องกับแพทช์เท็จบวกกับความเป็นไปได้ของการจัดประเภท วิธีการนี้เรียกว่าเหมืองลบยากขั้นตอนที่ 5:ใช้ตัวอย่างบวกเท็จพบในระหว่างขั้นตอนยากลบเหมือง เรียง โดยความเชื่อมั่นของตน (เช่นความน่าเป็น) และรถไฟ classifier ของคุณโดยใช้ตัวอย่างลบยากเหล่านี้อีกครั้ง (หมายเหตุ: คุณสามารถใช้ขั้นตอนที่ 4-5 ซ้ำ ๆ แต่ในการฝึกระยะหนึ่งของฮาร์ดดิสก์ลบทำเหมืองแร่มักจะมีแนวโน้มจะพอ [ไม่ไม่เสมอ] กำไรในความถูกต้องบนรันต่อมาของเหมืองยากลบมักจะ มี)ขั้นตอนที่ 6:Classifier ของคุณขณะนี้มีการฝึกอบรม และสามารถใช้กับชุดข้อมูลทดสอบของคุณ อีก เพียงเช่นในขั้นตอนที่ 4 สำหรับแต่ละภาพในชุดทดสอบ และแต่ละขนาดของภาพ ใช้เทคนิคหน้าต่างเลื่อน ที่หน้าต่างแต่ละแยกตัวบอกหมู และใช้ของ classifier ถ้าคุณ classifier ตรวจพบวัตถุ มีขนาดใหญ่เพียงพอน่าเป็น บันทึกกล่อง bounding ของหน้าต่าง หลังจากที่คุณเสร็จสิ้นการสแกนภาพ ใช้ปราบปรามเกินไม่เอาซ้ำซ้อน และทับซ้อนกันขอบกล่องมีขั้นตอนน้อยเปล่าจำเป็น แต่ โดยใช้กระบวนการ 6 ขั้นตอนนี้ คุณสามารถฝึก และสร้างวัตถุตรวจจับคำนามภาษาของคุณเอง ส่วนขยายวิธีการนี้รวมถึงแบบจำลองชิ้นส่วน deformable และ Exemplar SVMs ที่คุณรถไฟ classifier สำหรับแต่ละอินสแตนซ์ที่เป็นค่าบวกมากกว่าคอลเลกชันของพวกเขาอย่างไรก็ตาม ถ้าคุณได้เคยทำงานร่วมกับตรวจหาวัตถุในภาพที่ได้อาจจะประสบปัญหาของการตรวจสอบหลาย ขอบกล่องรอบวัตถุคุณพบในภาพนี่คือตัวอย่างของปัญหาทับซ้อนกัน bounding กล่อง:รูปที่ 3: ตรวจสอบหลาย ๆ กล่อง bounding ทับซ้อนกันรอบหน้า (ซ้าย) เราต้องการตรวจสอบ (ขวา) ใช้ปราบปรามเกินไม่เอากล่อง bounding ซ้ำซ้อนรูปที่ 3: ตรวจสอบหลาย ๆ กล่อง bounding ทับซ้อนกันรอบหน้า (ซ้าย) เราต้องการตรวจสอบ (ขวา) ใช้ปราบปรามเกินไม่เอากล่อง bounding ซ้ำซ้อนสังเกตทางด้านซ้ายเรามี 6 เหลื่อมขอบกล่องที่ถูกต้องได้พบหน้าออเดรย์เฮปเบิร์น อย่างไรก็ตาม 6 เหล่านี้ทั้งหมดกล่องขอบเขตหมายถึงใบหน้าเดียวกันซึ่งเราต้องมีวิธีระงับ 5 เล็กสุดขอบในภูมิภาค รักษาเฉพาะที่ใหญ่ที่สุดหนึ่ง เห็นทางด้านขวานี้เป็นปัญหาทั่วไป ไม่ว่าถ้าคุณจะใช้วิธีตามโจนส์วิโอลา หรือต่อกระดาษ Dalal Triggsมีหลากหลายวิธีการในการแก้ไขปัญหานี้ Triggs et al. แนะนำให้ใช้อัลกอริทึม Shift หมายถึงการตรวจสอบหลายวิธีในพื้นที่กล่อง bounding โดยใช้ (x, y) พิกัดกล่อง bounding เป็นลอการิทึมของขนาดปัจจุบันของรูปผมเองได้ลองวิธีนี้ และไม่พอใจกับผลลัพธ์ แทน คุณดีกว่ามากอาศัย classifier แข็งแรงมีความแม่นยำสูง (หมายถึง มีการทำงานผิดพลาดไม่น้อยมาก) และสูงสุดไม่ปราบปรามการกล่อง boundingผมใช้เวลาหาดำเนินการปราบปรามไม่ใช่สูงสุดดี (บางครั้งเรียกว่าปราบปรามไม่ใช่แมก) ในงู เมื่อไม่สามารถหาหนึ่ง ฉัน chatted กับดร. Tomasz Malisiewicz ที่ใช้ในอาชีพของเขาทั้งหมดทำงานกับอัลกอริทึมการตรวจจับวัตถุและบอกหมู เพื่อนของฉัน ได้อย่างแท้จริงไม่มีใครที่ฉันรู้ว่าใครมีประสบการณ์เพิ่มเติมในพื้นที่นี้กว่า Tomasz และถ้าคุณได้เคยอ่านเอกสารของเขา คุณจะรู้ว่าทำไม งานของเขานั้นยอดเยี่ยมอย่างไรก็ตาม หลังจากสนทนากับเขา เขาชี้ฉันจะใช้งาน MATLAB สอง ครั้งแรกจะขึ้นอยู่กับงาน โดย Felzenszwalb et al. และรุ่น deformable ส่วนของพวกเขาวิธีสองคือดำเนินการ โดย Tomasz เองสำหรับโครงการ Exemplar SVM ของเขาซึ่งเขาใช้สำหรับวิทยานิพนธ์ปริญญาเอกของเขาและเขา ICCV 2011 กระดาษ วงดนตรีของ Exemplar-SVMs สำหรับตรวจ จับวัตถุ และเกิน โปรดทราบว่าวิธีการของ Tomasz 100 x เร็วกว่าวิธี Felzenszwalb และ al. ได้ และเมื่อคุณกำลังดำเนินการฟังก์ชันปราบปรามไม่เกินล้านครั้ง speedup 100 x ที่สำคัญจริง ๆผมได้นำวิธีการ Felzenszwalb et al. และ Tomasz al. ร้อยเอ็ด ปรับเปลี่ยนจาก MATLAB กับงูเหลือม สัปดาห์หน้าเราจะเริ่มต้น ด้วยวิธี Felzenszwalb แล้วสัปดาห์ต่อไปนี้ฉันจะครอบคลุมวิธีการของ Tomasz ขณะที่วิธีการของ Tomasz เร็วมาก ฉันคิดว่า สิ่งสำคัญคือต้องดูการใช้งานทั้งสองเพื่อให้เราสามารถเข้าใจได้ว่าทำไมวิธีการของเขาได้รับเช่น speedups รุนแรงตรวจสอบให้แน่ใจว่าติดอยู่ และเช็คข้อความเหล่านี้ เหล่านี้เป็นขั้นตอนสำคัญอย่างการสร้างเครื่องตรวจจับวัตถุของคุณเอง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

Histogram ของการไล่ระดับสี Oriented และการตรวจจับวัตถุที่ฉันไม่ได้ไปตรวจสอบรายละเอียดกระบวนการทั้งหมดของการฝึกอบรมการใช้เครื่องตรวจจับวัตถุ Histogram ของการไล่ระดับสี Oriented (ยัง) เพียงเพราะแต่ละขั้นตอนอาจจะมีรายละเอียดอย่างเป็นธรรม แต่ผมอยากจะใช้เวลาเป็นนาทีและรายละเอียดขั้นตอนวิธีการทั่วไปของการฝึกอบรมการใช้เครื่องตรวจจับวัตถุ Histogram ของการไล่ระดับสี Oriented มันจะไปบางสิ่งบางอย่างเล็ก ๆ น้อย ๆ เช่นนี้ขั้นตอนที่ 1: . ตัวอย่าง P ตัวอย่างบวกจากข้อมูลการฝึกอบรมของคุณของวัตถุ (s) ที่คุณต้องการที่จะตรวจสอบและสกัดอธิบาย HOG จากตัวอย่างเหล่านี้ขั้นตอนที่ 2: ตัวอย่างไม่มีตัวอย่างเชิงลบจากชุดการฝึกอบรมเชิงลบที่ ไม่ได้มีการใด ๆ ของวัตถุที่คุณต้องการที่จะตรวจสอบและสกัดอธิบาย HOG จากตัวอย่างเหล่านี้เช่นกัน ในทางปฏิบัติไม่มี P. >> ขั้นตอนที่ 3: . รถไฟเครื่องเวกเตอร์การสนับสนุนเชิงเส้นตัวอย่างในเชิงบวกและเชิงลบของคุณขั้นตอนที่ 4: รูปที่ 2: ตัวอย่างวิธีการเลื่อนหน้าต่างที่เราเลื่อนหน้าต่างจากซ้ายไปขวาและด้านบน .-to- ด้านล่างรูปที่ 2: ตัวอย่างวิธีการเลื่อนหน้าต่างที่เราเลื่อนหน้าต่างจากซ้ายไปขวาและบนลงล่าง หมายเหตุ: เฉพาะระดับเดียวที่หว่านลงนั้น ในทางปฏิบัติหน้าต่างนี้จะถูกนำไปใช้กับเครื่องชั่งน้ำหนักหลายภาพ. สมัครการทำเหมืองแร่ที่ยากในเชิงลบ สำหรับภาพแต่ละภาพและแต่ละระดับเป็นไปได้ของภาพแต่ละภาพในชุดการฝึกอบรมเชิงลบของคุณใช้เทคนิคที่หน้าต่างบานเลื่อนที่และเลื่อนหน้าต่างของคุณทั่วทั้งภาพ ในแต่ละหน้าต่างคำนวณอธิบาย HOG ของคุณและใช้ลักษณนามของคุณ หากลักษณนามของคุณ (ถูก) จัดประเภทหน้าต่างให้เป็นวัตถุ (และมันจะมีอย่างจะผิดพลาดทางบวก), บันทึกเวกเตอร์คุณลักษณะที่เกี่ยวข้องกับแพทช์เท็จบวกพร้อมกับความน่าจะเป็นของการจำแนก วิธีการนี้เรียกว่าการทำเหมืองแร่ที่ยากลบ. ขั้นตอนที่ 5: ใช้ตัวอย่างเท็จบวกที่พบในระหว่างขั้นตอนการทำเหมืองแร่ที่ยากลบจัดเรียงพวกเขาโดยความเชื่อมั่นของพวกเขา (เช่นความน่าจะเป็น) และอีกครั้งในการฝึกอบรมลักษณนามของคุณโดยใช้กลุ่มตัวอย่างเหล่านี้ยากในเชิงลบ (หมายเหตุ: คุณสามารถใช้ซ้ำขั้นตอนที่ 4-5 แต่ในทางปฏิบัติอย่างใดอย่างหนึ่งในขั้นตอนของการทำเหมืองแร่ที่ยากมักจะเป็นลบ [ไม่ได้เสมอ] มีแนวโน้มที่จะมากพอที่กำไรในความถูกต้องในการทำงานภายหลังจากการทำเหมืองแร่ที่ยากในทางลบมีแนวโน้มที่จะน้อยที่สุด. ) ขั้นตอนที่ 6: ลักษณนามของคุณได้รับการฝึกฝนในขณะนี้และสามารถนำไปใช้ชุดทดสอบของคุณ อีกครั้งเช่นเดียวกับในขั้นตอนที่ 4 สำหรับภาพในชุดทดสอบของคุณในแต่ละครั้งและสำหรับขนาดของภาพแต่ละใช้เทคนิคหน้าต่างบานเลื่อนที่ ที่หน้าต่างแต่ละแยกอธิบาย HOG และใช้ลักษณนามของคุณ หากลักษณนามของคุณตรวจพบวัตถุที่มีความน่าจะเป็นขนาดใหญ่พอบันทึกกรอบของหน้าต่าง หลังจากที่คุณได้เสร็จสิ้นการสแกนภาพที่ใช้การปราบปรามที่ไม่สูงสุดในการลบซ้ำซ้อนและทับซ้อนกันกล่อง bounding. เหล่านี้เป็นขั้นตอนขั้นต่ำเปลือยจำเป็น แต่โดยใช้กระบวนการ 6 ขั้นตอนคุณสามารถฝึกอบรมและสร้างแยกแยะการตรวจจับวัตถุของคุณเอง! ส่วนขยายแนวทางนี้รวมถึงรูปแบบชิ้นส่วน deformable และจำแนกแบบอย่างที่คุณรถไฟลักษณนามสำหรับแต่ละอินสแตนซ์ที่เป็นบวกมากกว่าการเก็บรวบรวมของพวกเขา. แต่ถ้าคุณเคยร่วมงานด้วยการตรวจจับวัตถุที่อยู่ในภาพที่คุณจะได้วิ่งเข้าไปในปัญหา ในการตรวจสอบหลายกล่อง bounding รอบวัตถุที่คุณต้องการที่จะตรวจสอบในภาพ. นี่คือตัวอย่างของปัญหากรอบที่ทับซ้อนกันนี้: รูปที่ 3: (ซ้าย) การตรวจสอบหลายที่ทับซ้อนกันกล่องวิ่งทั่วใบหน้าเราต้องการที่จะตรวจสอบ (ขวา) การประยุกต์ใช้การปราบปรามที่ไม่สูงสุดในการลบกล่อง bounding ซ้ำซ้อน. รูปที่ 3: (ซ้าย) การตรวจสอบหลายที่ทับซ้อนกันกล่องวิ่งทั่วใบหน้าเราต้องการที่จะตรวจสอบ (ขวา) การประยุกต์ใช้การปราบปรามที่ไม่สูงสุดในการลบกล่อง bounding ซ้ำซ้อน. ขอให้สังเกตด้านซ้ายเรามี 6 กล่องทับซ้อนกันวิ่งที่มีการตรวจพบอย่างถูกต้องใบหน้าของ Audrey Hepburn แต่เหล่านี้ 6 กล่องขอบเขตทั้งหมดที่อ้างถึงใบหน้าเดียวกัน -. ที่เราต้องการวิธีการที่จะปราบปราม 5 กล่องเล็กที่สุดในภูมิภาคขอบเขตการรักษาเพียงหนึ่งที่ใหญ่ที่สุดเท่าที่เห็นทางด้านขวานี้เป็นปัญหาที่พบบ่อยไม่ว่าถ้าคุณไม่มี กำลังใช้ไวโอลินโจนส์ตามวิธีการดังต่อไปนี้หรือกระดาษ Dalal-Triggs. มีหลายวิธีในการแก้ไขปัญหานี้ Triggs และคณะ แนะนำให้ใช้ขั้นตอนวิธี Mean-Shift ในการตรวจสอบหลายรูปแบบในพื้นที่กรอบโดยใช้ (x, y) พิกัดของกรอบเช่นเดียวกับลอการิทึมของขนาดปัจจุบันของภาพ. ฉันได้พยายามส่วนตัววิธีการนี้ และก็ยังไม่พอใจกับผลลัพธ์ที่ได้ แต่คุณกำลังออกดีมากอาศัยลักษณนามที่แข็งแกร่งที่มีความแม่นยำสูง (หมายถึงมีน้อยมากบวกเท็จ) แล้วใช้การปราบปรามที่ไม่สูงสุดที่กล่อง bounding. ฉันใช้เวลามองหาการปราบปรามที่ไม่ดีสูงสุด ( บางครั้งเรียกว่าการปราบปรามที่ไม่สูงสุด) การดำเนินงานในหลาม เมื่อฉันไม่สามารถหาหนึ่งที่ผมพูดคุยกับเพื่อนของฉันดร. โทมา Malisiewicz ที่ได้ใช้เวลาตลอดอาชีพของเขาทำงานกับขั้นตอนวิธีการตรวจจับวัตถุและตัวบอก HOG มีอยู่คนหนึ่งที่ฉันเป็นตัวอักษรไม่ทราบว่าผู้ที่มีประสบการณ์มากขึ้นในพื้นที่กว่า Tomasz นี้ และถ้าคุณเคยอ่านใด ๆ ของเอกสารของเขาคุณจะรู้ว่าทำไม ผลงานของเขาเป็นที่ยอดเยี่ยม. อย่างไรก็ตามหลังจากที่พูดคุยกับเขาเขาก็ชี้ให้ฉันสองการใช้งาน MATLAB ครั้งแรกจะขึ้นอยู่กับการทำงานโดย Felzenszwalb และคณะ และชิ้นส่วนของพวกเขาแบบ deformable. วิธีที่สองคือการดำเนินการโดยโทมาตัวเองสำหรับโครงการของเขาแบบอย่าง SVM ซึ่งเขาใช้สำหรับวิทยานิพนธ์ของเขาและ ICCV 2011 กระดาษของเขาทั้งมวลของแบบอย่าง-จำแนกสำหรับการตรวจหาวัตถุและอื่น ๆ มันเป็นสิ่งสำคัญที่จะต้องทราบว่าวิธีการของโทมามีมากกว่า 100x เร็วกว่า Felzenszwalb และคณะ วิธี และเมื่อคุณกำลังดำเนินการฟังก์ชั่นการปราบปรามที่ไม่สูงสุดของคุณล้านครั้ง, เพิ่มความเร็ว 100x ที่สำคัญจริงๆ. ผมได้ดำเนินการทั้ง Felzenszwalb และคณะ และโทมาและคณะ วิธีการ porting พวกเขาจาก MATLAB เพื่อหลาม สัปดาห์ถัดไปเราจะเริ่มต้นด้วยวิธี Felzenszwalb แล้วสัปดาห์ต่อไปนี้ฉันจะครอบคลุมวิธีการของโทมา ในขณะที่วิธีการของโทมาได้เร็วขึ้นเป็นอย่างมากผมคิดว่ามันเป็นสิ่งสำคัญที่จะเห็นการใช้งานทั้งสองเพื่อให้เราสามารถเข้าใจว่าทำไมวิธีการของเขาได้รับ speedups รุนแรงดังกล่าว. ให้แน่ใจว่าได้ติดรอบและตรวจสอบการโพสต์เหล่านี้! เหล่านี้เป็นขั้นตอนที่สำคัญอย่างยิ่งในการสร้างเครื่องตรวจจับวัตถุของคุณเอง!

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ความถี่ของการไล่ระดับสีและมุ่งเน้นการตรวจจับวัตถุ

ผมจะทบทวนกระบวนการรายละเอียดทั้งหมดของการฝึกอบรมการใช้ความถี่ของเครื่องตรวจจับวัตถุที่มุ่งเน้นการไล่ระดับสี ( ยัง ) , เพียงเพราะ แต่ละขั้นตอนจะมีรายละเอียดค่อนข้าง แต่ฉันต้องการใช้เวลาสักครู่และรายละเอียดขั้นตอนวิธีการทั่วไปสำหรับการใช้ความถี่ของเครื่องตรวจจับวัตถุที่มุ่งเน้นการไล่ระดับสี .มันจะไปอะไรเช่นนี้ :

ขั้นตอนที่ 1 :

ตัวอย่างทางบวก ตัวอย่าง จากข้อมูลการฝึกอบรมของวัตถุ ( s ) ที่คุณต้องการตรวจสอบและสกัดจากมะกอกในตัวอย่างเหล่านี้ ขั้นตอนที่ 2

ตัวอย่าง n ลบลบตัวอย่างจากชุดฝึกอบรมที่ไม่ได้มีใด ๆของ วัตถุที่คุณต้องการตรวจสอบและสกัดจากมะกอกในตัวอย่างเหล่านี้เช่นกัน ในทางปฏิบัติ n > > หน้า

ขั้นตอนที่ 3 :

รถไฟเส้นสนับสนุนเวกเตอร์เครื่องจักรตัวอย่างเชิงบวกและเชิงลบของคุณ ขั้นตอนที่ 4 :

รูปที่ 2 : ตัวอย่างของการเลื่อนหน้าต่างวิธีการที่เราเลื่อนหน้าต่างจากซ้ายไปขวา และจากบนลงล่าง
รูปที่ 2 : ตัวอย่างของการเลื่อนหน้าต่างวิธีการที่เราเลื่อนหน้าต่างจากซ้าย ไปขวา และจากบนลงล่าง หมายเหตุ : ขนาดเดียวคือหว่าน .ในหน้าต่างนี้จะใช้กับการฝึกหลาย ๆแบบภาพ
ใช้เหมืองแร่ลบยาก สำหรับภาพแต่ละภาพและเป็นไปได้ในแต่ละขนาดของแต่ละภาพในชุดฝึกของคุณลบ ใช้เทคนิคเลื่อนหน้าต่างหน้าต่างของคุณข้ามและเลื่อนภาพ ที่คำนวณไว้ในแต่ละหน้าต่างของคุณและใช้ส่วนขยายของคุณถ้าตัวของคุณ ( ไม่ถูกต้อง ) แยกประเภทให้ หน้าต่างที่เป็นวัตถุ ( และจะ จะแน่นอนถูกบวกเท็จ ) , บันทึกแบบเวกเตอร์ที่เกี่ยวข้องกับ false-positive แพทช์พร้อมกับความน่าจะเป็นของการจำแนก วิธีการนี้เรียกว่าเหมืองแร่ลบอย่างหนัก

ขั้นตอนที่ 5 :

เอาตัวอย่าง false-positive พบในเหมืองเวทีมากลบจัดเรียงตามความเชื่อมั่นของพวกเขา ( เช่นความน่าจะเป็น ) และรถไฟแบบของคุณโดยใช้เหล่านี้ยากลบตัวอย่าง ( หมายเหตุ : คุณสามารถใช้ขั้นตอนซ้ำ 4-5 แต่ในทางปฏิบัติขั้นตอนหนึ่งของเหมืองลบยากมักจะไม่เสมอ [ ไม่ ] จึงจะพอ กําไรในความถูกต้องที่ตามมาวิ่งเหมืองแร่ลบยากมักจะเป็นน้อยที่สุด )

6

:ตัวของคุณคือตอนนี้ผ่านการอบรมและสามารถใช้กับชุดข้อมูลทดสอบ อีกครั้ง เช่นเดียวกับในขั้นตอนที่ 4 สำหรับภาพแต่ละภาพในชุดทดสอบของคุณและสำหรับแต่ละขนาดของภาพ ใช้หน้าต่างบานเลื่อน ) ในแต่ละหน้าต่างและใช้สารสกัดจากหมูในแบบของคุณ ถ้าตัวตรวจจับวัตถุที่มีความน่าจะเป็นมากพอ , บันทึกปกกล่องหน้าต่างหลังจากที่คุณได้เสร็จสิ้นการสแกนภาพสูงสุดใช้ไม่ปราบปราม เพื่อลบซ้ำซ้อนและทับซ้อนกันบริเวณกล่อง

นี่เป็นขั้นต่ำเปลือยขั้นตอนที่จำเป็น แต่โดยการใช้กระบวนการขั้นตอนที่ 6 นี้ คุณสามารถฝึกและสร้างวัตถุตรวจจับคำของคุณเอง ! ส่วนขยายของวิธีการนี้รวมถึงรูปแบบชิ้นส่วนและแบบโดยแบบอย่าง ,ที่คุณรถไฟลักษณนามสำหรับแต่ละบวกตัวอย่างมากกว่าคอลเลกชันของพวกเขา .

แต่ถ้าคุณเคยทำงานกับการตรวจจับวัตถุในภาพ คุณอาจเจอปัญหาของการตรวจสอบหลายปกกล่องรอบวัตถุที่คุณต้องการจะตรวจสอบในรูป

ที่นี่คือตัวอย่างของปัญหาที่ทับซ้อนกันวิ่งกล่อง :

รูปที่ 3 :( ซ้าย ) ตรวจสอบ ทับซ้อนกันหลายปกกล่องรอบหน้าเราต้องการตรวจสอบ ( ขวา ) ใช้ไม่เกินปราบปรามเอาซ้อนนอกกล่อง
รูปที่ 3 : ( ซ้าย ) ตรวจสอบหลายซ้อนวิ่งกล่องรอบหน้าเราต้องการตรวจสอบ ( ขวา ) ใช้ไม่เกินปราบปรามลบซ้ำซ้อน
จำกัดกล่องสังเกตุด้านซ้ายมี 6 กล่องซ้อนวิ่งตรวจพบได้อย่างถูกต้องเป็นออเดรย์ เฮปเบิร์น หน้า อย่างไรก็ตาม , เหล่านี้วิ่งกล่องทั้งหมดที่อ้างถึงหน้าเดียวกัน เราต้องมีวิธีการปราบปรามเล็กวิ่ง 5 กล่องในภูมิภาค , การรักษาเดียวที่ใหญ่ที่สุดที่เห็นด้านขวา

นี่เป็นปัญหาทั่วไปไม่ว่าถ้าคุณใช้ Viola โจนส์ตามวิธีการหรือตาม Dalal triggs กระดาษ

มีหลายวิธีที่จะแก้ไขปัญหานี้ triggs et al . แนะนำให้ใช้หมายถึงการเปลี่ยนแปลงขั้นตอนวิธีการตรวจสอบโหมดต่างๆในบริเวณกล่องพื้นที่โดยการใช้พิกัด ( x , y ) ที่บริเวณกล่องเป็นลอการิทึมของขนาดปัจจุบันของภาพ

ส่วนตัวผมเคยลองวิธีนี้แล้วไม่ได้พอใจกับผลลัพธ์ แทน คุณจะดีขึ้นมากโดยอาศัยแข็งแรงแบบที่มีความถูกต้องสูง ( หมายถึงมีผลบวกปลอมน้อยมาก ) แล้วใช้ไม่ปราบปราม เพื่อขอบเขตสูงสุดกล่อง

ผมใช้เวลามองหาที่ดีไม่ใช่การปราบปรามสูงสุด ( บางครั้งเรียกว่าไม่ปราบปราม maxima ) ดำเนินการในหลาม .เมื่อผมหาไม่เจอ ผมพูดคุยกับเพื่อนของฉัน ดร. ตอมัช malisiewicz ที่ได้ใช้เวลาตลอดอาชีพของเขาทำงานกับวัตถุที่ตรวจจับ ขั้นตอนวิธีและหมูหัวเรื่อง . มีจริง ไม่มีใครที่ผมรู้จักที่มีประสบการณ์มากในพื้นที่นี้กว่าตอมัช . และถ้าคุณเคยอ่านใด ๆของเอกสารของเขา , คุณจะรู้ว่าทำไม งานของเขาเป็นที่ยอดเยี่ยม

ยังไง หลังจากพูดคุยกับเขาเขาชี้ให้ฉันสองโปรแกรมที่ใช้งาน ก่อนจะใช้งาน โดย felzenszwalb et al . และโดยส่วนรุ่น

วิธีที่สองใช้ตอมัชตัวเองของเขาแบบอย่าง SVM ซึ่งเขาใช้สำหรับโครงการวิทยานิพนธ์ของเขา iccv 2011 กระดาษของเขาและวงดนตรีของแบบอย่างแบบสำหรับตรวจจับวัตถุและเกินมันเป็นสิ่งสำคัญที่จะทราบว่าตอมัชวิธีการมากกว่า 100x เร็วกว่า felzenszwalb et al . วิธี และเมื่อคุณรันการปราบปรามการทำงานสูงสุดของคุณไม่กี่ล้านครั้ง ซึ่ง 100x SpeedUp สำคัญจริงๆ

ผมเคยใช้ทั้ง felzenszwalb et al . และ ตอมัช et al . วิธีการย้ายจาก Matlab งูเหลือม สัปดาห์หน้า เราจะเริ่มกับ felzenszwalb วิธีแล้วอาทิตย์ต่อไปผมจะครอบคลุมตอมัชเป็นวิธี ในขณะที่ตอมัชแบบเป็นเร็วขึ้นอย่างมาก ผมคิดว่ามันสำคัญที่จะเห็นทั้งระบบเพื่อให้เราสามารถเข้าใจถึงวิธีการของเขาได้รับนั้นรุนแรง speedups

มั่นใจที่จะติดรอบและตรวจสอบการโพสต์นี้ ! เหล่านี้เป็นขั้นตอนที่สำคัญอย่างยิ่งที่จะสร้างเครื่องตรวจจับวัตถุของคุณเอง !

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.