Video shots are used as unit for generating instances. Broadcast News videos are segmented into video shots using RGB Colour Histogram matching Between consecutive video frames. From each video shot we have extracted 7 Audio ( viz. Short term energy, zero crossing rate, Spectral Centroid, spectral Flux, spectral Roll off frequency, fundamental frequency and MFCC Bag of Audio Words) and 5 visual Features ( viz. Video shot length, Screen Text Distribution, Motion Distribution, Frame Difference Distribution, Edge Change Ratio) from each video shot. Details of each extracted feature are as follows.
Audio Features :-
In general to attract viewer's attention TV commercials have higher audio amplitude, appropriate background music ( comparatively higher frequencies) as well as sharp transitions from one music to other or music to speech etc. We try to capture these properties by using low level audio features -- Short Time Energy (STE) , Zero Crossing Rate (ZCR), Spectral Centroid, Spectral Flux, Spectral Roll-Off Frequency and Fundamental Frequency. All of these short term audio features are calculated with audio frame size of 20 msec at 8000Hz sampling Frequency. The Mean and standard deviation of all audio feature values are calculated over the shot, generating a 2D vector for each feature.
The MFCC Bag of Audio Words have been successfully used in several existing speech/audio processing applications. This motivated us to compute the MFCC coefficients along with Delta and Delta-Delta Cepstrum from 150 hours of audio tracks. These coefficients are clustered into 4000 groups which form the Audio words. Each shot is then represented as a 4000 Dimensional Bag of Audio Words by forming the normalized histograms of the MFCC's extracted from 20 ms windows with overlap of 10 ms in the shots.
Video Features :
Commercial video shots are usually short in length, fast visual transitions with peculiar placement of overlaid text bands. Video Shot Length is directly used as one of the feature. Placement of overlaid text bands is represented by 15 dimensional overlaid Text Distribution. To calculate Text Distribution feature, video frame is divided into a grid of size 5 X 3( 15 grid blocks). The text distribution feature is obtained by averaging the fraction of text area present in a grid block over all frames of the shot. Motion Distribution, Frame Change Distribution and Edge Change Ratio captures the dynamic nature of the commercial shots.
Motion Distribution is obtained by first computing dense optical flow (Horn-Schunk formulation) followed by construction of a distribution of flow magnitudes over the entire shot with 40 uniformly divided bins in range of [0, 40]. Sudden changes in pixel intensities are grasped by Frame Difference Distribution. Such changes are not registered by optical flow. Thus, Frame Difference Distribution is also computed along with flow magnitude distributions. We obtain the frame difference by averaging absolute frame difference in each of 3 color channels and the distribution is constructed with 32 bins in the range of [0, 255] . Edge Change Ratio Captures the motion of edges between consecutive frames and is defined as ratio of displaced edge pixels to the total number of edge pixels in a frame. We calculate the mean and variance of the ECR over the entire shot.
The Feature File is represented in Lib SVM data format and contains approximetly 63% commercial instances( Positives). Dimension index for different Features are as Follows
Labels : - +1/-1 ( Commercials/Non Commercials)
Feature
Dimension Index in feature File
Shot Length
1
Motion Distribution( Mean and Variance)
2 - 3
Frame Difference Distribution ( Mean and Variance)
4 - 5
Short time energy ( Mean and Variance)
6 – 7
ZCR( Mean and Variance)
8 - 9
Spectral Centroid ( Mean and Variance)
10 - 11
Spectral Roll off ( Mean and Variance)
12 - 13
Spectral Flux ( Mean and Variance)
14 - 15
Fundamental Frequency ( Mean and Variance)
16 - 17
Motion Distribution ( 40 bins)
18 - 58
Frame Difference Distribution ( 32 bins)
59 - 91
Text area distribution ( 15 bins Mean and 15 bins for variance )
92 - 122
Bag of Audio Words ( 4000 bins)
123 - 4123
Edge change Ratio ( Mean and Variance)
4124 - 4125
Key frames for shots can be made available on request.
ภาพวิดีโอที่ถูกนำมาใช้เป็นหน่วยในการสร้างอินสแตนซ์ วิดีโอออกอากาศข่าวจะถูกแบ่งออกเป็นภาพวิดีโอโดยใช้ RGB Histogram สีจับคู่ระหว่างเฟรมวิดีโอต่อเนื่อง จากการยิงแต่ละวิดีโอที่เราได้สกัด 7 เสียง ( ได้แก่ . พลังงานระยะสั้นอัตราข้ามศูนย์ผีเซนทรอยด์, สเปกตรัมฟลักซ์, ม้วนออกความถี่สเปกตรัมความถี่พื้นฐานและ MFCC กระเป๋าของเสียงคำ) และ 5 คุณสมบัติภาพ ( ได้แก่ . วิดีโอยิงยาว กระจายหน้าจอข้อความกระจาย Motion, Distribution Frame แตกต่างขอบเปลี่ยน Ratio) จากการยิงแต่ละวิดีโอ รายละเอียดคุณลักษณะสกัดแต่ละมีดังนี้.
คุณสมบัติเสียง: -
โดยทั่วไปจะดึงดูดความสนใจของผู้ชมโฆษณาสนใจทีวีมีความกว้างสูงเสียงเพลงพื้นหลังที่เหมาะสม (ความถี่เปรียบเทียบที่สูงขึ้น) เช่นเดียวกับการเปลี่ยนที่คมชัดจากเพลงอื่น ๆ หรือเพลงที่จะพูด ฯลฯ เราพยายามที่จะจับคุณสมบัติเหล่านี้โดยใช้คุณสมบัติเสียงระดับต่ำ - เวลาสั้นพลังงาน (STE) ศูนย์ข้าม Rate (ZCR) ผีเซนทรอยด์, Spectral ฟลักซ์, ผีม้วน-Off ความถี่และพื้นฐานความถี่ ทั้งหมดเหล่านี้คุณสมบัติเสียงในระยะสั้นจะมีการคำนวณที่มีขนาดกรอบเสียง 20 มิลลิวินาทีที่ 8000Hz สุ่มตัวอย่างความถี่ ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของค่าคุณลักษณะเสียงคำนวณมากกว่ายิงสร้างเวกเตอร์ 2D สำหรับแต่ละคุณลักษณะ.
กระเป๋า MFCC เสียงของคำที่ได้รับการใช้ประสบความสำเร็จในหลายโปรแกรมประมวลผลคำพูด / เสียงที่มีอยู่ นี้แรงบันดาลใจให้เราในการคำนวณค่าสัมประสิทธิ์ MFCC พร้อมกับเดลต้าและเดลต้า Delta Cepstrum จาก 150 ชั่วโมงของเสียงเพลง ค่าสัมประสิทธิ์เหล่านี้มีการจัดกลุ่มออกเป็นกลุ่ม 4000 ซึ่งรูปแบบคำเสียง การยิงแต่ละครั้งเป็นตัวแทนแล้วเป็น 4000 มิติกระเป๋าของเสียงคำโดยรูป histograms ปกติสกัดจาก 20 MS Windows ซ้อนกับ 10 มิลลิวินาทีในภาพที่ MFCC ของ.
วิดีโอคุณสมบัติ:
ภาพวิดีโอพาณิชย์มักจะสั้นยาวช่วงการเปลี่ยนภาพได้อย่างรวดเร็ว กับตำแหน่งที่แปลกประหลาดของวงดนตรีที่ข้อความที่ซ้อนทับกัน วิดีโอยิงยาวมาใช้โดยตรงเป็นหนึ่งในคุณลักษณะ ตำแหน่งของวงดนตรีที่ข้อความที่วางซ้อนเป็นตัวแทนจาก 15 มิติการกระจายข้อความที่วางซ้อน คุณลักษณะในการคำนวณการกระจายข้อความเฟรมวิดีโอจะแบ่งออกเป็นตารางที่มีขนาด 5 x 3 (15 บล็อกตาราง) คุณลักษณะการกระจายข้อความที่จะได้รับโดยเฉลี่ยส่วนของพื้นที่ข้อความปัจจุบันในบล็อกตารางมากกว่าทุกเฟรมของการยิง การกระจายการเคลื่อนไหว, กรอบเปลี่ยนการจัดจำหน่ายและขอบเปลี่ยนอัตราส่วนจับลักษณะของภาพในเชิงพาณิชย์.
จัดจำหน่ายโมชั่นจะได้รับโดยการใช้คอมพิวเตอร์ครั้งแรกไหลแสงความหนาแน่นสูง (Horn-Schunk สูตร) ตามด้วยการก่อสร้างของการกระจายตัวของขนาดไหลมาที่ภาพทั้งหมดที่มี 40 แบ่งออกสม่ำเสมอถังขยะในช่วง [0, 40] การเปลี่ยนแปลงอย่างฉับพลันในความเข้มพิกเซลลงโทษโดยกรอบการกระจายความแตกต่าง การเปลี่ยนแปลงดังกล่าวไม่ได้ลงทะเบียนโดยการไหลออปติคอล ดังนั้น Distribution Frame แตกต่างนอกจากนี้ยังมีการคำนวณพร้อมกับการกระจายการไหลขนาด เราได้รับความแตกต่างเฟรมโดยเฉลี่ยแตกต่างกรอบแน่นอนในแต่ละ 3 ช่องสีและการจัดจำหน่ายถูกสร้างด้วย 32 ถังในช่วง [0, 255] ขอบเปลี่ยนอัตราการจับการเคลื่อนไหวของขอบระหว่างเฟรมติดต่อกันและมีการกำหนดเป็นอัตราส่วนของพิกเซลขอบพลัดถิ่นกับจำนวนของพิกเซลที่ขอบในกรอบ เราคำนวณค่าเฉลี่ยและความแปรปรวนของ ECR มากกว่ายิงทั้งหมด.
ไฟล์คุณสมบัติเป็นตัวแทนในรูปแบบข้อมูล Lib SVM และมีกรณีในเชิงพาณิชย์ approximetly 63% (บวก) ดัชนีมิติสำหรับคุณสมบัติที่แตกต่างกันดังต่อไปนี้
ป้ายกำกับ: - + 1 / -1 (โฆษณา / โฆษณาบุหรี่)
คุณสมบัติ
ขนาดดัชนีในลักษณะไฟล์
ยิงยาว
1
โมชั่นจัดจำหน่าย (ค่าเฉลี่ยและความแปรปรวน)
2-3
เฟรมการกระจายความแตกต่าง (ค่าเฉลี่ยและความแปรปรวน)
4 - 5
พลังงานเวลาสั้น (ค่าเฉลี่ยและความแปรปรวน)
6 †"7
ZCR (ค่าเฉลี่ยและความแปรปรวน)
8-9
ผีเซนทรอยด์ (ค่าเฉลี่ยและความแปรปรวน)
10-11
Spectral ม้วนออก (ค่าเฉลี่ยและความแปรปรวน)
12-13
Spectral ฟลักซ์ (ค่าเฉลี่ยและ ความแปรปรวน)
14-15
ความถี่พื้นฐาน (ค่าเฉลี่ยและความแปรปรวน)
16-17
เคลื่อนไหวการจัดจำหน่าย (40 ถัง)
18-58
กรอบความแตกต่างการจัดจำหน่าย (32 ถัง)
59-91
กระจายพื้นที่ข้อความ (15 ถังขยะเฉลี่ยและ 15 ถังขยะสำหรับแปรปรวน)
92-122
กระเป๋าของเสียงคำ (4000 ถังขยะ)
123-4123
เปลี่ยนแปลงขอบอัตราส่วน (ค่าเฉลี่ยและความแปรปรวน)
4124-4125
คีย์เฟรมสำหรับการถ่ายภาพสามารถทำตามคำขอ
การแปล กรุณารอสักครู่..

ภาพวิดีโอจะใช้เป็นหน่วยการสร้างอินสแตนซ์ . ข่าววิดีโอจะแบ่งออกเป็นวิดีโอภาพโดยใช้สี RGB Histogram การจับคู่ระหว่างเฟรมของวิดีโอ ) จากวิดีโอแต่ละยิงเราได้สกัด 7 เสียง คือ พลังงานระยะสั้น ตัดศูนย์อัตราการไหลเซนทรอยด์ผีผีม้วนออกความถี่ ความถี่หลักมูลค่าถุงของคำและเสียงและภาพ ( 5 ) คุณสมบัติ คือ ยิงวิดีโอความยาว การเคลื่อนไหว การสกรีนข้อความ , การเปลี่ยนแปลงอัตราส่วนความแตกต่างกรอบขอบ ) จากวิดีโอแต่ละช็อต รายละเอียดของแต่ละสกัดคุณลักษณะดังนี้คุณสมบัติ : - เสียงโดยทั่วไป เพื่อดึงดูดความสนใจของผู้ชมโฆษณาทางโทรทัศน์มีสูงกว่า เสียงคลื่นเพลงพื้นหลังที่เหมาะสม ( เปรียบเทียบความถี่สูง ) เช่นเดียวกับคมเปลี่ยนจากเพลงหรือดนตรีอื่น ๆ การพูด ฯลฯ เราพยายามที่จะจับคุณสมบัติเหล่านี้ได้โดยการใช้ระดับต่ำเสียงคุณสมบัติ -- พลังงานในระยะเวลาอันสั้น ( เหล็กเหนียว ) , อัตราการผสมข้ามพันธุ์ ( zcr ) สเปกตรัมของภาพเงา , ฟลักซ์ , การม้วนออกความถี่และความถี่พื้นฐาน ทั้งหมดเหล่านี้ในระยะสั้นเสียงมีการคำนวณด้วยขนาดเฟรมที่เสียง 20 มิลลิวินาทีที่ 8000hz ความถี่ Sampling ) ค่าเฉลี่ย และส่วนเบี่ยงเบนมาตรฐานของค่าเสียงมีทั้งหมด ได้ยิงข้ามสร้างเวกเตอร์ 2D สำหรับแต่ละคุณลักษณะส่วนค่าถุงคำเสียงได้รับการใช้ประสบความสำเร็จในการพูดหลายที่มีอยู่ / เสียงการประมวลผลโปรแกรม นี้กระตุ้นให้เราหาค่าสัมประสิทธิ์พร้อมกับเดลต้าเดลต้าเดลต้า ) จาก 150 ชั่วโมงของแทร็คเสียง สัมประสิทธิ์เหล่านี้มีการจัดกลุ่มเป็น 4000 กลุ่มซึ่งรูปแบบคำเสียง แต่ละภาพจะแสดงเป็น 4 มิติถุงคำเสียง โดยเป็นค่าของค่าฮิสโตแกรมของสกัดจาก 20 MS Windows กับทับซ้อนของ MS ใน 10 ภาพวิดีโอ :ภาพวิดีโอเชิงพาณิชย์มักจะสั้นในความยาว รวดเร็ว ด้วยการจัดวางภาพ การเปลี่ยนแปลกของข้อความและวงดนตรี ยิงวิดีโอความยาวใช้โดยตรงเป็นหนึ่งในคุณลักษณะ จัดวางข้อความแถบหุ้มแทนด้วย 15 มิติบุข้อความแจกจ่าย เพื่อหาคุณลักษณะการกระจายข้อความ กรอบภาพ แบ่งเป็นตารางขนาด 5 x 3 ( 15 บล็อกตาราง ) ข้อความที่ได้รับโดยเฉลี่ยคุณลักษณะการกระจายสัดส่วนของพื้นที่ข้อความที่มีอยู่ในตารางบล็อกทุกเฟรมของการยิง การเปลี่ยนแปลงและเคลื่อนไหวกรอบการกระจายสัดส่วนเปลี่ยนขอบจับลักษณะแบบไดนามิกของการถ่ายภาพเชิงพาณิชย์กระจายการเคลื่อนไหวได้ก่อนการคำนวณหนาแน่นไหลแสงสูตร ชังค์ฮอร์น ) รองลงมา คือ การสร้างการกระจายของขนาดไหลเหนือยิงทั้งหมด 40 โดยการแบ่งช่องในช่วง [ 0 , 40 ] การเปลี่ยนแปลงอย่างฉับพลันในพิกเซลเข้มจะลงโทษด้วยการกระจายความกรอบ การเปลี่ยนแปลงดังกล่าวจะไม่ได้ลงทะเบียนโดยการไหลของแสง ดังนั้น การกระจายความกรอบก็คำนวณตามขนาดการไหล เราได้รับกรอบความแตกต่างโดยเฉลี่ยสัมบูรณ์กรอบความแตกต่างในแต่ละ 3 ช่อง สี และ การสร้างด้วย 32 ถังขยะในช่วง [ 0 , 255 ] อัตราส่วนการเปลี่ยนขอบจับความเคลื่อนไหวของขอบระหว่างเฟรมต่อเนื่อง หมายถึง อัตราส่วนของผู้พลัดถิ่นขอบพิกเซลจำนวนพิกเซลในขอบเฟรม เราคำนวณค่าเฉลี่ยและความแปรปรวนของ ECR ไปยิงทั้งหมดคุณลักษณะแฟ้มจะแสดงในรูปแบบของข้อมูล และมี approximetly lib SVM 63% อินสแตนซ์ ( เชิงบวก ) มิติสำหรับดัชนีที่มีคุณลักษณะดังนี้ป้าย : + 1 / - 1 ( โฆษณา / ไม่โฆษณา )คุณลักษณะมิติคุณลักษณะแฟ้มดัชนีในยิงยาว1กระจายการเคลื่อนไหว ( ค่าเฉลี่ยและความแปรปรวน )2 - 3จำหน่ายกรอบ ( ค่าเฉลี่ยและความแปรปรวน ) ความแตกต่าง4 - 5พลังงานในเวลาสั้น ๆ ( ค่าเฉลี่ยและความแปรปรวน )6 †" 7zcr ( ค่าเฉลี่ยและความแปรปรวน )8 - 9สเปกตรัมเซนทรอยด์ ( ค่าเฉลี่ยและความแปรปรวน )10 - 11แผ่สเปกตรัม ( ค่าเฉลี่ยและความแปรปรวน )12 - 13การไหล ( ค่าเฉลี่ยและความแปรปรวน )14 - 15ความถี่มูลฐาน ( ค่าเฉลี่ยและความแปรปรวน )16 - 17กระจายการเคลื่อนไหว ( 40 กล่อง )18 - 58จำหน่ายกรอบ ( 32 ช่อง ) ความแตกต่าง59 - 91การกระจายของพื้นที่ข้อความ ( 15 และ 15 ถังขยะสำหรับถังขยะหมายถึงความแปรปรวน92 - 122ถุงของคำเสียง ( 4 ช่อง )123 - เอเซียอัตราส่วนการเปลี่ยนขอบ ( ค่าเฉลี่ยและความแปรปรวน )4124 - 0คีย์เฟรมสำหรับภาพที่สามารถให้บริการเมื่อร้องขอ
การแปล กรุณารอสักครู่..
