was demonstrated. In [8], the modeling of lip movements by hidden
Markov models (HMMs) is presented. Each lip movement clip is represented
by 2D discrete cosine transform (DCT) coefficients of the optical
flowvectorswithin themouth region. In [9], speech, lip movements and
face images are combined to give robust person identification. In this
work, DCTs of intensity normalized mouth images were employed to
provide static features. These were then combined with an HMM to
classify the speaker via log-likelihood.
Rather than recognizing a speaking person, research by Newman
and Cox tries to determine the language a person is talking in by
recognizing their lip movements when speaking a specific passage of
text [10]. For this, they use Active Appearance Models (AAM) to locate
the face and mouth, and produce a vector that represents the lip
shape for each video frame. They obtain recognition results of 100%
for seventy-five different languages for a single speaker. Subsequently,
Newman and Cox [11] modified the classification system to obtain
speaker independent language recognition, obtaining 100% classification
accuracy for five bilingual speakers—even with a viseme classification
accuracy of as low as 40%.
Another field in which lip contour extraction is used is in facial expression
recognition as described by Raheja et al. [12]. They studied
three facial expressions by processing an image of a face. To do this,
they extract the lip contour by edge detection, generate a binary
image, post-process to fill in holes, and perform a histogram analysis
of the binarized image for classification. Using this system, they achieve
a recognition rate of up to 95%.
There have been various investigations into recognizing a person
fromtheir lips. In one of these byMehra et al. [13], PCA is used to obtain
feature vectors of reduced dimension, which are then input to a neural
network for classification. They achieve an accuracy rate of 91.07%. In
[14], a novel ordinal contrastmeasure, called Local Ordinal Contrast Pattern,
is proposed for representing video of themouth region of a speaker
while talking. This has been used in a three orthogonal plane configuration
as input to a speaker verification system. Verification was accomplished
using the chi-squared histogram distance or LDA classifiers,
obtaining a half total error rate of less than 1%.Wang and Liew [6] studied
the roles of different lip features, related to both physiological and
behavioral properties of lips, in personal identification, and demonstrated
that though dynamic features achieve higher recognition accuracy,
both dynamic and static features are promising biometrics for verification.
In [15], a new approach to speaker verification using video sequences
of lip movements is proposed, in which a Motion History
Image is used to provide a biometric template of a spoken word for
each speaker. A Bayesian classifier is used for classification, obtaining
an average recognition rate of 90% at a false alarmrate of 5%. In another
work, a new motion based feature extraction technique for speaker
identification using orientation estimation in 2D manifolds is reported
[16]. The motion is estimated by computing the components of the
structure tensor from which normal flows are extracted. By projecting
the 3D spatiotemporal data to 2-D planes, projection coefficients are obtained
which are used to evaluate the 3-D orientations of brightness
patterns in TV like image sequences. An implementation, based on
joint lip movements and speech, is presented along with experiments
demonstrating a recognition rate of 98% on the publicly available
XM2VTS database.
There exist a number of approaches for lip contour extraction, or lip
corner detection, for visual speech/speaker recognition. For example,
[17] used amonochrome image histogramto detect lip corners. However,
it ismore common to use color images, such as RGB [6] and HSV images
[18]. Prewitt and Sobel operators are employed to detect lip edges
in [19]. In [20], a manifold based approach is introduced to extract the
lip contour. The red exclusion method [17] is widely used, due to its
simplicity and efficiency. Similar to the approach in [21,22] is based on
an RGB transformation of the lip regions. The resulting transformation
and the b component of the CIELAB color space, are then used for the
clustering phase. The task is formulated as finding the optimum
was demonstrated. In [8], the modeling of lip movements by hiddenMarkov models (HMMs) is presented. Each lip movement clip is representedby 2D discrete cosine transform (DCT) coefficients of the opticalflowvectorswithin themouth region. In [9], speech, lip movements andface images are combined to give robust person identification. In thiswork, DCTs of intensity normalized mouth images were employed toprovide static features. These were then combined with an HMM toclassify the speaker via log-likelihood.Rather than recognizing a speaking person, research by Newmanand Cox tries to determine the language a person is talking in byrecognizing their lip movements when speaking a specific passage oftext [10]. For this, they use Active Appearance Models (AAM) to locatethe face and mouth, and produce a vector that represents the lipshape for each video frame. They obtain recognition results of 100%for seventy-five different languages for a single speaker. Subsequently,Newman and Cox [11] modified the classification system to obtainspeaker independent language recognition, obtaining 100% classificationaccuracy for five bilingual speakers—even with a viseme classificationaccuracy of as low as 40%.Another field in which lip contour extraction is used is in facial expressionrecognition as described by Raheja et al. [12]. They studiedthree facial expressions by processing an image of a face. To do this,they extract the lip contour by edge detection, generate a binaryimage, post-process to fill in holes, and perform a histogram analysisof the binarized image for classification. Using this system, they achievea recognition rate of up to 95%.There have been various investigations into recognizing a personfromtheir lips. In one of these byMehra et al. [13], PCA is used to obtainfeature vectors of reduced dimension, which are then input to a neuralnetwork for classification. They achieve an accuracy rate of 91.07%. In[14], a novel ordinal contrastmeasure, called Local Ordinal Contrast Pattern,is proposed for representing video of themouth region of a speakerwhile talking. This has been used in a three orthogonal plane configurationas input to a speaker verification system. Verification was accomplishedusing the chi-squared histogram distance or LDA classifiers,obtaining a half total error rate of less than 1%.Wang and Liew [6] studiedthe roles of different lip features, related to both physiological andbehavioral properties of lips, in personal identification, and demonstratedthat though dynamic features achieve higher recognition accuracy,both dynamic and static features are promising biometrics for verification.In [15], a new approach to speaker verification using video sequencesof lip movements is proposed, in which a Motion HistoryImage is used to provide a biometric template of a spoken word foreach speaker. A Bayesian classifier is used for classification, obtainingan average recognition rate of 90% at a false alarmrate of 5%. In anotherwork, a new motion based feature extraction technique for speakeridentification using orientation estimation in 2D manifolds is reported[16]. The motion is estimated by computing the components of thestructure tensor from which normal flows are extracted. By projectingthe 3D spatiotemporal data to 2-D planes, projection coefficients are obtainedwhich are used to evaluate the 3-D orientations of brightnesspatterns in TV like image sequences. An implementation, based onjoint lip movements and speech, is presented along with experimentsdemonstrating a recognition rate of 98% on the publicly availableXM2VTS database.There exist a number of approaches for lip contour extraction, or lipcorner detection, for visual speech/speaker recognition. For example,[17] used amonochrome image histogramto detect lip corners. However,it ismore common to use color images, such as RGB [6] and HSV images[18]. Prewitt and Sobel operators are employed to detect lip edgesin [19]. In [20], a manifold based approach is introduced to extract thelip contour. The red exclusion method [17] is widely used, due to itssimplicity and efficiency. Similar to the approach in [21,22] is based onan RGB transformation of the lip regions. The resulting transformationand the b component of the CIELAB color space, are then used for theclustering phase. The task is formulated as finding the optimum
การแปล กรุณารอสักครู่..

ได้แสดงให้เห็น ใน [8]
การสร้างแบบจำลองการเคลื่อนไหวริมฝีปากโดยซ่อนรุ่นมาร์คอฟ(HMMs) จะนำเสนอ แต่ละคลิปเคลื่อนไหวริมฝีปากเป็นตัวแทนจาก 2D แปลงโคไซน์ไม่ต่อเนื่อง (DCT) ค่าสัมประสิทธิ์ของแสง flowvectorswithin ภูมิภาค themouth ใน [9], การพูด, การเคลื่อนไหวของปากและภาพใบหน้าจะรวมกันเพื่อให้บัตรประจำตัวคนที่แข็งแกร่ง ในการนี้การทำงานของความเข้ม DCTs ปกติภาพปากที่ถูกว่าจ้างจะมีคุณสมบัติคงที่ เหล่านี้ถูกรวมกันแล้วด้วยอืมจะแยกประเภทลำโพงผ่านเข้าสู่ระบบโอกาส. แทนที่จะตระหนักถึงความเป็นคนที่พูดวิจัยโดยนิวแมนและคอคส์พยายามที่จะกำหนดภาษาคนมีการพูดคุยในโดยตระหนักถึงการเคลื่อนไหวของริมฝีปากของพวกเขาเมื่อพูดทางที่เฉพาะเจาะจงของข้อความ[10] สำหรับเรื่องนี้พวกเขาใช้รุ่นลักษณะที่ใช้งาน (AAM) เพื่อค้นหาใบหน้าและปากและผลิตเวกเตอร์ที่แสดงถึงริมฝีปากที่รูปร่างสำหรับกรอบแต่ละวิดีโอ พวกเขาได้รับผลการรับรู้ของ 100% สำหรับเจ็ดสิบห้าภาษาที่แตกต่างกันสำหรับลำโพงเดียว ต่อมานิวแมนและคอคส์ [11] การปรับเปลี่ยนระบบการจัดหมวดหมู่เพื่อให้ได้รับรู้ภาษาลำโพงอิสระที่ได้รับการจัดหมวดหมู่100% ความถูกต้องเป็นเวลาห้าภาษาลำโพงแม้จะมีการจัดหมวดหมู่ viseme ความถูกต้องของที่ต่ำเป็น 40%. สนามอีกในการที่สกัดเส้นริมฝีปากคือ ที่ใช้อยู่ในการแสดงออกทางสีหน้าได้รับการยอมรับตามที่อธิบายRaheja et al, [12] พวกเขาศึกษาสามการแสดงออกทางสีหน้าโดยการประมวลผลภาพของใบหน้าหนึ่ง การทำเช่นนี้พวกเขาดึงเส้นริมฝีปากโดยการตรวจหาขอบสร้างไบนารีภาพที่โพสต์ขั้นตอนการกรอกข้อมูลลงในหลุมและดำเนินการวิเคราะห์กราฟของภาพที่binarized การจัดหมวดหมู่ การใช้ระบบนี้พวกเขาบรรลุอัตราการรับรู้ได้ถึง 95%. มีการตรวจสอบต่าง ๆ ตระหนักถึงคนfromtheir ริมฝีปาก ในตอนหนึ่งของเหล่านี้ byMehra et al, [13], PCA ถูกนำมาใช้เพื่อให้ได้เวกเตอร์คุณลักษณะของมิติที่ลดลงซึ่งเป็นแล้วใส่ไปยังประสาทเครือข่ายการจัดหมวดหมู่ พวกเขาประสบความสำเร็จในความถูกต้องของอัตรา 91.07% จาก ใน[14] เป็น contrastmeasure ลำดับใหม่ที่เรียกว่ารูปแบบความคมชัดลำดับท้องถิ่นเสนอสำหรับการเป็นตัวแทนของภูมิภาควิดีโอของลำโพงthemouth ในขณะที่พูด นี้ได้ถูกนำมาใช้ในการกำหนดค่าสามเครื่องบินมุมฉากเป็น input เพื่อระบบการตรวจสอบลำโพง การตรวจสอบก็ประสบความสำเร็จโดยใช้ระยะ histogram ไคสแควร์หรือ LDA ลักษณนาม, ได้รับครึ่งหนึ่งของอัตราความผิดพลาดรวมน้อยกว่า 1% .Wang และหลิว [6] การศึกษาบทบาทของคุณสมบัติริมฝีปากที่แตกต่างกันที่เกี่ยวข้องกับทั้งทางสรีรวิทยาและคุณสมบัติพฤติกรรมของริมฝีปากในการระบุส่วนบุคคลและแสดงให้เห็นว่าแม้คุณสมบัติแบบไดนามิกบรรลุความถูกต้องของการรับรู้ที่สูงขึ้นทั้งคุณสมบัติแบบไดนามิกและแบบคงมีแนวโน้มที่ชีวภาพสำหรับการตรวจสอบ. ใน [15] ซึ่งเป็นวิธีการใหม่ในการตรวจสอบลำโพงใช้ลำดับวิดีโอของการเคลื่อนไหวของริมฝีปากจะเสนอซึ่งในการเคลื่อนไหวประวัติความเป็นมาภาพที่ถูกนำมาใช้เพื่อให้แม่แบบไบโอเมตริกซ์ของคำพูดสำหรับลำโพงแต่ละ ตัวแยกประเภทเบย์ที่ใช้สำหรับการจัดหมวดหมู่ได้รับอัตราการรับรู้ค่าเฉลี่ยของ 90% ที่ alarmrate ที่ผิดพลาดของ 5% อีกงานการเคลื่อนไหวใหม่บนพื้นฐานของเทคนิคการดึงลำโพงบัตรประจำตัวโดยใช้การประมาณค่าการวางแนวทางในmanifolds 2D มีรายงาน[16] การเคลื่อนไหวเป็นที่คาดกันโดยการคำนวณส่วนประกอบของเมตริกซ์โครงสร้างจากการที่กระแสปกติจะถูกดึง โดยการฉายข้อมูล spatiotemporal 3D 2-D เครื่องบินค่าสัมประสิทธิ์การฉายจะได้รับซึ่งจะใช้ในการประเมินแนว3 มิติของความสว่างในรูปแบบทีวีเช่นลำดับภาพ การดำเนินการบนพื้นฐานของการเคลื่อนไหวของริมฝีปากร่วมกันและการพูดที่จะนำเสนอพร้อมกับการทดลองแสดงให้เห็นถึงอัตราการรับรู้ของ98% ในที่เปิดเผยต่อสาธารณชนฐานข้อมูลXM2VTS. มีอยู่หลายวิธีในการสกัดเส้นริมฝีปากหรือริมฝีปากตรวจจับมุมสำหรับการพูดภาพ / การรับรู้ของลำโพง ยกตัวอย่างเช่น[17] ใช้ภาพ amonochrome histogramto ตรวจสอบมุมปาก แต่มัน ismore เรื่องธรรมดาที่จะใช้ภาพสีเช่น RGB [6] และภาพ HSV [18] ผู้ประกอบการและ Prewitt โชเบลที่ใช้ในการตรวจหาขอบริมฝีปากใน[19] ใน [20], วิธีการต่าง ๆ นานาตามที่มีการนำมาเพื่อแยกเส้นริมฝีปาก วิธีการยกเว้นสีแดง [17] ใช้กันอย่างแพร่หลายเนื่องจากการที่เรียบง่ายและมีประสิทธิภาพ คล้ายกับวิธีการใน [21,22] จะขึ้นอยู่กับการเปลี่ยนแปลงRGB ของภูมิภาคริมฝีปาก การเปลี่ยนแปลงที่เกิดขึ้นและส่วนประกอบขของพื้นที่สี CIELAB ที่ถูกนำมาใช้สำหรับขั้นตอนการจัดกลุ่ม งานเป็นสูตรการหาที่เหมาะสม
การแปล กรุณารอสักครู่..

คือแสดงให้เห็นถึง [ 8 ] , การจำลองการเคลื่อนไหวริมฝีปากด้วยแบบจำลองฮิดเดนมาร์คอฟ
( hmms ) จะนำเสนอ แต่ละการเคลื่อนไหวริมฝีปากคลิปแทน
โดย 2D ไม่ต่อเนื่องโคไซน์แปลง ( DCT ) สัมประสิทธิ์ของแสง
flowvectorswithin themouth ภูมิภาค [ 9 ] , การพูด , การเคลื่อนไหวของริมฝีปากและใบหน้ารวมให้
ภาพเป็นคนแข็งแกร่ง ในงานนี้
,dcts เข้มรูปปากรูปแบบ
มีคุณลักษณะแบบคงที่ เหล่านี้จึงรวมกับหืม
จัดลำโพงผ่านโอกาสเข้าสู่ระบบ .
แทนที่จะตระหนักถึงการพูดบุคคล , วิจัยและนิวแมน
Cox พยายามที่จะกําหนดภาษาคนถาม โดยตระหนักถึงการเคลื่อนไหวริมฝีปากของตนเวลาพูด
เนื้อเรื่องเฉพาะของข้อความ [ 10 ] สำหรับเรื่องนี้พวกเขาใช้รูปแบบลักษณะปราดเปรียว ( ขีปนาวุธอากาศ- สู่ - อากาศ ) เพื่อค้นหา
ใบหน้า ปาก และผลิตเวกเตอร์ที่แสดงถึงรูปร่างริมฝีปาก
สำหรับแต่ละเฟรม . พวกเขาได้รับการยอมรับผล 100 %
สำหรับภาษาที่แตกต่างกัน 75 สำหรับลำโพงเดียว ต่อมา
นิวแมนและ Cox [ 11 ] การปรับเปลี่ยนระบบการจัดหมวดหมู่เพื่อขอรับ
ไม่ขึ้นกับผู้พูดภาษาได้รับการยอมรับ 100 %ความถูกต้อง 5 ภาษาลำโพงกับ viseme
ความถูกต้องของการจำแนกเป็นต่ำเป็นร้อยละ 40 .
อีกสนามที่ลิปการสกัดที่ถูกใช้ในการรับรู้การแสดงออก
หน้าตามที่อธิบายไว้โดย ราเ า และอื่นๆ [ 12 ] พวกเขาศึกษา
3 หน้านิพจน์ โดยการประมวลผลรูปภาพของใบหน้า ทำนี้
พวกเขาสกัดลิปโดยการตรวจจับขอบ สร้างภาพไบนารี
,กระบวนการโพสต์กรอกหลุมและทำการวิเคราะห์ Histogram ของภาพ
binarized สำหรับการจำแนกประเภท ใช้ระบบนี้ พวกเขาบรรลุ
ยอมรับอัตราถึง 95%
มีการสืบสวนต่างๆ ในตัวคน
ริมฝีปากมากกว่า . ในหนึ่งเหล่านี้ bymehra et al . [ 13 ] ถูกใช้เพื่อขอรับ
คุณลักษณะเวกเตอร์ลดมิติซึ่งจะนำเข้าประสาท
การแปล กรุณารอสักครู่..
