was demonstrated. In [8], the model

was demonstrated. In [8], the modeling of lip movements by hidden
Markov models (HMMs) is presented. Each lip movement clip is represented
by 2D discrete cosine transform (DCT) coefficients of the optical
flowvectorswithin themouth region. In [9], speech, lip movements and
face images are combined to give robust person identification. In this
work, DCTs of intensity normalized mouth images were employed to
provide static features. These were then combined with an HMM to
classify the speaker via log-likelihood.
Rather than recognizing a speaking person, research by Newman
and Cox tries to determine the language a person is talking in by
recognizing their lip movements when speaking a specific passage of
text [10]. For this, they use Active Appearance Models (AAM) to locate
the face and mouth, and produce a vector that represents the lip
shape for each video frame. They obtain recognition results of 100%
for seventy-five different languages for a single speaker. Subsequently,
Newman and Cox [11] modified the classification system to obtain
speaker independent language recognition, obtaining 100% classification
accuracy for five bilingual speakers—even with a viseme classification
accuracy of as low as 40%.
Another field in which lip contour extraction is used is in facial expression
recognition as described by Raheja et al. [12]. They studied
three facial expressions by processing an image of a face. To do this,
they extract the lip contour by edge detection, generate a binary
image, post-process to fill in holes, and perform a histogram analysis
of the binarized image for classification. Using this system, they achieve
a recognition rate of up to 95%.
There have been various investigations into recognizing a person
fromtheir lips. In one of these byMehra et al. [13], PCA is used to obtain
feature vectors of reduced dimension, which are then input to a neural
network for classification. They achieve an accuracy rate of 91.07%. In
[14], a novel ordinal contrastmeasure, called Local Ordinal Contrast Pattern,
is proposed for representing video of themouth region of a speaker
while talking. This has been used in a three orthogonal plane configuration
as input to a speaker verification system. Verification was accomplished
using the chi-squared histogram distance or LDA classifiers,
obtaining a half total error rate of less than 1%.Wang and Liew [6] studied
the roles of different lip features, related to both physiological and
behavioral properties of lips, in personal identification, and demonstrated
that though dynamic features achieve higher recognition accuracy,
both dynamic and static features are promising biometrics for verification.
In [15], a new approach to speaker verification using video sequences
of lip movements is proposed, in which a Motion History
Image is used to provide a biometric template of a spoken word for
each speaker. A Bayesian classifier is used for classification, obtaining
an average recognition rate of 90% at a false alarmrate of 5%. In another
work, a new motion based feature extraction technique for speaker
identification using orientation estimation in 2D manifolds is reported
[16]. The motion is estimated by computing the components of the
structure tensor from which normal flows are extracted. By projecting
the 3D spatiotemporal data to 2-D planes, projection coefficients are obtained
which are used to evaluate the 3-D orientations of brightness
patterns in TV like image sequences. An implementation, based on
joint lip movements and speech, is presented along with experiments
demonstrating a recognition rate of 98% on the publicly available
XM2VTS database.
There exist a number of approaches for lip contour extraction, or lip
corner detection, for visual speech/speaker recognition. For example,
[17] used amonochrome image histogramto detect lip corners. However,
it ismore common to use color images, such as RGB [6] and HSV images
[18]. Prewitt and Sobel operators are employed to detect lip edges
in [19]. In [20], a manifold based approach is introduced to extract the
lip contour. The red exclusion method [17] is widely used, due to its
simplicity and efficiency. Similar to the approach in [21,22] is based on
an RGB transformation of the lip regions. The resulting transformation
and the b component of the CIELAB color space, are then used for the
clustering phase. The task is formulated as finding the optimum

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ไม่แสดง ใน [8], โมเดลของ lip เคลื่อนไหวโดยซ่อนการนำเสนอรูปแบบ Markov (HMMs) แสดง clip เคลื่อนไหว lipโดยโคไซน์ไม่ต่อเนื่อง 2D แปลง (DCT) สัมประสิทธิ์ของการภูมิภาค themouth flowvectorswithin ใน [9], คำพูด lip เคลื่อนไหว และรูปหน้าจะมีรวมให้ระบุบุคคลที่แข็งแกร่ง ในที่นี้ทำงาน DCTs ของความเข้มภาพปากมาตรฐานถูกจ้างไปมีคุณลักษณะคงที่ เหล่านี้แล้วได้รวมกับการ HMM จะจัดประเภทลำโพงผ่านบันทึกความเป็นไปได้แทนที่จะจดจำผู้พูด วิจัย โดยนิวแมนและค็อกซ์พยายามที่จะกำหนดภาษาคนพูดถึงในโดยจดจำการเคลื่อนไหวของ lip เมื่อพูดเนื้อเรื่องเฉพาะของข้อความ [10] สำหรับนี้ พวกเขาใช้รูปแบบลักษณะงาน (AAM) เพื่อค้นหาใบหน้า และปาก และผลิตเวกเตอร์ที่แสดงถึง lipรูปร่างในแต่ละเฟรมของวิดีโอ พวกเขาได้รับผลลัพธ์การรู้ 100%เจ็ดห้าภาษาแตกต่างกันสำหรับลำโพงเดียว ในเวลาต่อมานิวแมนและค็อกซ์ [11] ปรับเปลี่ยนระบบการจัดประเภทการรับการรู้ภาษาอิสระลำโพง รับจัดประเภท 100%ความถูกต้องสำหรับสองภาษาลำโพง 5 ตัวแม้จะ มีการจัดประเภท visemeความถูกต้องของต่ำสุดที่ 40%ฟิลด์อื่นใน lip ที่ใช้สกัดเส้นอยู่ในสีหน้าการรับรู้ตามที่อธิบายไว้โดยโพ et al. [12] พวกเขาศึกษาสามหน้านิพจน์ โดยการประมวลผลภาพของใบหน้า การทำเช่นนี้พวกเขาแยก lip contour โดยตรวจพบขอบ สร้างไบนารีภาพลักษณ์ กระบวนการหลังในหลุม และทำการวิเคราะห์แบบฮิสโตแกรมรูปที่ binarized การจัด ใช้ระบบนี้ พวกเขาประสบความสำเร็จอัตราการรับรู้ถึง 95%มีการตรวจสอบต่าง ๆ ในการจดจำบุคคลfromtheir ริมฝีปาก หนึ่งเหล่านี้ byMehra et al. [13], สมาคมจะใช้เพื่อขอรับเวกเตอร์ลักษณะของมิติที่ลดลง ซึ่งจะป้อนแล้วจะมีประสาทเครือข่ายการจัด พวกเขาให้มีอัตราความถูกต้องของ 91.07% ใน[14], เป็นนวนิยายหมายสัญลักษณ์ contrastmeasure เรียกลวดลายคมชัดเครื่องหมายสัญลักษณ์ท้องถิ่นนำเสนอสำหรับการแสดงวิดีโอภาค themouth ของลำโพงขณะที่สนทนา นี้ได้ถูกใช้ในการกำหนดค่าเครื่องบิน orthogonal สามเป็นข้อมูลป้อนเข้าสู่ระบบตรวจสอบลำโพงด้วย ตรวจสอบได้สำเร็จใช้ระยะทางฮิสโตแกรมไคสแควร์หรือคำนามภาษา LDAได้รับน้อยกว่า 1% อัตราข้อผิดพลาดทั้งหมดครึ่งหนึ่ง ศึกษาวังและหลิว [6]บทบาทของ lip ต่าง ๆ ที่เกี่ยวข้องกับทั้งสรีรวิทยา และคุณสมบัติพฤติกรรมของริมฝีปาก ในรหัสประจำตัว และสาธิตว่า แต่คุณสมบัติแบบไดนามิกให้ความถูกต้องของการรับรู้สูงลักษณะการทำงานแบบไดนามิก และแบบคงที่เป็นชีวภาพสัญญาสำหรับการตรวจสอบใน [15], วิธีการตรวจสอบลำโพงใช้ลำดับวิดีโอใหม่ของ lip เคลื่อนไหวเป็นการนำเสนอ ซึ่งเคลื่อนไหวประวัติรูปใช้แบบตรวจสอบทางชีวภาพคำพูดสำหรับแต่ละลำโพง ใช้ classifier ทฤษฎีการจัด การรับอัตราการเฉลี่ย 90% ที่ alarmrate ผิดพลาด 5% ในอีกทำงาน เทคนิคการสกัดคุณลักษณะเคลื่อนไหวที่ใช้สำหรับลำโพงใหม่รายงานระบุใช้ประเมินแนว 2D manifolds[16] มีประเมินการเคลื่อนไหว โดยการคำนวณส่วนประกอบของการtensor โครงสร้างซึ่งสกัดขั้นตอนปกติ โดยการประเมิน3D spatiotemporal ข้อมูลเครื่องบิน 2-D สัมประสิทธิ์ฉายจะได้รับซึ่งใช้ในการประเมินแนว 3 มิติของความสว่างรูปแบบในทีวีชอบลำดับภาพ การนำไปใช้ ตามร่วม lip เคลื่อนไหวและเสียง แสดงพร้อมกับการทดลองเห็น 98% ในการเผยอัตราการรู้จำฐานข้อมูล XM2VTSมีหลายวิธีสำหรับสกัดจาก lip, lipตรวจมุม การรู้จำเสียงลำโพงภาพ ตัวอย่าง[17] histogramto ภาพ amonochrome ใช้ตรวจมุม lip อย่างไรก็ตามมัน ismore ไปใช้ภาพสี เช่น RGB [6] และภาพ HSV[18] Prewitt และ Sobel ผู้ว่าจ้างตรวจหา lip ขอบ[19] ใน [20], เป็นแนวทางตามความหลากหลายนับเป็นนำไปแยกlip contour วิธีการแยกสีแดง [17] เป็นอย่างกว้างขวางใช้ ผลของความเรียบง่ายและมีประสิทธิภาพ ใช้คล้ายกับวิธีใน [21,22]การแปลง RGB ในภูมิภาค lip การเปลี่ยนแปลงได้และ b ส่วนประกอบของพื้นที่สี CIELAB ถูกนำไปใช้ในการคลัสเตอร์ระยะ งานที่เป็นสูตรเป็นการค้นหามีประสิทธิภาพสูงสุด

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ได้แสดงให้เห็น ใน [8]
การสร้างแบบจำลองการเคลื่อนไหวริมฝีปากโดยซ่อนรุ่นมาร์คอฟ(HMMs) จะนำเสนอ แต่ละคลิปเคลื่อนไหวริมฝีปากเป็นตัวแทนจาก 2D แปลงโคไซน์ไม่ต่อเนื่อง (DCT) ค่าสัมประสิทธิ์ของแสง flowvectorswithin ภูมิภาค themouth ใน [9], การพูด, การเคลื่อนไหวของปากและภาพใบหน้าจะรวมกันเพื่อให้บัตรประจำตัวคนที่แข็งแกร่ง ในการนี้การทำงานของความเข้ม DCTs ปกติภาพปากที่ถูกว่าจ้างจะมีคุณสมบัติคงที่ เหล่านี้ถูกรวมกันแล้วด้วยอืมจะแยกประเภทลำโพงผ่านเข้าสู่ระบบโอกาส. แทนที่จะตระหนักถึงความเป็นคนที่พูดวิจัยโดยนิวแมนและคอคส์พยายามที่จะกำหนดภาษาคนมีการพูดคุยในโดยตระหนักถึงการเคลื่อนไหวของริมฝีปากของพวกเขาเมื่อพูดทางที่เฉพาะเจาะจงของข้อความ[10] สำหรับเรื่องนี้พวกเขาใช้รุ่นลักษณะที่ใช้งาน (AAM) เพื่อค้นหาใบหน้าและปากและผลิตเวกเตอร์ที่แสดงถึงริมฝีปากที่รูปร่างสำหรับกรอบแต่ละวิดีโอ พวกเขาได้รับผลการรับรู้ของ 100% สำหรับเจ็ดสิบห้าภาษาที่แตกต่างกันสำหรับลำโพงเดียว ต่อมานิวแมนและคอคส์ [11] การปรับเปลี่ยนระบบการจัดหมวดหมู่เพื่อให้ได้รับรู้ภาษาลำโพงอิสระที่ได้รับการจัดหมวดหมู่100% ความถูกต้องเป็นเวลาห้าภาษาลำโพงแม้จะมีการจัดหมวดหมู่ viseme ความถูกต้องของที่ต่ำเป็น 40%. สนามอีกในการที่สกัดเส้นริมฝีปากคือ ที่ใช้อยู่ในการแสดงออกทางสีหน้าได้รับการยอมรับตามที่อธิบายRaheja et al, [12] พวกเขาศึกษาสามการแสดงออกทางสีหน้าโดยการประมวลผลภาพของใบหน้าหนึ่ง การทำเช่นนี้พวกเขาดึงเส้นริมฝีปากโดยการตรวจหาขอบสร้างไบนารีภาพที่โพสต์ขั้นตอนการกรอกข้อมูลลงในหลุมและดำเนินการวิเคราะห์กราฟของภาพที่binarized การจัดหมวดหมู่ การใช้ระบบนี้พวกเขาบรรลุอัตราการรับรู้ได้ถึง 95%. มีการตรวจสอบต่าง ๆ ตระหนักถึงคนfromtheir ริมฝีปาก ในตอนหนึ่งของเหล่านี้ byMehra et al, [13], PCA ถูกนำมาใช้เพื่อให้ได้เวกเตอร์คุณลักษณะของมิติที่ลดลงซึ่งเป็นแล้วใส่ไปยังประสาทเครือข่ายการจัดหมวดหมู่ พวกเขาประสบความสำเร็จในความถูกต้องของอัตรา 91.07% จาก ใน[14] เป็น contrastmeasure ลำดับใหม่ที่เรียกว่ารูปแบบความคมชัดลำดับท้องถิ่นเสนอสำหรับการเป็นตัวแทนของภูมิภาควิดีโอของลำโพงthemouth ในขณะที่พูด นี้ได้ถูกนำมาใช้ในการกำหนดค่าสามเครื่องบินมุมฉากเป็น input เพื่อระบบการตรวจสอบลำโพง การตรวจสอบก็ประสบความสำเร็จโดยใช้ระยะ histogram ไคสแควร์หรือ LDA ลักษณนาม, ได้รับครึ่งหนึ่งของอัตราความผิดพลาดรวมน้อยกว่า 1% .Wang และหลิว [6] การศึกษาบทบาทของคุณสมบัติริมฝีปากที่แตกต่างกันที่เกี่ยวข้องกับทั้งทางสรีรวิทยาและคุณสมบัติพฤติกรรมของริมฝีปากในการระบุส่วนบุคคลและแสดงให้เห็นว่าแม้คุณสมบัติแบบไดนามิกบรรลุความถูกต้องของการรับรู้ที่สูงขึ้นทั้งคุณสมบัติแบบไดนามิกและแบบคงมีแนวโน้มที่ชีวภาพสำหรับการตรวจสอบ. ใน [15] ซึ่งเป็นวิธีการใหม่ในการตรวจสอบลำโพงใช้ลำดับวิดีโอของการเคลื่อนไหวของริมฝีปากจะเสนอซึ่งในการเคลื่อนไหวประวัติความเป็นมาภาพที่ถูกนำมาใช้เพื่อให้แม่แบบไบโอเมตริกซ์ของคำพูดสำหรับลำโพงแต่ละ ตัวแยกประเภทเบย์ที่ใช้สำหรับการจัดหมวดหมู่ได้รับอัตราการรับรู้ค่าเฉลี่ยของ 90% ที่ alarmrate ที่ผิดพลาดของ 5% อีกงานการเคลื่อนไหวใหม่บนพื้นฐานของเทคนิคการดึงลำโพงบัตรประจำตัวโดยใช้การประมาณค่าการวางแนวทางในmanifolds 2D มีรายงาน[16] การเคลื่อนไหวเป็นที่คาดกันโดยการคำนวณส่วนประกอบของเมตริกซ์โครงสร้างจากการที่กระแสปกติจะถูกดึง โดยการฉายข้อมูล spatiotemporal 3D 2-D เครื่องบินค่าสัมประสิทธิ์การฉายจะได้รับซึ่งจะใช้ในการประเมินแนว3 มิติของความสว่างในรูปแบบทีวีเช่นลำดับภาพ การดำเนินการบนพื้นฐานของการเคลื่อนไหวของริมฝีปากร่วมกันและการพูดที่จะนำเสนอพร้อมกับการทดลองแสดงให้เห็นถึงอัตราการรับรู้ของ98% ในที่เปิดเผยต่อสาธารณชนฐานข้อมูลXM2VTS. มีอยู่หลายวิธีในการสกัดเส้นริมฝีปากหรือริมฝีปากตรวจจับมุมสำหรับการพูดภาพ / การรับรู้ของลำโพง ยกตัวอย่างเช่น[17] ใช้ภาพ amonochrome histogramto ตรวจสอบมุมปาก แต่มัน ismore เรื่องธรรมดาที่จะใช้ภาพสีเช่น RGB [6] และภาพ HSV [18] ผู้ประกอบการและ Prewitt โชเบลที่ใช้ในการตรวจหาขอบริมฝีปากใน[19] ใน [20], วิธีการต่าง ๆ นานาตามที่มีการนำมาเพื่อแยกเส้นริมฝีปาก วิธีการยกเว้นสีแดง [17] ใช้กันอย่างแพร่หลายเนื่องจากการที่เรียบง่ายและมีประสิทธิภาพ คล้ายกับวิธีการใน [21,22] จะขึ้นอยู่กับการเปลี่ยนแปลงRGB ของภูมิภาคริมฝีปาก การเปลี่ยนแปลงที่เกิดขึ้นและส่วนประกอบขของพื้นที่สี CIELAB ที่ถูกนำมาใช้สำหรับขั้นตอนการจัดกลุ่ม งานเป็นสูตรการหาที่เหมาะสม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

คือแสดงให้เห็นถึง [ 8 ] , การจำลองการเคลื่อนไหวริมฝีปากด้วยแบบจำลองฮิดเดนมาร์คอฟ
( hmms ) จะนำเสนอ แต่ละการเคลื่อนไหวริมฝีปากคลิปแทน
โดย 2D ไม่ต่อเนื่องโคไซน์แปลง ( DCT ) สัมประสิทธิ์ของแสง
flowvectorswithin themouth ภูมิภาค [ 9 ] , การพูด , การเคลื่อนไหวของริมฝีปากและใบหน้ารวมให้
ภาพเป็นคนแข็งแกร่ง ในงานนี้
,dcts เข้มรูปปากรูปแบบ

มีคุณลักษณะแบบคงที่ เหล่านี้จึงรวมกับหืม

จัดลำโพงผ่านโอกาสเข้าสู่ระบบ .
แทนที่จะตระหนักถึงการพูดบุคคล , วิจัยและนิวแมน
Cox พยายามที่จะกําหนดภาษาคนถาม โดยตระหนักถึงการเคลื่อนไหวริมฝีปากของตนเวลาพูด

เนื้อเรื่องเฉพาะของข้อความ [ 10 ] สำหรับเรื่องนี้พวกเขาใช้รูปแบบลักษณะปราดเปรียว ( ขีปนาวุธอากาศ- สู่ - อากาศ ) เพื่อค้นหา
ใบหน้า ปาก และผลิตเวกเตอร์ที่แสดงถึงรูปร่างริมฝีปาก
สำหรับแต่ละเฟรม . พวกเขาได้รับการยอมรับผล 100 %
สำหรับภาษาที่แตกต่างกัน 75 สำหรับลำโพงเดียว ต่อมา
นิวแมนและ Cox [ 11 ] การปรับเปลี่ยนระบบการจัดหมวดหมู่เพื่อขอรับ

ไม่ขึ้นกับผู้พูดภาษาได้รับการยอมรับ 100 %ความถูกต้อง 5 ภาษาลำโพงกับ viseme
ความถูกต้องของการจำแนกเป็นต่ำเป็นร้อยละ 40 .
อีกสนามที่ลิปการสกัดที่ถูกใช้ในการรับรู้การแสดงออก
หน้าตามที่อธิบายไว้โดย ราเ า และอื่นๆ [ 12 ] พวกเขาศึกษา
3 หน้านิพจน์ โดยการประมวลผลรูปภาพของใบหน้า ทำนี้
พวกเขาสกัดลิปโดยการตรวจจับขอบ สร้างภาพไบนารี
,กระบวนการโพสต์กรอกหลุมและทำการวิเคราะห์ Histogram ของภาพ
binarized สำหรับการจำแนกประเภท ใช้ระบบนี้ พวกเขาบรรลุ
ยอมรับอัตราถึง 95%
มีการสืบสวนต่างๆ ในตัวคน
ริมฝีปากมากกว่า . ในหนึ่งเหล่านี้ bymehra et al . [ 13 ] ถูกใช้เพื่อขอรับ
คุณลักษณะเวกเตอร์ลดมิติซึ่งจะนำเข้าประสาท
เครือข่ายสำหรับการจำแนกประเภท พวกเขาบรรลุอัตราความถูกต้องของ 91.07 % ใน
[ 14 ] นวนิยายอันดับ contrastmeasure ที่เรียกว่ารูปแบบกฎหมายท้องถิ่นคมชัด
เสนอสำหรับแสดงวิดีโอของ themouth ภูมิภาคของลำโพง
ในขณะที่พูด นี้ได้ถูกใช้ในเครื่องบินค่า
3 ซึ่งเป็นข้อมูลเพื่อตรวจสอบระบบลำโพง
ยืนยันได้

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.