IV. FOOD TYPE RECOGNITION
Food type recognition takes the continuous sound frames
during eating as input and produces a recognized food type for
each identified chewing or swallowing event, which is realized
by three consecutive steps shown in Fig. 4. The first step
uses the hidden Markov model based on the Mel frequency
cepstrum coefficients to detect chewing or swallowing events from the continuous sound frames. Frames within an event
is maintained together and those not involved are discarded.
A. Event Detection
A recording sample contains a sequence of chewing
and swallowing events separated by silence periods during
which no event occurs. In this part, we use hidden Markov
model (HMM) to automatically detect the chewing and
swallowing events from each continuous recording sample.
HMM has been widely used in many fields, such as speech
recognition. In recent decades, many different acoustic event
detection/classification methods based on HMM has been
proposed [21]–[23].
A recording sample is framed into frames (every frame
is 0.5s and the overlap is 0.25s). We formulate the goal of
acoustic event detection in a way similar to speech recognition:
to find the frame sequence that maximizes the posterior
probability of the frame sequence W = (W1, W2,··· , WM ),
given the observations O = (O1, O2,··· , OT ):
W = arg maxW P(W/O) = arg maxW P(O/W)P(W).
(1)
The model P(W/O) is the HMM for acoustic events
and silence periods, with 4 emitting states and left-to-right
state transitions. Observations O are composed of 32 Mel
Frequency Cepstrum Coefficients for event sequence or silence
sequence. According to O and the original model, the HMMs
for event and silence are trained using the Baum-Welch
algorithm [10]. The Viterbi algorithm is used to compute the
posterior probability of every observation under event and
silence HMMs, respectively. A frame belongs to some acoustic
event if its posterior probability under the event HMM is larger
than that under the silence HMM.
To be used for food recognition in the next steps, we label
each frame belonging to an event with bit 1 and each non-event
frame with bit 0. Obviously, a consecutive sound frames all
labeled by 1 margined by zeros correspond to a chewing or
swallowing event among the sequence of frames of a recording
sample.
B. Feature Extraction
The accuracy of food type recognition heavily depends on
the selection of event features which can best distinguish
different food types. In this work, we extract time-domain
features, frequency-domain features and non-linear features for
each event, listed in TABLE I, II and III, respectively.
In the time domain, statistical features are computed for
each chewing event, including high peak value, low peak value, mean value, variance and standard deviation of the
signals in the event. Most of these features have been
intensively used in related studies and are demonstrated to
be useful for pattern recognition [7], [24], [25]. Besides,
we add 4 features, zero crossing rate, skewness, kurtosis
and interquartile range, to better represent the geometry
characteristics of the signals.
Frequency domain features can describe the distribution
of the signals over a given range of frequencies. In this
study, Power Spectrum Density (PSD) of the signal in
each segment is estimated based on Welch’s method with a
Hamming window [26]. With respect to PSD, the maximal
power (Pmax) and mean power (Pmean) for a specific
frequency are computed. The energy for each 250Hz
frequency band ranging from 0 to 2.5kHz is computed
using numerical integration [27].
การรับรู้ประเภท IV. อาหารการรับรู้ประเภทอาหารใช้เฟรมเสียงต่อเนื่องในระหว่างรับประทานอาหาร เป็นอินพุต และผลิตชนิดอาหารที่รับรู้สำหรับละระบุเคี้ยว หรือกลืนกิจกรรม ที่ถูกรับรู้สามขั้นต่อเนื่องแสดงในรูปที่ 4 ขั้นตอนแรกใช้รูปแบบมาร์คอฟที่ซ่อนตามความถี่ Melสัมประสิทธิ์ cepstrum ตรวจหาเคี้ยว หรือกลืนกิจกรรมจากเฟรมเสียงต่อเนื่อง เฟรมในเหตุการณ์ไว้ด้วยกัน และผู้ที่เกี่ยวข้องไม่ได้ละทิ้งA. ตรวจสอบเหตุการณ์ตัวอย่างการบันทึกประกอบด้วยลำดับของเคี้ยวและกลืนกิจกรรมคั่น ด้วยความเงียบระหว่างเหตุการณ์ใดไม่เกิดขึ้น ในส่วนนี้ เราใช้มาร์คอฟที่ซ่อนอยู่แบบจำลอง (HMM) การตรวจหาโดยอัตโนมัติการเคี้ยว และการกลืนเหตุการณ์จากตัวอย่างแต่ละบันทึกต่อเนื่องHMM มีการใช้กันอย่างแพร่หลายในด้าน เช่นเสียงการจำ ในทศวรรษ เหตุการณ์เสียงต่าง ๆ มากมายมีการตรวจสอบ/จัดประเภทวิธีอิง HMMนำเสนอ [21] – [23]ตัวอย่างบันทึกถูกตีกรอบลงในเฟรม (ทุกเฟรมเป็น 0.5s และส่วนเหลื่อมกันเป็น 0.25s) เรากำหนดเป้าหมายของตรวจสอบเหตุการณ์เสียงคล้ายการรู้จำเสียง:การค้นหาลำดับเฟรมที่เพิ่มหลังน่าลำดับเฟรม W = (W1, W2, ·· ·, WM),ให้สังเกต O = (O1, O2, ·· ·, OT):W = maxW อาร์กิวเมนต์ของค่า P(W/O) = maxW อาร์กิวเมนต์ของค่า P(O/W)P(W)(1)รุ่น P(W/O) เป็น HMM สำหรับเหตุการณ์เสียงและปิดรอบระยะเวลา อเมริกาที่แพร่และซ้ายไปขวา 4เปลี่ยนสถานะ สังเกต O ประกอบด้วย 32 Melความถี่ Cepstrum สัมประสิทธิ์สำหรับลำดับเหตุการณ์หรือความเงียบลำดับนั้น O และแบบเดิม การ HMMsสำหรับเหตุการณ์และเงียบมีการฝึกอบรมใช้ Baum-Welchอัลกอริทึม [10] อัลกอริทึม Viterbi ถูกใช้เพื่อคำนวณการน่าเป็นหลังของทุกการสังเกตภายใต้เหตุการณ์ และปิด HMMs ตามลำดับ เฟรมเป็นของเสียงบางเหตุการณ์ถ้าความน่าเป็นหลังภายใต้เหตุการณ์ HMM มีขนาดใหญ่ที่ภายใต้ความเงียบ HMMเพื่อใช้สำหรับการรับรู้อาหารในขั้นตอนถัดไป เราป้ายแต่ละเฟรมของเหตุการณ์ด้วยบิต 1 และแต่ละคนไม่ใช่เหตุการณ์เฟรม ด้วยบิต 0 อย่างชัดเจน เสียงติดกันโครงทั้งหมดป้ายตาม 1 จิ้น โดยศูนย์ที่สอดคล้องกับการเคี้ยว หรือเหตุการณ์ระหว่างลำดับของเฟรมบันทึกการกลืนตัวอย่างB. คุณสมบัติดูดความแม่นยำของการรู้ชนิดของอาหารมากขึ้นอยู่กับการเลือกของเหตุการณ์ที่สามารถแยกแยะอาหารต่างชนิดกัน ในงานนี้ เราแยกโดเมนเวลาคุณสมบัติ คุณสมบัติโดเมนความถี่ และคุณลักษณะสมบัติแต่ละเหตุการณ์ แสดงอยู่ในตาราง I, II และ III ตามลำดับในโดเมนเวลา คุณลักษณะทางสถิติที่คำนวณสำหรับแต่ละเหตุการณ์เคี้ยว รวมถึงค่าสูงสุดสูง ค่าสูงสุดต่ำสุด ค่าเฉลี่ย ผลต่าง และส่วนเบี่ยงเบนมาตรฐานของการสัญญาณในเหตุการณ์ คุณลักษณะส่วนใหญ่นี้ได้อย่างใช้ในการศึกษาที่เกี่ยวข้อง และแสดงการมีประโยชน์สำหรับการรู้จำแบบ [7], [24], [25] นอกจากนี้เราเพิ่มคุณสมบัติ 4 ศูนย์ราคาข้าม ความเบ้ สเชิงและ interquartile ดี แสดงรูปทรงเรขาคณิตลักษณะของสัญญาณคุณสมบัติโดเมนความถี่สามารถอธิบายการกระจายสัญญาณช่วงความถี่ที่กำหนด ในที่นี้ศึกษา พลังงานคลื่นความหนาแน่น (PSD) ของสัญญาณในแต่ละส่วนประมาณตามวิธีของ Welch มีการทางแฮมมิงหน้าต่าง [26] เกี่ยวกับ PSD สูงสุดพลังงาน (Pmax) และหมายถึงอำนาจ (Pmean) หนึ่ง ๆจะคำนวณความถี่ พลังงานสำหรับแต่ละความถี่ 250คำนวณความถี่ตั้งแต่ 0 ถึง 2.5kHzใช้ตัวเลขรวม [27]
การแปล กรุณารอสักครู่..

IV อาหารประเภทการรับรู้
การรับรู้ประเภทอาหารเตะเฟรมเสียงอย่างต่อเนื่อง
ในระหว่างการรับประทานอาหารที่เป็น input และผลิตประเภทอาหารได้รับการยอมรับสำหรับ
แต่ละเคี้ยวระบุหรือเหตุการณ์กลืนกินซึ่งเป็นที่ตระหนัก
โดยขั้นตอนที่สามติดต่อกันที่แสดงในรูป 4. ขั้นตอนแรก
ใช้รูปแบบมาร์คอฟที่ซ่อนอยู่บนพื้นฐานของเมลความถี่
ค่าสัมประสิทธิ์ cepstrum ในการตรวจสอบการเคี้ยวหรือกลืนเหตุการณ์จากเฟรมเสียงอย่างต่อเนื่อง กรอบภายในเหตุการณ์
จะยังคงอยู่ด้วยกันและผู้ที่ไม่ได้เกี่ยวข้องจะถูกยกเลิก.
เอ ตรวจสอบเหตุการณ์
ตัวอย่างการบันทึกมีลำดับของการเคี้ยว
และการกลืนเหตุการณ์แยกจากกันโดยช่วงเวลาที่เงียบในช่วง
ที่ไม่มีเหตุการณ์เกิดขึ้น ในส่วนนี้เราจะใช้มาร์คอฟที่ซ่อน
Model (HMM) ในการตรวจสอบการเคี้ยวโดยอัตโนมัติและ
เหตุการณ์ที่เกิดขึ้นจากการกลืนตัวอย่างการบันทึกแต่ละอย่างต่อเนื่อง.
อืมได้รับการใช้กันอย่างแพร่หลายในหลายสาขาเช่นการพูด
การรับรู้ ในทศวรรษที่ผ่านมาหลายเหตุการณ์อะคูสติกที่แตกต่างกัน
วิธีการตรวจสอบ / การจัดหมวดหมู่ขึ้นอยู่กับอืมได้รับการ
เสนอ [21] - [23].
ตัวอย่างการบันทึกลงในกรอบเฟรม (กรอบทุก
เป็น 0.5s และซ้อนทับกันเป็น 0.25s) เรากำหนดเป้าหมายของการ
ตรวจจับเหตุการณ์อะคูสติกในลักษณะคล้ายกับการรู้จำเสียงพูด A:
เพื่อหาลำดับกรอบที่ช่วยเพิ่มหลัง
น่าจะเป็นของลำดับกรอบ w = (W1, W2, ···, WM)
ได้รับการสังเกต o = ( O1, O2, ···, OT):
. w = หาเรื่อง maxW P (W / O) = หาเรื่อง maxW P (o / w) P (W)
(1)
รุ่น P (W / O) เป็น HMM สำหรับ เหตุการณ์อะคูสติก
และระยะเวลาเงียบมี 4 รัฐและเปล่งซ้ายไปขวา
เปลี่ยนสถานะ สังเกต O จะประกอบด้วย 32 เมล
ความถี่ Cepstrum สัมประสิทธิ์ลำดับเหตุการณ์หรือความเงียบ
ลำดับ ตามที่ O และรูปแบบเดิม HMMs
สำหรับเหตุการณ์และความเงียบได้รับการฝึกฝนการใช้ Baum-Welch
อัลกอริทึม [10] อัลกอริทึม Viterbi จะใช้ในการคำนวณ
ความน่าจะเป็นหลังของทุกสังเกตภายใต้เหตุการณ์และ
ความเงียบ HMMs ตามลำดับ กรอบเป็นอะคูสติกบาง
เหตุการณ์ถ้าความน่าจะเป็นหลังของตนภายใต้ HMM กรณีที่มีขนาดใหญ่
กว่าอืมว่าภายใต้ความเงียบ.
เพื่อนำมาใช้สำหรับการรับรู้อาหารในขั้นตอนต่อไปเราติดป้าย
แต่ละเฟรมที่อยู่ในเหตุการณ์ด้วยบิต 1 และแต่ละคนที่ไม่ใช่ เหตุการณ์
กรอบบิต 0. เห็นได้ชัดว่าเฟรมเสียงติดต่อกันทุก
ป้าย 1 margined โดยศูนย์สอดคล้องกับการเคี้ยวหรือ
กลืนเหตุการณ์ในหมู่ลำดับของเฟรมของการบันทึกการให้
ตัวอย่าง.
บี การดึง
ความถูกต้องของการรับรู้ประเภทอาหารหนักขึ้นอยู่กับ
การเลือกของคุณสมบัติเหตุการณ์ที่ดีที่สุดที่สามารถแยก
ประเภทอาหารที่แตกต่าง ในงานนี้เราสกัดโดเมนเวลา
คุณลักษณะคุณสมบัติโดเมนความถี่และคุณลักษณะที่ไม่ใช่เชิงเส้นสำหรับ
แต่ละเหตุการณ์ระบุไว้ในตาราง I, II และ III ตามลำดับ.
ในโดเมนเวลาคุณสมบัติทางสถิติจะคำนวณสำหรับ
เหตุการณ์เคี้ยวแต่ละครั้งรวมถึง ที่มีมูลค่าสูงยอดค่าสูงสุดต่ำค่าเฉลี่ยความแปรปรวนและค่าเบี่ยงเบนมาตรฐานของ
สัญญาณในกรณีที่ ส่วนมากของคุณสมบัติเหล่านี้ได้ถูก
นำมาใช้อย่างจริงจังในการศึกษาที่เกี่ยวข้องและมีการแสดงให้เห็นถึง
จะมีประโยชน์สำหรับการจดจำรูปแบบ [7] [24] [25] นอกจากนี้
เราเพิ่ม 4 คุณสมบัติอัตราการเป็นศูนย์ข้ามเบ้ความโด่ง
และช่วง interquartile เพื่อให้เป็นตัวแทนของรูปทรงเรขาคณิต
ลักษณะของสัญญาณ.
คุณลักษณะโดเมนความถี่สามารถอธิบายการกระจาย
ของสัญญาณในช่วงความถี่ที่กำหนด ในการนี้
การศึกษาสเปกตรัมความหนาแน่น (PSD) ของสัญญาณใน
แต่ละส่วนประมาณตามวิธีของเวลช์กับ
หน้าต่าง Hamming [26] ด้วยความเคารพต่อ PSD ที่สูงสุด
เพาเวอร์ (Pmax) และค่าเฉลี่ยพลังงาน (Pmean) สำหรับเฉพาะ
ความถี่จะคำนวณ พลังงานสำหรับแต่ละ 250Hz
ความถี่ตั้งแต่ 0 ถึง 2.5kHz คำนวณ
โดยใช้รวมตัวเลข [27]
การแปล กรุณารอสักครู่..

4 . อาหารประเภทการรับรู้การรู้จำประเภทอาหารที่ใช้เวลาต่อเนื่องเสียงเฟรมในระหว่างที่รับประทานเข้า และก่อให้เกิดการยอมรับอาหารประเภทแต่ละเคี้ยวหรือกลืน ระบุเหตุการณ์ที่รู้โดยทั้ง 6 ขั้นตอนที่แสดงในรูปที่ 4 ขั้นตอนแรกการใช้แบบจำลองฮิดเดนมาร์คอฟ ซึ่งขึ้นอยู่กับความถี่เมลสัมประสิทธิ์เซปสตรัมบนตรวจสอบการเคี้ยวหรือกลืนจากเหตุการณ์ต่อเนื่องเสียงเฟรม เฟรมภายในเหตุการณ์รักษาด้วยกัน และผู้ที่ไม่เกี่ยวข้องจะถูกละทิ้งกิจกรรมการตรวจสอบ .บันทึกตัวอย่างประกอบด้วยลำดับของเคี้ยวและกลืนเหตุการณ์ แยกตามช่วงเวลาเงียบในระหว่างซึ่งไม่มีเหตุการณ์นี้เกิดขึ้น ในส่วนนี้เราจะใช้ซ่อนมาร์คอฟรูปแบบ ( อืม ) โดยอัตโนมัติตรวจจับการเคี้ยวและกลืนเหตุการณ์จากแต่ละบันทึกอย่างต่อเนื่องตัวอย่างอืม มีการใช้กันอย่างแพร่หลายในด้านต่างๆ เช่น การพูดการรับรู้ ในทศวรรษที่ผ่านมาหลายเหตุการณ์อะคูสติกที่แตกต่างกันตรวจสอบ / การจำแนกโดยวิธีหาได้เสนอ [ 21 ] - [ 23 ]บันทึกตัวอย่างเป็นกรอบในกรอบทุกกรอบเป็น 0.5s และทับซ้อนกันเป็น 0.25s ) เรากำหนดเป้าหมายของการตรวจจับเหตุการณ์อะคูสติกในลักษณะคล้ายคลึงกับการรู้จำเสียง :หาเฟรมที่เพิ่มของลำดับความน่าจะเป็นของกรอบลำดับ W = ( W1 , W2 ··· WM , )ให้สังเกต O = ( 01 O2 ··· OT )W = ARG maxw P ( w / o ) = ARG maxw P ( O / W ) P ( W )( 1 )โมเดล P ( W / O ) คือ อืม สำหรับเหตุการณ์อะคูสติกและระยะเวลาที่ความเงียบ กับ 4 โดยรัฐและซ้ายไปขวาสภาพการเปลี่ยน สังเกต o ประกอบด้วย 32 เมลสัมประสิทธิ์เซปสตรัมบนความถี่ของเหตุการณ์หรือลำดับความเงียบลำดับ ตาม o และรูปแบบเดิม hmmsสำหรับเหตุการณ์และความเงียบมาฝึกใช้บาม เวลช์ขั้นตอนวิธี [ 10 ] ขั้นตอนวิธีที่ใช้สำหรับคำนวณอุปกรณ์ความน่าจะเป็นของเหตุการณ์ และการสังเกตของทุกคนภายใต้ความเงียบ hmms ตามลำดับ กรอบเป็นของบางส่วนอะคูสติกถ้าหลังเหตุการณ์ความน่าจะเป็นภายใต้เหตุการณ์หืมมีขนาดใหญ่มากกว่านั้น ภายใต้ความเงียบ . . . . .ที่จะใช้สำหรับการยอมรับอาหารในขั้นตอนต่อไปเราป้ายแต่ละเฟรมของเหตุการณ์แต่ละเหตุการณ์ไม่ด้วยบิต 1 และกรอบด้วยบิต 0 โท่ ติดต่อกันเสียงเฟรมทั้งหมดป้าย โดย 1 margined โดยสอดคล้องกับการเคี้ยวหรือศูนย์แต่เหตุการณ์ในลำดับของเฟรมของบันทึกตัวอย่างข. คุณลักษณะการสกัดความถูกต้องของการรู้จำประเภทอาหารหนักขึ้นอยู่กับการเลือกคุณลักษณะที่ดีที่สุดสามารถแยกแยะเหตุการณ์ประเภทอาหารที่แตกต่างกัน ในงานนี้ เราดึงเวลาคุณลักษณะ , คุณสมบัติและคุณลักษณะไม่เชิงเส้นสำหรับโดเมนความถี่แต่ละเหตุการณ์ที่ระบุไว้ในตารางที่ 1 , 2 และ 3 ตามลำดับในการคุณสมบัติทางสถิติคำนวณสำหรับแต่ละเคี้ยวเหตุการณ์ รวมถึงมูลค่าสูงสุดสูง , ต่ำค่า สูงสุด ค่าเฉลี่ย และส่วนเบี่ยงเบนมาตรฐานของความแปรปรวนสัญญาณในเหตุการณ์ ที่สุดของคุณสมบัติเหล่านี้ได้รับที่ใช้ในการศึกษาที่เกี่ยวข้องกับประเทศ และแสดงให้เห็นเป็นประโยชน์สำหรับการรู้จำรูปแบบ [ 7 ] , [ 24 ] , [ 25 ] นอกจากนี้เราเพิ่ม 4 คุณสมบัติศูนย์ข้ามเท่ากัน ความเบ้ความโด่งและค่าพิสัยระหว่างควอไทล์ เพื่อขึ้นแสดงเรขาคณิตลักษณะของสัญญาณคุณสมบัติสามารถอธิบายการกระจายความถี่โดเมนของสัญญาณไปให้ช่วงของความถี่ ในนี้การศึกษาความหนาแน่นสเปกตรัมพลังงาน ( PSD ) ของสัญญาณในแต่ละกลุ่มจะประมาณการตาม Welch เป็นวิธีกับหน้าต่าง [ 26 ] แฮม . ด้วยความเคารพ PSD , สูงสุดพลัง ( Pmax ) และอำนาจ ( pmean ) โดยเฉพาะความถี่เป็นคํานวณ พลังงานสำหรับแต่ละ 250hzแถบความถี่ตั้งแต่ 0 ถึง 2.5khz จะคำนวณการใช้ตัวเลข [ 27 ]
การแปล กรุณารอสักครู่..
