در این روش بعد از فاز استخراج ویژگی، برای تصمیم گیری از یک شبکه عصبی استفاده می شود. شبکه های عصبی دارای ورودی، خروجی و لایه های مخفی میانی[1]می باشند. شکل (2-7) دیاگرام ساده ای از این روش می باشد.
شکل (2-7): نمودار ساده ای از یک VAD مبتنی برشبکه های عصبی[30]
در [30] در لایه های میانی مقدار φ(X) ویژگی X از رابطه (2-23) محاسبه می شود.
(2-23) |
که در آن C مرکز و مقدار میانگین و P دامنه تغییرات ویژگی مذکور می باشد. خروجی Y که یک تابع خطی از مقادیر لایه های آخرین سطح در لایه های پنهان است از رابطه (2-24) محاسبه می شود.
(2-24) |
که n تعداد واحدهای محاسباتی می باشد. پارامترهای استفاده شده در [30] شامل انرژی، مجموع مربع های ضرایب LPC و پارامترهای وابسته به فرکانس گام می باشد. در [54] از یک شبکه 3 لایه ای با 400 گره مخفی و استفاده از پارامترهای انرژی، اعوجاج طیفی (نسبت انرژی باند بالا به انرژی باند پایین) و میزان صدادار بودن قاب، استفاده شده است. در [55] بجای در نظر گرفتن دو کلاس گفتار و سکوت، از چند کلاس استفاده شده است. در این مرجع با در نظر گرفتن ضرایب MFCC تعلق قاب به هر کلاس بررسی می شود و سپس از روی شاخص کلاس، مشخص می شود قاب مورد نظر گفتار و یا سکوت می باشد.
[1] .Hidden Layers