تصمیم گیری مبتنی بر شبکه های عصبی

در این روش بعد از فاز استخراج ویژگی، برای تصمیم گیری از یک شبکه عصبی استفاده می شود. شبکه های عصبی دارای ورودی، خروجی و لایه های مخفی میانی[1]می باشند.  شکل (2-7) دیاگرام ساده ای از این روش می باشد.

شکل (2-7): نمودار ساده ای از یک VAD مبتنی برشبکه های عصبی[30]

در [30] در لایه های میانی مقدار φ(X) ویژگی X از رابطه (2-23) محاسبه می شود.

(2-23)  

که در آن C مرکز و مقدار میانگین و P دامنه تغییرات ویژگی مذکور می باشد. خروجی Y که یک تابع خطی از مقادیر لایه های آخرین سطح در لایه های پنهان است از رابطه (2-24) محاسبه می شود.

(2-24)  

که n تعداد واحدهای محاسباتی می باشد. پارامترهای استفاده شده در [30] شامل انرژی، مجموع مربع های ضرایب LPC و پارامترهای وابسته به فرکانس گام می باشد. در [54] از یک شبکه 3 لایه ای با 400 گره مخفی و استفاده از پارامترهای انرژی، اعوجاج طیفی (نسبت انرژی باند بالا به انرژی باند پایین) و میزان صدادار بودن قاب، استفاده شده است. در [55] بجای در نظر گرفتن دو کلاس گفتار و سکوت، از چند کلاس استفاده شده است. در این مرجع با در نظر گرفتن ضرایب MFCC تعلق قاب به هر کلاس بررسی می شود و سپس از روی شاخص کلاس، مشخص می شود قاب مورد نظر گفتار و یا سکوت می باشد.

[1] .Hidden Layers

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *