پیش پردازش تشخیص گفتار از غیرگفتار

در این مرحله اعمال پنجره، فیلتر کردن اطلاعات و … انجام می شود. برای بررسی سیگنال، ابتدا سیگنال قاب- بندی[1] می شود. در اکثر الگوریتم های پردازش گفتار برای کمترکردن تاثیر لبه ها در طیف، از پنجره های همینگ یا هنینگ بجای پنجره مستطیلی و بطور هم پوشان استفاده می شود. شکل (2-2) نمایش یک پنجره همینگ در حوزه زمان می باشد.

شکل (2-2): نمایش پنجره همینگ 512 نقطه ای در حوزه زمان

در تحلیل سیگنال های صوتی عموما از تحلیل های طیفی بهره گرفته می شود. خصوصیت جالب سیگنال صوتی که در کار با آنها بسیار کارآمد است، نیمه ساکن[2] بودن آنها در حوزه فرکانس است. به این معنی که در بازه های زمانی چند 10 میلی ثانیه ای رفتار سیگنال از نظر تحلیل فرکانسی ثابت می ماند. رفتار فازی اهمیتی ندارد، زیرا اطلاعات مهم برای گوش انسان، همان اطلاعات دامنه ی طیفی سیگنال است.[79] بنابراین این سیگنال ها در فواصل زمانی که تغییرات آکوستیکی محسوس ندارند، دارای ویژگی های منحصر به خود هستند. که با استخراج این ویژگی ها میتوان الگوی رفتاری سیگنال را مدل کرد. برای این امر پنجره ای با طول چند ده میلی ثانیه در نظر گرفته و با لغزاندن پنجره روی کل سیگنال، ویژگی ها در هر پنجره استخراج می شود. پنجره ها با همپوشانی هستند.[79]

[1] .Frame

1.Quasi – Stationary

1 دیدگاه دربارهٔ «پیش پردازش تشخیص گفتار از غیرگفتار»

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *