تشخیص گفتار از نواحی غیر گفتاری

سیگنال گفتار از دو ناحیه سکوت و غیرسکوت تشکیل می شود. آشکارسازی گفتار در حضور وقایع آکوستیکی غیرگفتاری و نویزهای زمینه، تشخیص گفتار از غیر گفتار نامیده می شود و با نام های[1]VAD، [2]PDT و یا EDT[3] بکار می رود. این عمل یکی از اجزاء مهم در برخی از کاربردهای پردازش گفتار نظیر تشخیص گفتار[4]، فشرده سازی اطلاعات گفتار[5]، تخمین و حذف نویزها[6]، سیستم بهسازی گفتار[7] و … می باشد. برای بازشناسی گفتار (بازشناسی گوینده[8]) ،لازم است که گفتار آغشته به نویزهای محیطی مختلف را مورد پردازش قراردهیم. برای این منظور باید نقاط ابتدایی و انتهایی گفتار مشخص شود. این کار سبب می شود تا فرآیند بازشناسی گفتار تنها در آن بخش ها اعمال شود.[18] عدم استفاده از VAD کار تشخیص کلمات را پیچیده تر نموده میزان خطای بازشناسی گفتار را افزایش می دهد. در سیستم مخابرات و یا در سیستم فشرده سازی اطلاعات گفتار، میتوان با اختصاص دادن بیت های کمتر به نواحی سکوت به مقدار قابل توجهی در پهنای باند و یا فضای اختصاص داده شده صرفه جویی نمود، زیرا مشاهده شده که ضریب فعالیت گفتار ([9]VAF ) یک گوینده بطور معمول بین 44-36% می باشد. این بدان معناست که 64-56% اطلاعات گفتار، شامل مکث ها و سکوت می باشد.

نویزهای موجود در گفتار (نویزهای زمینه) به دو گروه نویزهای ضربه ای و نویزهای غیرضربه ای یا تداوم دار تقسیم می شوند. نویزهای ضربه ای (مانند: صدای پف دهان، ته سرفه برای صاف کردن حنجره، کلیک و ضربه میکروفن و …) توسط طول دوره آن نسبت به سیگنال گفتار قابل تشخیص می­باشند. نویزهای تداوم دار (مانند: همهمه، صدای موتور ماشین، صدای فن، صدای کولر و …) معمولا ماقبل و بعد از سیگنال گفتار وجود دارند. در VAD ها بیشتر این نوع نویزها مورد بررسی قرار می گیرند.

در تقسیم بندی دیگر، نویزها را میتوان به دو گروه سفید[10]و یا رنگی[11] تقسیم نمود. نویز سفید دارای پوش طیف تقریبا هموار و یکنواخت می باشد. ولی نویز رنگی  دارای قطب ها و صفرهایی در پوش طیف است.

نویزها را میتوان از لحاظ ثابت بودن و یا متغیربودن مشخصه های آماری به دو دسته ایستان[12] و غیرایستان[13] تقسیم نمود. در واقعیت، نمیتوان ادعا نمود که یک نویز واقعا ایستان است. ایستان بودن نویز در دنیای واقعی فرضی است که میتوان آن را در دوره های زمانی کوتاه ( مثلا فاصله بین رخداد سکوت) با درصد خطای اندکی پذیرفت. از لحاظ زمان پاسخگویی، VADها را میتوان به دو گروه دسته ای و بلادرنگ تقسیم نمود. در VADهای مبتنی بر پردازش دسته ای فرض بر این است که اطلاعات تمام فریم های گفتار و مقداری مناسب از فریم های سکوت ماقبل گفتار در اختیار می باشد. در این روش پس از ضبط سیگنال گفتار همراه با سکوت ماقبل، سیستم به فرآیند پردازش و تشخیص می پردازد. این روش ها معمولا در تصدیق و تعیین هویت گوینده و سیستم های شماره گیر صوتی و دستورات صوتی مورد استفاده قرار می گیرد. چون تمام اطلاعات گفتار یکجا در اختیار می باشد انتظار این است که این روش دارای دقت و عملکرد بالاتری نسبت به روش های بلادرنگ باشد. در روش های بلادرنگ تصمیم VAD و بازشناسی، همزمان با پایان گفتار با یک تاخیر کم، انجام می پذیرد. بنابراین منطقی است که این روش ها از نظر محاسباتی سریعتر باشند. ویژگی ها و مشخصه های بارز و مورد بررسی در VADها شامل اطمینان پذیری، مقاوم بودن در مقابل نویز، دقت، قابلیت تطبیق با شرایط جدید، سهولت، سادگی و … می باشند.

34.Voice Activity Detection

[2] .Pause Detection

[3] .End Point Detection

[4] .Speech Recognition

[5] .Speech Compression

[6] .Noise Estimation And Cancellation

[7] .Speech Enhancement

[8] .Speaker Recognition

[9] .Voice Activity Factor

1.White Noise

[11].Colored Noise

[12].Stationary

[13].Non Stationary

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.