تشخیص گفتار از نواحی غیر گفتاری

سیگنال گفتار از دو ناحیه سکوت و غیرسکوت تشکیل می شود. آشکارسازی گفتار در حضور وقایع آکوستیکی غیرگفتاری و نویزهای زمینه، تشخیص گفتار از غیر گفتار نامیده می شود و با نام های[1]VAD، [2]PDT و یا EDT[3] بکار می رود. این عمل یکی از اجزاء مهم در برخی از کاربردهای پردازش گفتار نظیر تشخیص گفتار[4]، فشرده سازی اطلاعات گفتار[5]، تخمین و حذف نویزها[6]، سیستم بهسازی گفتار[7] و … می باشد. برای بازشناسی گفتار (بازشناسی گوینده[8]) ،لازم است که گفتار آغشته به نویزهای محیطی مختلف را مورد پردازش قراردهیم. برای این منظور باید نقاط ابتدایی و انتهایی گفتار مشخص شود. این کار سبب می شود تا فرآیند بازشناسی گفتار تنها در آن بخش ها اعمال شود.[18] عدم استفاده از VAD کار تشخیص کلمات را پیچیده تر نموده میزان خطای بازشناسی گفتار را افزایش می دهد. در سیستم مخابرات و یا در سیستم فشرده سازی اطلاعات گفتار، میتوان با اختصاص دادن بیت های کمتر به نواحی سکوت به مقدار قابل توجهی در پهنای باند و یا فضای اختصاص داده شده صرفه جویی نمود، زیرا مشاهده شده که ضریب فعالیت گفتار ([9]VAF ) یک گوینده بطور معمول بین 44-36% می باشد. این بدان معناست که 64-56% اطلاعات گفتار، شامل مکث ها و سکوت می باشد.

نویزهای موجود در گفتار (نویزهای زمینه) به دو گروه نویزهای ضربه ای و نویزهای غیرضربه ای یا تداوم دار تقسیم می شوند. نویزهای ضربه ای (مانند: صدای پف دهان، ته سرفه برای صاف کردن حنجره، کلیک و ضربه میکروفن و …) توسط طول دوره آن نسبت به سیگنال گفتار قابل تشخیص میباشند. نویزهای تداوم دار (مانند: همهمه، صدای موتور ماشین، صدای فن، صدای کولر و …) معمولا ماقبل و بعد از سیگنال گفتار وجود دارند. در VAD ها بیشتر این نوع نویزها مورد بررسی قرار می گیرند.

در تقسیم بندی دیگر، نویزها را میتوان به دو گروه سفید[10]و یا رنگی[11] تقسیم نمود. نویز سفید دارای پوش طیف تقریبا هموار و یکنواخت می باشد. ولی نویز رنگی دارای قطب ها و صفرهایی در پوش طیف است.

نویزها را میتوان از لحاظ ثابت بودن و یا متغیربودن مشخصه های آماری به دو دسته ایستان[12] و غیرایستان[13] تقسیم نمود. در واقعیت، نمیتوان ادعا نمود که یک نویز واقعا ایستان است. ایستان بودن نویز در دنیای واقعی فرضی است که میتوان آن را در دوره های زمانی کوتاه ( مثلا فاصله بین رخداد سکوت) با درصد خطای اندکی پذیرفت. از لحاظ زمان پاسخگویی، VADها را میتوان به دو گروه دسته ای و بلادرنگ تقسیم نمود. در VADهای مبتنی بر پردازش دسته ای فرض بر این است که اطلاعات تمام فریم های گفتار و مقداری مناسب از فریم های سکوت ماقبل گفتار در اختیار می باشد. در این روش پس از ضبط سیگنال گفتار همراه با سکوت ماقبل، سیستم به فرآیند پردازش و تشخیص می پردازد. این روش ها معمولا در تصدیق و تعیین هویت گوینده و سیستم های شماره گیر صوتی و دستورات صوتی مورد استفاده قرار می گیرد. چون تمام اطلاعات گفتار یکجا در اختیار می باشد انتظار این است که این روش دارای دقت و عملکرد بالاتری نسبت به روش های بلادرنگ باشد. در روش های بلادرنگ تصمیم VAD و بازشناسی، همزمان با پایان گفتار با یک تاخیر کم، انجام می پذیرد. بنابراین منطقی است که این روش ها از نظر محاسباتی سریعتر باشند. ویژگی ها و مشخصه های بارز و مورد بررسی در VADها شامل اطمینان پذیری، مقاوم بودن در مقابل نویز، دقت، قابلیت تطبیق با شرایط جدید، سهولت، سادگی و … می باشند.

34.Voice Activity Detection

[2] .Pause Detection

[3] .End Point Detection

[4] .Speech Recognition

[5] .Speech Compression

[6] .Noise Estimation And Cancellation

[7] .Speech Enhancement

[8] .Speaker Recognition

[9] .Voice Activity Factor

1.White Noise

[11].Colored Noise

[12].Stationary

[13].Non Stationary

تشخیص گفتار از نواحی غیر گفتاری

1 دیدگاه دربارهٔ «تشخیص گفتار از نواحی غیر گفتاری»

دیدگاه‌ خود را بنویسید لغو پاسخ

ما راه یادگیری شما را کوتاه می کنیم

ایران متلب یکی از برندهای معتبر تولید فیلم آموزشی در ایران می باشد