سیگنال گفتار از دو ناحیه سکوت و غیرسکوت تشکیل می شود. آشکارسازی گفتار در حضور وقایع آکوستیکی غیرگفتاری و نویزهای زمینه، تشخیص گفتار از غیر گفتار نامیده می شود و با نام های[1]VAD، [2]PDT و یا EDT[3] بکار می رود. این عمل یکی از اجزاء مهم در برخی از کاربردهای پردازش گفتار نظیر تشخیص گفتار[4]، فشرده سازی اطلاعات گفتار[5]، تخمین و حذف نویزها[6]، سیستم بهسازی گفتار[7] و … می باشد. برای بازشناسی گفتار (بازشناسی گوینده[8]) ،لازم است که گفتار آغشته به نویزهای محیطی مختلف را مورد پردازش قراردهیم. برای این منظور باید نقاط ابتدایی و انتهایی گفتار مشخص شود. این کار سبب می شود تا فرآیند بازشناسی گفتار تنها در آن بخش ها اعمال شود.[18] عدم استفاده از VAD کار تشخیص کلمات را پیچیده تر نموده میزان خطای بازشناسی گفتار را افزایش می دهد. در سیستم مخابرات و یا در سیستم فشرده سازی اطلاعات گفتار، میتوان با اختصاص دادن بیت های کمتر به نواحی سکوت به مقدار قابل توجهی در پهنای باند و یا فضای اختصاص داده شده صرفه جویی نمود، زیرا مشاهده شده که ضریب فعالیت گفتار ([9]VAF ) یک گوینده بطور معمول بین 44-36% می باشد. این بدان معناست که 64-56% اطلاعات گفتار، شامل مکث ها و سکوت می باشد.
نویزهای موجود در گفتار (نویزهای زمینه) به دو گروه نویزهای ضربه ای و نویزهای غیرضربه ای یا تداوم دار تقسیم می شوند. نویزهای ضربه ای (مانند: صدای پف دهان، ته سرفه برای صاف کردن حنجره، کلیک و ضربه میکروفن و …) توسط طول دوره آن نسبت به سیگنال گفتار قابل تشخیص میباشند. نویزهای تداوم دار (مانند: همهمه، صدای موتور ماشین، صدای فن، صدای کولر و …) معمولا ماقبل و بعد از سیگنال گفتار وجود دارند. در VAD ها بیشتر این نوع نویزها مورد بررسی قرار می گیرند.
در تقسیم بندی دیگر، نویزها را میتوان به دو گروه سفید[10]و یا رنگی[11] تقسیم نمود. نویز سفید دارای پوش طیف تقریبا هموار و یکنواخت می باشد. ولی نویز رنگی دارای قطب ها و صفرهایی در پوش طیف است.
نویزها را میتوان از لحاظ ثابت بودن و یا متغیربودن مشخصه های آماری به دو دسته ایستان[12] و غیرایستان[13] تقسیم نمود. در واقعیت، نمیتوان ادعا نمود که یک نویز واقعا ایستان است. ایستان بودن نویز در دنیای واقعی فرضی است که میتوان آن را در دوره های زمانی کوتاه ( مثلا فاصله بین رخداد سکوت) با درصد خطای اندکی پذیرفت. از لحاظ زمان پاسخگویی، VADها را میتوان به دو گروه دسته ای و بلادرنگ تقسیم نمود. در VADهای مبتنی بر پردازش دسته ای فرض بر این است که اطلاعات تمام فریم های گفتار و مقداری مناسب از فریم های سکوت ماقبل گفتار در اختیار می باشد. در این روش پس از ضبط سیگنال گفتار همراه با سکوت ماقبل، سیستم به فرآیند پردازش و تشخیص می پردازد. این روش ها معمولا در تصدیق و تعیین هویت گوینده و سیستم های شماره گیر صوتی و دستورات صوتی مورد استفاده قرار می گیرد. چون تمام اطلاعات گفتار یکجا در اختیار می باشد انتظار این است که این روش دارای دقت و عملکرد بالاتری نسبت به روش های بلادرنگ باشد. در روش های بلادرنگ تصمیم VAD و بازشناسی، همزمان با پایان گفتار با یک تاخیر کم، انجام می پذیرد. بنابراین منطقی است که این روش ها از نظر محاسباتی سریعتر باشند. ویژگی ها و مشخصه های بارز و مورد بررسی در VADها شامل اطمینان پذیری، مقاوم بودن در مقابل نویز، دقت، قابلیت تطبیق با شرایط جدید، سهولت، سادگی و … می باشند.
[2] .Pause Detection
[3] .End Point Detection
[4] .Speech Recognition
[5] .Speech Compression
[6] .Noise Estimation And Cancellation
[7] .Speech Enhancement
[8] .Speaker Recognition
[9] .Voice Activity Factor
[11].Colored Noise
[12].Stationary
[13].Non Stationary
عالی بود کلی یاد گرفتم ممنونم