دسته‌بندی روشهای حذف نويز پهن باند از سيگنال صحبت

نويزهای پهن باند از مهمترين نويزهايی هستند که در مبحث حذف نويز محيطی مطرح هستند و حذف آنها به طور کلّی بسيار دشوارتر از نويزهای متناوب و ضربه‌ای مي‎باشد[7].

      در دهه‌های گذشته روشهای بسياری برای کاهش نويز محيطی از سيگنال صحبت ارائه شده و توسعه يافته‌اند[8][14]. بسياری از اين روشها مبتنی بر آرايه‌های وفقی بوده و عمدتاً نياز به چندين سنسور دارند[9][17-15]. از ميان اين روشها، آنهايی که امکان پياده‌سازی ارزان را داشته و به توان محاسباتی کمتری نياز دارند و علاوه بر اين نياز به سنسورهای چندگانه نداشته و قادر به حذف نويز روی صحبت نويزی تک کاناله باشند، از لحاظ تجاری دارای اهميت خاصی هستند؛ چرا که سيستمهای تجاری پردازش صحبت مثل ماشينهای پاسخگوی ديجيتال، تلفنهای همراه يا حتی تلفنهای هوشمند عمدتاً نمي‌توانند دارای چند ورودی باشند، چرا که در اين صورت نياز به مبدلهای A/D چندگانه پيدا مي‌کنند که سبب بالا رفتن قيمت سيستم مي‌شود. علاوه بر اين سيستم با چند ورودي، حافظه بيشتر و توان پردازش بالاتری مي‌طلبد که مستقيما افزايش قيمت را به دنبال دارد[18].

عموماً روشهای بهبود صحبت تک کاناله فرض مي‎کنند که مشخّصه‌های آماری نويز بسيار بيشتر از مشخّصه‌های آماری صحبت ايستان است، به طوری که مي‎توان خواص آماری نويز را در طول بازه‌های سکوت تخمين زد. در سالهای اخير روشی موسوم به “مشخّصه‌های آماری حدّاقل”[1]  ارائه شده است که در آن چگالی طيف توان نويز را مي‎توان در طول بازه‌های صحبت با دنبال کردن مينيمم‎های طيفی سيگنال نويزی تخمين زد[19].

در محيطهای واقعی سيگنالهای صحبت و نويز به طور قابل توجّهی در حوزة زمان و فرکانس با هم تداخل دارند. اين مساله سبب مي‎شود حذف نويز به صورت تک کاناله کاری دشوار بوده و همواره باعث ايجاد اعوجاج در صحبت و بروز نويزی به نام “نويز موزيکال” گردد[20]، که اين امر بخصوص در SNRهای پايين و نويزهای غير ايستان مشهود است.

روشهای کاهش نويز پهن باند بهصورت تک کاناله را به طور کلّی مي‎توان به چهار دسته تقسيم کرد که در بخشهای زير تشريح مي‎گردند.

2-5-1 روشهای کاهش نويز پهنباند به کمک خاصيت متناوب بودن صحبت

اين روشها از اين حقيقت استفاده مي‎کنند که شکل موج صحبت واکدار دارای طبيعت شبه متناوب با دورة تناوب وابسته به فرکانس اصلي[2] است. روشهای وفقی يک گروه از روشهايی است که به اين منظور پيشنهاد شده است. روشهای وفقی اصولاً برای حذف نويز دو يا چند کاناله استفاده مي‎شوند، ليکن برای صحبت تک کاناله که مرجع نويز (از طريق کانال دوم) در دسترس نيست، مي‎توان با تاخير دادن به سيگنال صحبت نويزی ورودی به اندازة يک يا دو گام صحبت، يک سيگنال مرجع که دارای همبستگی زياد با سيگنال صحبت و همبستگی کم با نويز  باشد را بدست آورد[21]. برای تنظيم ضرايب فيلتر معمولاً معيار متوسط مربع خطا[3] (MSE) بکار مي‎رود. برای اينکار الگوريتمهای متعددی طرح شده‌اند. از جمله اين الگوريتمها مي‎توان به LMS[4] و RLS[5] اشاره کرد[4][22]. شکل (2-4) بلوک دياگرام کلّی اين روش را نشان مي‎دهد.

روش ديگر مبتنی بر خاصيت شبه متناوبي، فيلتر شانه اي[6] مي‎باشد[23]. فيلتر شانهای سيگنال نويزی را در حوزة فرکانس با رشتهای از توابع ضربه[7] که فواصل آنها از هم برابر دورة تناوب سيگنال صحبت است، ضرب مي‎کند. اين عمل در حوزة زمان معادل است با ميانگين‎گيری از شکل موج سيگنال در چند دورة تناوب. اين روش فرض مي‎کند که نويز از نوع ايستان کوتاه-دوره است. اثرات فيلتر شانهای روی صحبت با انواع نويزها و SNRهای مختلف در مرجع [24] ارزيابی شده است. آزمايش‌ها نشان داده است که با وجودی که SNR در اين روش افزايش مي‎يابد،از ميزان فهم صحبت واقعاً کاسته مي‎شود.

عيب اصلی اين روشها اين است که آنها تنها مي‎توانند بخشهای صدادار صحبت را بهبود دهند. اين روشها برای بخشهايی از صحبت که دارای حالت گذرای سريع هستند و قسمتهای واکدار از نوع سايشي[8] و قسمتهای بی واک مفيد نيستند. اگر از يک روش پردازش جداگانه برای بهبود قسمتهای بی واک استفاده شود معمولاً نياز به يک آشکارساز مقاوم[9] بخشهای واکدار/بی واک خواهد بود. کارايی اين آشکارسازها در حضور نويز کاهش مي‎يابد، علاوه بر اين نويز عامل محدود کنندهای برای دقّت تخمين دورة تناوب گام مي‎باشد.

2-5-2  بهبود صحبت مبتنی بر مدل

گروه ديگر از روشهای رايج بهبود صحبت بر مبنای استفاده از روشهای آماری برای مدل کردن سيگنال و نويز مي‎باشد. صحبت خالص را مي‎توان بوسيله تابعی از پارامترهای تصادفی مشاهدات صحبت نويزی مشخّص کرد. برای اينکه از اين راهکار استفاده کرده و سيگنال خالص را از روی سيگنال نويزی تخمين بزنيم، نياز به اطلاعات دقيقی از مشخّصه‌های آماری مشترک فرآيند صحبت خالص و نويز داريم. علاوه بر اين، معياری برای اندازهگيری اعوجاج سيگنال‌های صحبت که از لحاظ کيفی معنادار باشد، نيز مورد نياز است؛ بنابراين اگر سيگنالهای صحبت با نويزی که از لحاظ آماری مستقل است آغشته شود، توزيع احتمال حاشيهای سيگنال صحبت خالص و نويز بايد به طور دقيق معلوم باشد. ليکن در عمل مشخّصه‎های آماری سيگنال صحبت و نويز، هيچکدام معلوم نيست. از اين رو روش تئوريکی بالا در دو مرحله به صورت زير بکار گرفته مي‎شود: ابتدا مشخّصه‌های آماری سيگنال و نويز از داده‌های تعليمی صحبت و نويز تخمين زده مي‎شود، از اين طريق با ايجاد يک راه حل زير- بهينه[10] از مدلهای آماری استفاده مي‎شود. سپس همراه با معيارهای اندازهگيری اعوجاج برای بهبود صحبت استفاده مي‎شود.

روشهای مختلفی برای مدل کردن صحبت مورد استفاده قرار مي‎گيرند، نظير ميانگين‎گيری لغزان[11] (MA)، ميانگين‎گيری خودبازگشتي[12] (AR) يا ميانگين‎گيری لغزان خودبازگشتي[13] (ARMA). برای تخمين پارامترهای يک مدل صحبت، از سه قاعده تخمين استفاده مي‎شود که عبارتند از بيشترين احتمال[14] (ML)، بيشترين احتمال پسين[15] (MAP) و حدّاقل خطای ميانگين مربع[16] (MMSE).  اين معيارها دارای خواص کاربردی بسيار زيادی هستند[25]. ML اغلب برای پارامترهای غيرتصادفی بکار مي‎رود. قواعد تخمين MAP و MMSE غالباً برای پارامترهايی که مي‎توانند به عنوان متغيرهای تصادفی با تابع چگالی پيشين[17] معلوم در نظر گرفته شوند، بکار مي‎روند. اکثر روشهای پارامتري، سيگنال صحبت و گاهی اوقات سيگنال نويز را به صورت يک مدل تصادفی AR مدل مي‎کنند[28-26]. سپس يک فيلتر کالمن (در حوزة زمان)[29-28] يا فيلتر وينر (در حوزة فرکانس) [26][30-29] بر مبنای تخمين پارامترهای AR محاسبه مي‎گردد و سپس به سيگنال صحبت نويزی اعمال مي‎گردد. برای نمونه يکی از اين روشها در [31] ارائه شده است که در آن برای سيگنال صحبت يک مدل AR متغير با زمان فرض مي‎شود و با استفاده از تخمين MAP هم مدل سيگنال و هم خود سيگنال از روی سيگنال نويزی تخمين زده مي‎شود. عمل ماکزيمم کردن تابع بخت[18] به طور تکراری انجام مي‎شود. اينکار يکبار با استفاده از مدل AR با اين فرض که سيگنال نويزی موجود، سيگنال خالص است انجام شده و بار ديگر با استفاده از مدل تخمينی و با اين فرض که تخمينی از طيف توان نويز موجود است، روی سيگنال حذف نويز شده صورت مي‎گيرد. تاکنون تغييرات و ايده‌های بسياری بر مبنای اين روش پيشنهاد گرديده است[33-32].

روشهای بهبود صحبت مبتنی بر مدل مخفی مارکوف[19] (HMM) گروه ديگری است که در زمره اين روشها قرار دارد. مدلهای صحبت مبتنی بر HMM از اين جهت که مي‎توانند مشخّصه‌های آماری مرتبه دوّم، يعنی طيفهای مختلف سيگنالهای صحبت و همچنين همبستگی زمان-فرکانسی سيگنال را بهخوبی نمايش دهند، مدلهای کارآمدی هستند. همبستگی زمان-فرکانسی در کاربردهای بهبود مي‎تواند بسيار مفيد واقع شود؛ از اين خاصيت مي‎توان برای هموارسازی زماني-فرکانسی استفاده کرده و تخمين‎گرهای سيگنال را از نظر قابليت اطمينان[20] بهبود بخشيد. برای مروری بر روشهای مبتنی بر مدل مي‎توان به [34] مراجعه کرد.

2-5-3 بهبود مبتنی بر تخمين دامنة طيف کوتاه-دوره

روشهای تخمين دامنة طيف کوتاه مدت پايه بسياری از روشهای بهبود صحبت متداول را تشکيل مي‎دهد. ثابت شده است که برای کيفيت و فهم صحبت، دامنة طيف کوتاه مدت بسيار مهمتر از فاز آن مي‎باشد[35]. واضح است که تخمين دامنة طيف سيگنال راحتتر است از تخمين همزمان دامنه و فاز آن سيگنال و اين مزيتی برای اين روشها محسوب مي‎شود. اين روشها را مي‎توان به دو گروه بزرگ تقسيم کرد[35]. گروه اوّل شامل روشهايی است که بخشهاي[21] کوتاه و متوالی صحبت را به حوزة فرکانس نگاشت مي‎کنند، در اين روشها نويز پس از قاب بندی کردن مؤلّفه‌های گسسته فرکانس، حذف مي‎شود. اينکار با کم کردن تخمينی از نويز که در بازه‌های سکوت محاسبه شده صورت مي‎گيرد. تفريق طيفی يکی از روشهای مبتنی بر اين قاعده مي‎باشد. گروه دوّم شامل روشهايی است که از صحبت نويزی ابتدا برای بدست آوردن ضرايب يک فيلتر (مثل فيلتر وينر)استفاده مي‎شود و پس از آن فيلتر روی صحبت نويزی اعمال مي‎گردد[36]. مجموعه روشهای مختلفی را که از لحاظ قواعد تفريق يا تخمين نويز يا ساير جزئيات با هم تفاوت دارند، روشهای “دامنة طيف کوتاه-دوره” (STSA) مي‎نامند. همچنين به آنها الگوريتمهای نوع تفريقي[22] نيز گفته مي‌شود. تفريق طيفی يکی از رايجترين روشهای بهبود صحبت مبتنی بر تخمين دامنة کوتاه-دوره مي‎باشد. شرح اين روش، فرضيات و محدوديتهای آن در فصل سوّم به طور مشروح آمده است.

2-5-4 بهبود مبتنی بر معيارهای ادراکي

اساس اين روش به ادراک انسان از صدا برمي‎گردد. برخلاف روشهای ذکر شده در بخشهای بالا، که تنها خواص منبع سيگنال و نويز در نظر گرفته مي‎شد، به خواص شنوايی گوش انسان نيز توجّه مي‎شود. گستره اين روشها از تلفيق اثرات پوششی شنوايي[23] با قواعد حذف نويز تا پياده سازی روش حذف نويز با در نظر گرفتن تمام معيارهای کيفی مي‎باشد. در اين روشها سعی مي‌شود نويز در زمانها و فرکانسهای مختلف تا حد امکان”نامحسوس” گردد. از آنجا که همواره بين کاهش نويز و بروز اعوجاج در صحبت بده-بستان وجود دارد، اين عمل مي‎تواند برای جلوگيری از افزايش اعوجاج بکار رود، چرا که در اين حالت به‎جای کاهش نويز، نامحسوس کردن نويز مد نظر است[37]. يکی از روشهای مبتنی بر تفريق طيفی با استفاده از معيارهای کيفی در فصل سوّم بررسی شده است.

     روشهايی که در بالا به آن اشاره شد، روشهای عمده حذف نويز مي‎باشند. امروزه سيستمهای حذف نويز توسعه زيادی پيدا کرده‌اند و معمولاً از تلفيقی از اين روشها با ايده‌های حسي-تجربی بهره مي‎جويند.

   در ميان روشهای حذف نويز، روشهای مبتنی بر تفريق طيفی به دلايل متعددی همچون سادگی نسبی پياده سازي، توان بالا در حذف نويز، سرعت بالای الگوريتم، قابليت پياده سازی تک کاناله و قابليت بهبود در آن با تلفيق روشها و ايده‌های حسي-تجربی از اهميت زيادی برخوردار مي‎باشد[18].

[1] Minimum Statistics

[2] Fundamental Frequency

[3] Mean Square Error

[4] Least Mean Square

[5] Recursive Least Square

[6] Comb Filter

[7] Dirac Function

[8] Fricative Voiced

[9] Robust

[10] Sub-optimal

[11] Moving Average

[12] AutoRegressive

[13] AutoRegressive Moving Average

[14] Maximum Likelihood

[15] Maximum A Posteriori

[16] Minimum Mean Square Error

[17] A Priori Density Function

[18] Likelihood Function

[19] Hidden Markov Model

[20] Robustness

[21] Segments

[22] Subtractive-type Algorithms

[23]  آستانه ادراک يا قابل شنيده شدن يک صوت در حضور صوت ديگر (چه در حوزة زمان و چه در حوزة فرکانس) بالا مي‎رود. به اين اثر، خاصيت پوششی شنوايی گفته مي‎شود.

 

 

 

لینک دانلود فایل کامل

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.