نويزهای پهن باند از مهمترين نويزهايی هستند که در مبحث حذف نويز محيطی مطرح هستند و حذف آنها به طور کلّی بسيار دشوارتر از نويزهای متناوب و ضربهای ميباشد[7].
در دهههای گذشته روشهای بسياری برای کاهش نويز محيطی از سيگنال صحبت ارائه شده و توسعه يافتهاند[8][14]. بسياری از اين روشها مبتنی بر آرايههای وفقی بوده و عمدتاً نياز به چندين سنسور دارند[9][17-15]. از ميان اين روشها، آنهايی که امکان پيادهسازی ارزان را داشته و به توان محاسباتی کمتری نياز دارند و علاوه بر اين نياز به سنسورهای چندگانه نداشته و قادر به حذف نويز روی صحبت نويزی تک کاناله باشند، از لحاظ تجاری دارای اهميت خاصی هستند؛ چرا که سيستمهای تجاری پردازش صحبت مثل ماشينهای پاسخگوی ديجيتال، تلفنهای همراه يا حتی تلفنهای هوشمند عمدتاً نميتوانند دارای چند ورودی باشند، چرا که در اين صورت نياز به مبدلهای A/D چندگانه پيدا ميکنند که سبب بالا رفتن قيمت سيستم ميشود. علاوه بر اين سيستم با چند ورودي، حافظه بيشتر و توان پردازش بالاتری ميطلبد که مستقيما افزايش قيمت را به دنبال دارد[18].
عموماً روشهای بهبود صحبت تک کاناله فرض ميکنند که مشخّصههای آماری نويز بسيار بيشتر از مشخّصههای آماری صحبت ايستان است، به طوری که ميتوان خواص آماری نويز را در طول بازههای سکوت تخمين زد. در سالهای اخير روشی موسوم به “مشخّصههای آماری حدّاقل”[1] ارائه شده است که در آن چگالی طيف توان نويز را ميتوان در طول بازههای صحبت با دنبال کردن مينيممهای طيفی سيگنال نويزی تخمين زد[19].
در محيطهای واقعی سيگنالهای صحبت و نويز به طور قابل توجّهی در حوزة زمان و فرکانس با هم تداخل دارند. اين مساله سبب ميشود حذف نويز به صورت تک کاناله کاری دشوار بوده و همواره باعث ايجاد اعوجاج در صحبت و بروز نويزی به نام “نويز موزيکال” گردد[20]، که اين امر بخصوص در SNRهای پايين و نويزهای غير ايستان مشهود است.
روشهای کاهش نويز پهن باند بهصورت تک کاناله را به طور کلّی ميتوان به چهار دسته تقسيم کرد که در بخشهای زير تشريح ميگردند.
2-5-1 روشهای کاهش نويز پهنباند به کمک خاصيت متناوب بودن صحبت
اين روشها از اين حقيقت استفاده ميکنند که شکل موج صحبت واکدار دارای طبيعت شبه متناوب با دورة تناوب وابسته به فرکانس اصلي[2] است. روشهای وفقی يک گروه از روشهايی است که به اين منظور پيشنهاد شده است. روشهای وفقی اصولاً برای حذف نويز دو يا چند کاناله استفاده ميشوند، ليکن برای صحبت تک کاناله که مرجع نويز (از طريق کانال دوم) در دسترس نيست، ميتوان با تاخير دادن به سيگنال صحبت نويزی ورودی به اندازة يک يا دو گام صحبت، يک سيگنال مرجع که دارای همبستگی زياد با سيگنال صحبت و همبستگی کم با نويز باشد را بدست آورد[21]. برای تنظيم ضرايب فيلتر معمولاً معيار متوسط مربع خطا[3] (MSE) بکار ميرود. برای اينکار الگوريتمهای متعددی طرح شدهاند. از جمله اين الگوريتمها ميتوان به LMS[4] و RLS[5] اشاره کرد[4][22]. شکل (2-4) بلوک دياگرام کلّی اين روش را نشان ميدهد.
روش ديگر مبتنی بر خاصيت شبه متناوبي، فيلتر شانه اي[6] ميباشد[23]. فيلتر شانهای سيگنال نويزی را در حوزة فرکانس با رشتهای از توابع ضربه[7] که فواصل آنها از هم برابر دورة تناوب سيگنال صحبت است، ضرب ميکند. اين عمل در حوزة زمان معادل است با ميانگينگيری از شکل موج سيگنال در چند دورة تناوب. اين روش فرض ميکند که نويز از نوع ايستان کوتاه-دوره است. اثرات فيلتر شانهای روی صحبت با انواع نويزها و SNRهای مختلف در مرجع [24] ارزيابی شده است. آزمايشها نشان داده است که با وجودی که SNR در اين روش افزايش مييابد،از ميزان فهم صحبت واقعاً کاسته ميشود.
عيب اصلی اين روشها اين است که آنها تنها ميتوانند بخشهای صدادار صحبت را بهبود دهند. اين روشها برای بخشهايی از صحبت که دارای حالت گذرای سريع هستند و قسمتهای واکدار از نوع سايشي[8] و قسمتهای بی واک مفيد نيستند. اگر از يک روش پردازش جداگانه برای بهبود قسمتهای بی واک استفاده شود معمولاً نياز به يک آشکارساز مقاوم[9] بخشهای واکدار/بی واک خواهد بود. کارايی اين آشکارسازها در حضور نويز کاهش مييابد، علاوه بر اين نويز عامل محدود کنندهای برای دقّت تخمين دورة تناوب گام ميباشد.
2-5-2 بهبود صحبت مبتنی بر مدل
گروه ديگر از روشهای رايج بهبود صحبت بر مبنای استفاده از روشهای آماری برای مدل کردن سيگنال و نويز ميباشد. صحبت خالص را ميتوان بوسيله تابعی از پارامترهای تصادفی مشاهدات صحبت نويزی مشخّص کرد. برای اينکه از اين راهکار استفاده کرده و سيگنال خالص را از روی سيگنال نويزی تخمين بزنيم، نياز به اطلاعات دقيقی از مشخّصههای آماری مشترک فرآيند صحبت خالص و نويز داريم. علاوه بر اين، معياری برای اندازهگيری اعوجاج سيگنالهای صحبت که از لحاظ کيفی معنادار باشد، نيز مورد نياز است؛ بنابراين اگر سيگنالهای صحبت با نويزی که از لحاظ آماری مستقل است آغشته شود، توزيع احتمال حاشيهای سيگنال صحبت خالص و نويز بايد به طور دقيق معلوم باشد. ليکن در عمل مشخّصههای آماری سيگنال صحبت و نويز، هيچکدام معلوم نيست. از اين رو روش تئوريکی بالا در دو مرحله به صورت زير بکار گرفته ميشود: ابتدا مشخّصههای آماری سيگنال و نويز از دادههای تعليمی صحبت و نويز تخمين زده ميشود، از اين طريق با ايجاد يک راه حل زير- بهينه[10] از مدلهای آماری استفاده ميشود. سپس همراه با معيارهای اندازهگيری اعوجاج برای بهبود صحبت استفاده ميشود.
روشهای مختلفی برای مدل کردن صحبت مورد استفاده قرار ميگيرند، نظير ميانگينگيری لغزان[11] (MA)، ميانگينگيری خودبازگشتي[12] (AR) يا ميانگينگيری لغزان خودبازگشتي[13] (ARMA). برای تخمين پارامترهای يک مدل صحبت، از سه قاعده تخمين استفاده ميشود که عبارتند از بيشترين احتمال[14] (ML)، بيشترين احتمال پسين[15] (MAP) و حدّاقل خطای ميانگين مربع[16] (MMSE). اين معيارها دارای خواص کاربردی بسيار زيادی هستند[25]. ML اغلب برای پارامترهای غيرتصادفی بکار ميرود. قواعد تخمين MAP و MMSE غالباً برای پارامترهايی که ميتوانند به عنوان متغيرهای تصادفی با تابع چگالی پيشين[17] معلوم در نظر گرفته شوند، بکار ميروند. اکثر روشهای پارامتري، سيگنال صحبت و گاهی اوقات سيگنال نويز را به صورت يک مدل تصادفی AR مدل ميکنند[28-26]. سپس يک فيلتر کالمن (در حوزة زمان)[29-28] يا فيلتر وينر (در حوزة فرکانس) [26][30-29] بر مبنای تخمين پارامترهای AR محاسبه ميگردد و سپس به سيگنال صحبت نويزی اعمال ميگردد. برای نمونه يکی از اين روشها در [31] ارائه شده است که در آن برای سيگنال صحبت يک مدل AR متغير با زمان فرض ميشود و با استفاده از تخمين MAP هم مدل سيگنال و هم خود سيگنال از روی سيگنال نويزی تخمين زده ميشود. عمل ماکزيمم کردن تابع بخت[18] به طور تکراری انجام ميشود. اينکار يکبار با استفاده از مدل AR با اين فرض که سيگنال نويزی موجود، سيگنال خالص است انجام شده و بار ديگر با استفاده از مدل تخمينی و با اين فرض که تخمينی از طيف توان نويز موجود است، روی سيگنال حذف نويز شده صورت ميگيرد. تاکنون تغييرات و ايدههای بسياری بر مبنای اين روش پيشنهاد گرديده است[33-32].
روشهای بهبود صحبت مبتنی بر مدل مخفی مارکوف[19] (HMM) گروه ديگری است که در زمره اين روشها قرار دارد. مدلهای صحبت مبتنی بر HMM از اين جهت که ميتوانند مشخّصههای آماری مرتبه دوّم، يعنی طيفهای مختلف سيگنالهای صحبت و همچنين همبستگی زمان-فرکانسی سيگنال را بهخوبی نمايش دهند، مدلهای کارآمدی هستند. همبستگی زمان-فرکانسی در کاربردهای بهبود ميتواند بسيار مفيد واقع شود؛ از اين خاصيت ميتوان برای هموارسازی زماني-فرکانسی استفاده کرده و تخمينگرهای سيگنال را از نظر قابليت اطمينان[20] بهبود بخشيد. برای مروری بر روشهای مبتنی بر مدل ميتوان به [34] مراجعه کرد.
2-5-3 بهبود مبتنی بر تخمين دامنة طيف کوتاه-دوره
روشهای تخمين دامنة طيف کوتاه مدت پايه بسياری از روشهای بهبود صحبت متداول را تشکيل ميدهد. ثابت شده است که برای کيفيت و فهم صحبت، دامنة طيف کوتاه مدت بسيار مهمتر از فاز آن ميباشد[35]. واضح است که تخمين دامنة طيف سيگنال راحتتر است از تخمين همزمان دامنه و فاز آن سيگنال و اين مزيتی برای اين روشها محسوب ميشود. اين روشها را ميتوان به دو گروه بزرگ تقسيم کرد[35]. گروه اوّل شامل روشهايی است که بخشهاي[21] کوتاه و متوالی صحبت را به حوزة فرکانس نگاشت ميکنند، در اين روشها نويز پس از قاب بندی کردن مؤلّفههای گسسته فرکانس، حذف ميشود. اينکار با کم کردن تخمينی از نويز که در بازههای سکوت محاسبه شده صورت ميگيرد. تفريق طيفی يکی از روشهای مبتنی بر اين قاعده ميباشد. گروه دوّم شامل روشهايی است که از صحبت نويزی ابتدا برای بدست آوردن ضرايب يک فيلتر (مثل فيلتر وينر)استفاده ميشود و پس از آن فيلتر روی صحبت نويزی اعمال ميگردد[36]. مجموعه روشهای مختلفی را که از لحاظ قواعد تفريق يا تخمين نويز يا ساير جزئيات با هم تفاوت دارند، روشهای “دامنة طيف کوتاه-دوره” (STSA) مينامند. همچنين به آنها الگوريتمهای نوع تفريقي[22] نيز گفته ميشود. تفريق طيفی يکی از رايجترين روشهای بهبود صحبت مبتنی بر تخمين دامنة کوتاه-دوره ميباشد. شرح اين روش، فرضيات و محدوديتهای آن در فصل سوّم به طور مشروح آمده است.
2-5-4 بهبود مبتنی بر معيارهای ادراکي
اساس اين روش به ادراک انسان از صدا برميگردد. برخلاف روشهای ذکر شده در بخشهای بالا، که تنها خواص منبع سيگنال و نويز در نظر گرفته ميشد، به خواص شنوايی گوش انسان نيز توجّه ميشود. گستره اين روشها از تلفيق اثرات پوششی شنوايي[23] با قواعد حذف نويز تا پياده سازی روش حذف نويز با در نظر گرفتن تمام معيارهای کيفی ميباشد. در اين روشها سعی ميشود نويز در زمانها و فرکانسهای مختلف تا حد امکان”نامحسوس” گردد. از آنجا که همواره بين کاهش نويز و بروز اعوجاج در صحبت بده-بستان وجود دارد، اين عمل ميتواند برای جلوگيری از افزايش اعوجاج بکار رود، چرا که در اين حالت بهجای کاهش نويز، نامحسوس کردن نويز مد نظر است[37]. يکی از روشهای مبتنی بر تفريق طيفی با استفاده از معيارهای کيفی در فصل سوّم بررسی شده است.
روشهايی که در بالا به آن اشاره شد، روشهای عمده حذف نويز ميباشند. امروزه سيستمهای حذف نويز توسعه زيادی پيدا کردهاند و معمولاً از تلفيقی از اين روشها با ايدههای حسي-تجربی بهره ميجويند.
در ميان روشهای حذف نويز، روشهای مبتنی بر تفريق طيفی به دلايل متعددی همچون سادگی نسبی پياده سازي، توان بالا در حذف نويز، سرعت بالای الگوريتم، قابليت پياده سازی تک کاناله و قابليت بهبود در آن با تلفيق روشها و ايدههای حسي-تجربی از اهميت زيادی برخوردار ميباشد[18].
[1] Minimum Statistics
[2] Fundamental Frequency
[3] Mean Square Error
[4] Least Mean Square
[5] Recursive Least Square
[6] Comb Filter
[7] Dirac Function
[8] Fricative Voiced
[9] Robust
[10] Sub-optimal
[11] Moving Average
[12] AutoRegressive
[13] AutoRegressive Moving Average
[14] Maximum Likelihood
[15] Maximum A Posteriori
[16] Minimum Mean Square Error
[17] A Priori Density Function
[18] Likelihood Function
[19] Hidden Markov Model
[20] Robustness
[21] Segments
[22] Subtractive-type Algorithms
[23] آستانه ادراک يا قابل شنيده شدن يک صوت در حضور صوت ديگر (چه در حوزة زمان و چه در حوزة فرکانس) بالا ميرود. به اين اثر، خاصيت پوششی شنوايی گفته ميشود.