مشکل اصلی در تفريق طيفی اعوجاج غيرخطی پردازش ناشی از تغييرات تصادفی طيف نويز ميباشد. از رابطة (3-10) و اين شرط که اندازة طيف بايد مقدار غيرمنفی داشته باشد، ميتوان سه منبع اعوجاج ناشی از تخمين طيف اندازه يا توان تشخيص داد:
الف- تغييرات طيف توان لحظهای نويز نسبت به مقدار ميانگين
- عبارات ضرب متقاطع[1] سيگنال و نويز
- نگاشت غيرخطی تخمينهای طيف که زير آستانه معينی قرار ميگيرد.
غالباً صحبت و نويز محيطی با هم همبستگی ندارند و بنابراين مقدار عبارت ضرب متقاطع صفر است؛ بنابراين مورد (ب) اهميتی ندارد. معمولاً منبع اعوجاج غالب در اين سه نوع، مورد آخری ميباشد. اين اعوجاج يک نويز صوتی فلزي[2] توليد ميکند که به نام نويز موزيکال (که قبلاً اشاره شد) مشهور است. اين نويز از سيگنالهای باند باريكی كه دامنه و فركانس آنها با زمان تغيير ميكند، تشكيل شده است. موفقيّت الگوريتمهای تفريق طيفی به توانايی آنها در کاهش تغييرات نويز و برداشتن اعوجاج حاصل از پردازش بستگی دارد.
نويز باقيمانده در بدترين حالت که حالت معمول آن ميباشد، دو فرم زير را دارد:
- يک درّه يا قلّه در طيف سيگنال
- باندهای فرکانسی باريک مجزا از هم
اين درّهها و قلّهها اگر در مجاورت فرکانسهايی که دامنة بزرگ دارند قرار داشته باشند، غالباً بوسيله انرژی بالای سيگنال پوشيده[3] و نامحسوس ميشوند. علّت اصلی تنزل محسوس کيفيت صحبت، مؤلّفههای فرکانسی گسسته نويز هستند که در شکل (3-7) مشاهده ميشود.
[1] Cross-product Terms
[2] Metallic
[3] Mask
3-5-1 اثر تفريق طيفی روی توزيع سيگنال
شکل (3-8) اثر اعوجاج تفريق طيفی روی توزيع دامنة طيف سيگنال را نشان ميدهد. در اين شکل ما حالت ساده که در آن طيف سيگنال به دو بخش تقسيم شده را در نظر ميگيريم: يک باند فرکانسی پايين و يک باند فرکانسی بالا. هر نقطه شکل (3-8) ترسيمی از طيف فرکانس بالا بر حسب طيف فرکانس پايين در فضای دو بعدی سيگنال ميباشد. شکل (a) توزيع مفروضی از نمونههای طيفی يک سيگنال در فضای دو بعدی اندازه- فرکانس را نشان ميدهد. همان طور که در شکل (b) نشان داده شده است، اثر نويز تصادفی افزايش ميانگين و واريانس طيف ميباشد. ميزان اين افزايش بستگی به ميانگين و واريانس طيف اندازة نويز دارد. افزايش ميانگين طيف اندازه را ميتوان از طريق تفريق طيفی حذف کرد؛ ليکن افزايش در واريانس سبب اعوجاج غيرقابل برگشت ميگردد[8]. شکل (c) اثر اعوجاج تفريق طيفی روی توزيع طيف سيگنال را نشان ميدهد. همان طور که ميبينيم، به دليل افزايش واريانس طيف سيگنال در اثر نويز، پس از تفريق طيف متوسط نويز، يک نسبت از تجمع سيگنال بخصوص قسمتهايی که دارای SNR کم هستند منفی شده و بايد به مقادير غيرمنفی تبديل شوند. اين پروسه توزيع بخشی از طيف که دارای SNR پايين است را اعوجاج ميدهد.
|
3-5-2 کاهش نويز مانده
روشهای زيادی برای کاهش نويز مانده پيشنهاد شده اند که از جمله آنها ميتوان به ميانگينگيری از سيگنال نويزي، استفاده از خاصيت تصادفی بودن قاب به قاب نويز مانده، فيلتر کردن به روش Soft-Decision [50]، اعمال محدوديتهای شکل شناختی روی طيف سيگنال[57] و … نام برد. در بخشهای زير برخی از روشهای کاهش نويز مانده مورد بررسی قرار ميگيرد.
3-5-2-1 متوسط گيری طيف
از آنجا که خطای طيفی معادل است با اختلاف بين طيف نويز در هر قاب و متوسط طيف نويز تخمين زده شده؛ بنابراين برای کاهش مقدار آن ميتوان از طيف سيگنال نويزی متوسط محلی گرفت. به بيان رياضی برای نويز سفيد با واريانس σn2 ميتوان نشان داد که واريانس طيف توان نويز N(f) برابر است با
(3-16) |
و واريانس ميانگين هر k مؤلّفة طيفی مستقل، عبارتست از:
(3-17) |
با توجّه به معادلة بالا ميبينيم که تغييرات نويز را ميتوان با متوسط گيری زمانی از اجزاء فرکانسی سيگنال نويزی کاهش داد. محدوديت اساسی اين راهکار اينست که فرآيند متوسط گيری علاوه بر کاهش واريانس نويز، اثر نامطلوبی نيز روی تغييرات زمانی طيف سيگنال دارد؛ بنابراين در فرآيند متوسط گيری مصالحهای بين ميزان کاهش واريانس نويز و درجه تفکيک زمانی رخدادهای طيفی غير ايستان بايد صورت گيرد. اين مسئله مهمی است؛ زيرا درجه تفکيک زمانی نقش مهمی در کيفيت و فهم سيگنالهای صوتی بازی ميکند. در تفريق طيفی سيگنال نويزی y(m) به بلوکهای N نمونهای بخش بندی شده و هر بلوک با دستور DFT به بلوکهايی با N نمونه طيفی Y(f) تبديل ميشود. بلوکهای متوالی نمونههای طيفي، ماتريس دوبعدی زمان-فرکانسی را بوجود ميآورند که با Y(f,t) نشان داده ميشود. (t :انديس بلوکها که نمايشگر بعد زمانی است.) سيگنال Y(f,t) را ميتوان حاصلجمع سيگنال متغير با زمان X(f,t) با نويز تصادفی N(f,t) در نظر گرفت. يک راه برای کاهش تغييرات نويز، فيلتر کردن پايين گذر طيف اندازه در هر فرکانس ميباشد. برای مثال يک فيلترينگ ساده از نوع پايين گذر بازگشتی از مرتبه يک با رابطة زير داده ميشود:
(3-18) |
که در آن ضريب هموار سازي[1] ρ ، پهنای باند و ثابت زمانی فيلتر پايين گذر را کنترل ميکند.
روش مشابه ديگری که در عمل کاربرد زيادی برای کاهش نويز موزيکال دارد، ميانگينگيری وزندار ميباشد[40]. اين فرآيند در اصل واريانس نويز را روی سيگنال صحبت نويزی کاهش ميدهد، از طرفی محتويات طيفی صحبت را نيز تقويت ميکند؛ بنابراين از تفريق مخرب جلوگيری ميکند. در اينجا هم، به واسطه ايستان بودن کوتاه مدت صحبت، تعداد قابهای همسايه برای ميانگينگيری محدود است. حالت کلّی عمل ميانگينگيری وزندار به صورت رابطة زير است:
(3-19) |
که در آن i انديس قاب و Wj ضرايب مورد استفاده برای وزن دهی قابها است. وقتی Wj=1 (به ازای هر j ) است، ميانگينگيری از نوع ساده آن ميشود و در غير اينصورت ميانگينگيری وزندار خواهد بود[40].
3-5-2-2 فيلتر کردن اعوجاجهای ناشی از پردازش
سيگنالهای صوتی مانند صحبت و نويز، ترکيبی از رشته رخدادهای آکوستيکی غيرايستان هستند. رخدادهای آکوستيکی طول عمر متغيری دارند و با شدّتها و ترکيبهای فرکانسی مختلفی ظاهر شده و محو ميشوند. طبيعت متغير با زمان سيگنالهای صوتي، نقش مهمی در انتقال اطلاعات و کيفيت آن دارد. نويز موزيکال حاصل از تفريق طيفی نيز متغير با زمان است. ليکن تفاوتهای مهمی بين اغلب سيگنالهای صوتی و نويز موزيکال وجود دارد که اين وجه افتراق ميتواند در شناسايی و حذف برخی از مؤلّفههای اعوجاج که آشکارتر هستند، بکار گرفته شود. شناسايی نويز موزيکال ممکن است با بررسی تغييرات سيگنال در حوزههای زمان و فرکانس صورت گيرد. مشخّصه اصلی نويز موزيکال اينست که اين نويز شبيه انفجارهای تصادفی مجزا از هم با طول عمر نسبتاً کوتاه از سيگنالهای باند باريک که اندازههای نسبتاً کوچکی دارند ميباشد. برای مثال بررسی نشان ميدهد اگر طول بلوکها 128 نمونه و فرکانس نمونه برداری kHz20 باشد، اکثريت قريب به اتفاق مؤلّفههای نويز موزيکال بيش از سه قاب دوام ندارند. در حالی که مؤلّفههای سيگنال خالص دارای طول عمر بسيار بزرگتری هستند. اين موضوع پايه يک سيستم کارای حذف نويز موزيکال ميتواند باشد. شکل (3-9) روشی برای شناسايی نويز موزيکال ارائه ميدهد. هر مؤلّفة طيف حاصل از تبديل فوريه گسسته برای شناسايی رخدادهای فرکانسی با عمر کوتاه، بررسی ميشود. اگر يک مؤلّفة فرکانسی دارای طول عمر کمتر از پنجره زمانی از پيش تعيين شده باشد و اندازهای کمتر از يک ميزان آستانه داشته باشد و از طرفی با اجزای سيگنال در مؤلّفههای فرکانسی مجاور پوشيده[2] نشود، در اين صورت به عنوان اعوجاج شناخته شده و حذف ميگردد.
|
3-5-2-3 استفاده از خاصيت تصادفی بودن قاب به قاب نويز مانده
اين روش بر مبنای جانشينی مقدار قاب حاضر با مقدار مينيممی از قابهای مجاور ميباشد[3]. اگر برای برخی از مؤلّفههای فرکانس، اندازة طيف صحبت تخمينی در قاب mام کمتر از ماکزيمم نويز مانده باشد و اگر از قاب به قاب ديگر متفاوت باشد، در اينصورت اين احتمال وجود دارد که طيف صحبت در آن فرکانس ناشی از نويز باشد؛ بنابراين نويز ميتواند توسط گرفتن حدّاقل مقدار مابين قابهای مجاور قاب m، کاهش يابد. اگر طيف صحبت تخمينی در آن فرکانس کمتر از ماکزيمم نويز مانده بود و تقريباً بين قابهای همجوار ثابت بود، در اينصورت احتمال زيادی وجود دارد که طيف فرکانس صوتی با انرژی پايين را ارائه بدهد؛ بنابراين با گرفتن مينيمم محتوای اطلاعات تحت تأثير قرار نخواهد گرفت. از طرف ديگر اگر طيف صحبت تخمينی در آن فرکانس بيشتر از اندازة ماکزيمم نويز مانده بود، در اينصورت در آن محل طيف، صحبت وجود دارد؛ بنابراين کم کردن صوت مزاحم کافی است[3][5]. به بيان رياضي:
(3-20) |
که در آن،
(3-21) |
ضريب l برای جلوگيری از اعوجاج صحبت اضافه شده است. مقدار آن معمولاً 6/0 انتخاب ميشود[45].
3-5-2-4 تعيين کف طيفي[3]
روش ديگر کاهش نويز مانده، اجتناب از مؤلّفههای طيفی پردازش شده که زير يک آستانه معين قرار ميگيرند، ميباشد[55]. رابطة زير نحوة اين عمل را نشان ميدهد. اين رابطه بهجای عمل يکسوسازی مقادير منفی بکار ميرود.
(3-22) |
که در آن b پارامتر تعيين کف طيفی است و مقدار آن بين صفر و يک ميباشد. بکارگيری کف طيفی سبب ميشود با کم کردن خطای طيفي، درصد قلّهها و درّههای باريک طيفی به حدّاقل برسد. مؤلّفههای طيفی که زير مقدار قرار داشته باشند، حذف ميشوند. وقتی b>0 باشد، درّههای بين قلّهها به اندازة حالت b=0 عميق نيستند؛ بنابراين خطای طيف کمتر خواهد بود و بنابراين از مقدار نويز موزيکال کاسته خواهد شد. تفسير ديگر برای b اينست که وقتی b>0 باشد، مقدار قلّههای نويز باقيمانده با مؤلّفههای طيفی مجاور خود پوشش داده ميشوند. اين مؤلّفههای مجاور در واقع نويز پهن باند هستند که به واسطه تعيين کف طيفی ظاهر شدهاند. به ازای b<<1 نويز اضافه شده پهن باند نيز بسيار کمتر از تفريق طيفی ساده با يکسوسازی نيم موج (b=0) خواهد بود[55]. کف طيفی را کسری از طيف توان نويز اوّليه در نظر ميگيرند تا نويز پهن باند کاهش يابد؛ در اين صورت b را ميتوان ضريب تضعيف نويز ناميد. برای مثال با b=0.01 ،20 دسیبل تضعيف در نويز پهن باند بوجود ميآيد. مقادير مختلف a (فاکتور فوق تفريق) و b مصالحهای بين مقدار نويز پهن باند باقی مانده و سطح نويز موزيکال بوجود ميآورند. اين مورد در قسمت 3-5 بررسی شده است. شگرد ديگر برای پوشش دادن به نويز موزيکال اينست که مقدار کمی (مثلا حدود 5%) از طيف سيگنال نويزی اوّليه را به طيف بهبود يافته اضافه کرد[40]. اين عمل بهتر است پس از اعمال روشهای ديگر کاهش نويز موزيکال صورت گيرد تا نويز مانده نهايی بوسيله آن پوشيده شود.
3-5-2-5 کاهش اضافی سيگنال در بازههای سکوت
در طول بازههايی که سکوت تشخيص داده شده، بهتر است سطح سيگنال تضعيف گردد. اين عمل سبب تضعيف کيفی نويز ميگردد، از طرفی صفر کردن سيگنال در اين بازهها درست نيست؛ زيرا سبب تقويت کيفی نويز در طول بازههای صحبت ميگردد. بنابراين بهتر است تخمين طيف خروجی در اين بازهها ضريب تضعيفی داشته باشد. دليل آنرا ميتوان به اين صورت بيان کرد که از آنجا که نويز موجود در بازههای صحبت تا حدی با صحبت پوشش داده ميشود، مقدار باقيمانده آن بايد با مقداری نويز در طول بازههای سکوت متوازن شود[3][54].
[1] Smoothing Coefficient
[2] Mask
[3] Spectral Floor