اعوجاجهای ناشی از پردازش

مشکل اصلی در تفريق طيفی اعوجاج غيرخطی پردازش ناشی از تغييرات تصادفی طيف نويز مي‎باشد. از رابطة (3-10) و اين شرط که اندازة طيف بايد مقدار غيرمنفی داشته باشد، مي‎توان سه منبع اعوجاج ناشی از تخمين طيف اندازه يا توان تشخيص داد:

الف- تغييرات طيف توان لحظهای نويز نسبت به مقدار ميانگين

  • عبارات ضرب متقاطع[1] سيگنال و نويز
  • نگاشت غيرخطی تخمينهای طيف که زير آستانه معينی قرار مي‎گيرد.

غالباً صحبت و نويز محيطی با هم همبستگی ندارند و بنابراين مقدار عبارت ضرب متقاطع صفر است؛ بنابراين مورد (ب) اهميتی ندارد. معمولاً منبع اعوجاج غالب در اين سه نوع، مورد آخری مي‎باشد. اين اعوجاج يک نويز صوتی فلزي[2] توليد مي‎کند که به نام نويز موزيکال (که قبلاً اشاره شد) مشهور است. اين نويز از سيگنالهای باند باريكی كه دامنه و فركانس آنها با زمان تغيير مي‎كند، تشكيل شده است. موفقيّت الگوريتمهای تفريق طيفی به توانايی آنها در کاهش تغييرات نويز و برداشتن اعوجاج حاصل از پردازش بستگی دارد.

نويز باقيمانده در بدترين حالت که حالت معمول آن مي‎باشد، دو فرم زير را دارد:

  • يک درّه يا قلّه در طيف سيگنال
  • باندهای فرکانسی باريک مجزا از هم

اين درّه‌ها و قلّه‌ها اگر در مجاورت فرکانسهايی که دامنة بزرگ دارند قرار داشته باشند، غالباً بوسيله انرژی بالای سيگنال پوشيده[3] و نامحسوس مي‎شوند. علّت اصلی تنزل محسوس کيفيت صحبت، مؤلّفه‌های فرکانسی گسسته نويز هستند که در شکل (3-7) مشاهده مي‎شود.

[1] Cross-product Terms

[2] Metallic

[3] Mask

3-5-1  اثر تفريق طيفی روی توزيع سيگنال

شکل (3-8) اثر اعوجاج تفريق طيفی روی توزيع دامنة طيف سيگنال را نشان مي‌دهد. در اين شکل ما حالت ساده که در آن طيف سيگنال به دو بخش تقسيم شده را در نظر مي‎گيريم: يک باند فرکانسی پايين  و يک باند فرکانسی بالا. هر نقطه شکل (3-8) ترسيمی از طيف فرکانس بالا بر حسب طيف فرکانس پايين در فضای دو بعدی سيگنال مي‎باشد. شکل (a) توزيع مفروضی از نمونه‌های طيفی يک سيگنال در فضای دو بعدی اندازه- فرکانس را نشان مي‎دهد. همان طور که در شکل (b) نشان داده شده است، اثر نويز تصادفی افزايش ميانگين و واريانس طيف مي‌باشد. ميزان اين افزايش بستگی به ميانگين و واريانس طيف اندازة نويز دارد. افزايش ميانگين طيف اندازه را مي‎توان از طريق تفريق طيفی حذف کرد؛ ليکن افزايش در واريانس سبب اعوجاج غيرقابل برگشت مي‌گردد[8]. شکل (c) اثر اعوجاج تفريق طيفی روی توزيع طيف سيگنال را نشان مي‌دهد. همان طور که مي‌بينيم، به دليل افزايش واريانس طيف سيگنال در اثر نويز، پس از تفريق طيف متوسط نويز، يک نسبت از تجمع سيگنال بخصوص قسمتهايی که دارای SNR کم هستند منفی شده و بايد به مقادير غيرمنفی تبديل شوند. اين پروسه توزيع بخشی از طيف که دارای SNR پايين است را اعوجاج مي‌دهد.

شکل (3-8) اثر اعوجاج حاصل از تفريق طيفی در فضای طيف اندازة سيگنال[8]

3-5-2 کاهش نويز مانده

روشهای زيادی برای کاهش نويز مانده پيشنهاد شده اند که از جمله آنها مي‎توان به ميانگينگيری از سيگنال نويزي، استفاده از خاصيت تصادفی بودن قاب به قاب نويز مانده، فيلتر کردن به روش Soft-Decision [50]، اعمال محدوديتهای شکل شناختی روی طيف سيگنال[57] و … نام برد. در بخشهای زير برخی از روشهای کاهش نويز مانده مورد بررسی قرار مي‎گيرد.

3-5-2-1 متوسط گيری طيف

 از آنجا که خطای طيفی معادل است با اختلاف بين طيف نويز در هر قاب و متوسط طيف نويز تخمين زده شده؛ بنابراين برای کاهش مقدار آن مي‎توان از طيف سيگنال نويزی متوسط محلی گرفت. به بيان رياضی برای نويز سفيد با واريانس σn2 مي‌توان نشان داد که واريانس طيف توان نويز N(f) برابر است با

 (3-16)

و واريانس ميانگين هر k مؤلّفة طيفی مستقل، عبارتست از:

(3-17) blank

با توجّه به معادلة بالا مي‌بينيم که تغييرات نويز را مي‎توان با متوسط گيری زمانی از اجزاء فرکانسی سيگنال نويزی کاهش داد. محدوديت اساسی اين راهکار اينست که فرآيند متوسط گيری علاوه بر کاهش واريانس نويز، اثر نامطلوبی نيز روی تغييرات زمانی طيف سيگنال دارد؛ بنابراين در فرآيند متوسط گيری مصالحهای بين ميزان کاهش واريانس نويز و درجه تفکيک زمانی رخدادهای طيفی غير ايستان بايد صورت گيرد. اين مسئله مهمی است؛ زيرا درجه تفکيک زمانی نقش مهمی در کيفيت و فهم سيگنالهای صوتی بازی مي‌کند. در تفريق طيفی سيگنال نويزی y(m) به بلوکهای N نمونهای بخش بندی شده و هر بلوک با دستور DFT به بلوکهايی با N نمونه طيفی Y(f) تبديل مي‌شود. بلوکهای متوالی نمونه‌های طيفي، ماتريس دوبعدی زمان-فرکانسی را بوجود مي‌آورند که با Y(f,t) نشان داده مي‌شود. (t :انديس بلوکها که نمايشگر بعد زمانی است.) سيگنال Y(f,t) را مي‌توان حاصلجمع سيگنال متغير با زمان X(f,t) با نويز تصادفی N(f,t) در نظر گرفت. يک راه برای کاهش تغييرات نويز، فيلتر کردن پايين گذر طيف اندازه در هر فرکانس مي‌باشد. برای مثال يک فيلترينگ ساده از نوع پايين گذر بازگشتی از مرتبه يک با رابطة زير داده مي‌شود:

 (3-18) blank

که در آن ضريب هموار سازي[1] ρ ، پهنای باند و ثابت زمانی فيلتر پايين گذر را کنترل مي‌کند.

روش مشابه ديگری که در عمل کاربرد زيادی برای کاهش نويز موزيکال دارد، ميانگين‎گيری وزن‎دار  مي‌باشد[40]. اين فرآيند در اصل واريانس نويز را روی سيگنال صحبت نويزی کاهش مي‌دهد، از طرفی محتويات طيفی صحبت را نيز تقويت مي‌کند؛ بنابراين از تفريق مخرب جلوگيری مي‌کند. در اينجا هم، به واسطه ايستان بودن کوتاه مدت صحبت، تعداد قابهای همسايه برای ميانگين‎گيری محدود است. حالت کلّی عمل ميانگين‎گيری وزن‎دار به صورت رابطة زير است:

(3-19) blank

که در آن i انديس قاب و Wj ضرايب مورد استفاده برای وزن دهی قابها است. وقتی Wj=1 (به ازای هر j ) است، ميانگين‎گيری از نوع ساده آن مي‌شود و در غير اينصورت ميانگين‎گيری وزن‎دار خواهد بود[40].

3-5-2-2 فيلتر کردن اعوجاجهای ناشی از پردازش

سيگنالهای صوتی مانند صحبت و نويز، ترکيبی از رشته رخدادهای آکوستيکی غيرايستان هستند. رخدادهای آکوستيکی طول عمر متغيری دارند و با شدّتها و ترکيبهای فرکانسی مختلفی ظاهر شده و محو مي‌شوند. طبيعت متغير با زمان سيگنالهای صوتي، نقش مهمی در انتقال اطلاعات و کيفيت آن دارد. نويز موزيکال حاصل از تفريق طيفی نيز متغير با زمان است. ليکن تفاوتهای مهمی بين اغلب سيگنالهای صوتی و نويز موزيکال وجود دارد که اين وجه افتراق مي‌تواند در شناسايی و حذف برخی از مؤلّفه‌های اعوجاج که آشکارتر هستند، بکار گرفته شود. شناسايی نويز موزيکال ممکن است با بررسی تغييرات سيگنال در حوزه‌های زمان و فرکانس صورت گيرد. مشخّصه اصلی نويز موزيکال اينست که اين نويز شبيه انفجارهای تصادفی مجزا از هم با طول عمر نسبتاً کوتاه از سيگنالهای باند باريک که اندازه‌های نسبتاً کوچکی دارند مي‌باشد. برای مثال بررسی نشان مي‌دهد اگر طول بلوکها 128 نمونه و فرکانس نمونه برداری kHz20 باشد، اکثريت قريب به اتفاق مؤلّفه‌های نويز موزيکال بيش از سه قاب دوام ندارند. در حالی که مؤلّفه‌های سيگنال خالص دارای طول عمر بسيار بزرگتری هستند. اين موضوع پايه يک سيستم کارای حذف نويز موزيکال مي‌تواند باشد. شکل (3-9) روشی برای شناسايی نويز موزيکال ارائه مي‌دهد. هر مؤلّفة طيف حاصل از تبديل فوريه گسسته برای شناسايی رخدادهای فرکانسی با عمر کوتاه، بررسی مي‌شود. اگر يک مؤلّفة فرکانسی دارای طول عمر کمتر از پنجره زمانی از پيش تعيين شده باشد و اندازهای کمتر از يک ميزان آستانه داشته باشد و از طرفی با اجزای سيگنال در مؤلّفه‌های فرکانسی مجاور پوشيده[2] نشود، در اين صورت به عنوان اعوجاج شناخته شده و حذف مي‌گردد.

شکل (3-9) يک روش شناسايی و فيلتر کردن نويز موزيکال[8]

blank

3-5-2-3 استفاده از خاصيت تصادفی بودن قاب به قاب نويز مانده

  اين روش بر مبنای جانشينی مقدار قاب حاضر با مقدار مينيممی از قابهای مجاور مي‌باشد[3]. اگر برای برخی از مؤلّفه‌های فرکانس، اندازة طيف صحبت تخمينی در قاب mام کمتر از ماکزيمم نويز مانده باشد و اگر از قاب به قاب ديگر متفاوت باشد، در اينصورت اين احتمال وجود دارد که طيف صحبت در آن فرکانس ناشی از نويز باشد؛ بنابراين نويز مي‌تواند توسط گرفتن حدّاقل مقدار مابين قابهای مجاور قاب m، کاهش يابد. اگر طيف صحبت تخمينی در آن فرکانس کمتر از ماکزيمم نويز مانده بود و تقريباً بين قابهای همجوار ثابت بود، در اينصورت احتمال زيادی وجود دارد که طيف فرکانس صوتی با انرژی پايين را ارائه بدهد؛ بنابراين با گرفتن مينيمم محتوای اطلاعات تحت تأثير قرار نخواهد گرفت. از طرف ديگر اگر طيف صحبت تخمينی در آن فرکانس بيشتر از اندازة ماکزيمم نويز مانده بود، در اينصورت در آن محل طيف، صحبت وجود دارد؛ بنابراين کم کردن صوت مزاحم کافی است[3][5]. به بيان رياضي:

(3-20) blank

که در آن،

(3-21) blank

ضريب l برای جلوگيری از اعوجاج صحبت اضافه شده است. مقدار آن معمولاً 6/0 انتخاب مي‌شود[45].

3-5-2-4 تعيين کف طيفي[3]

روش ديگر کاهش نويز مانده، اجتناب از مؤلّفه‌های طيفی پردازش شده که زير يک آستانه معين قرار مي‌گيرند، مي‌باشد[55]. رابطة زير نحوة اين عمل را نشان مي‌دهد. اين رابطه به‎جای عمل يکسوسازی مقادير منفی بکار مي‌رود.

blank (3-22)

که در آن b پارامتر تعيين کف طيفی است و مقدار آن بين صفر و يک مي‌باشد. بکارگيری کف طيفی سبب مي‎شود با کم کردن خطای طيفي، درصد قلّه‌ها و درّه‌های باريک طيفی به حدّاقل برسد. مؤلّفه‌های طيفی که زير مقدار  قرار داشته باشند، حذف مي‌شوند. وقتی b>0 باشد، درّه‌های بين قلّه‌ها به اندازة حالت b=0 عميق نيستند؛ بنابراين خطای طيف کمتر خواهد بود و بنابراين از مقدار نويز موزيکال کاسته خواهد شد. تفسير ديگر برای b اينست که وقتی b>0 باشد، مقدار قلّه‌های نويز باقيمانده با مؤلّفه‌های طيفی مجاور خود پوشش داده مي‌شوند. اين مؤلّفه‌های مجاور در واقع نويز پهن باند هستند که به واسطه تعيين کف طيفی ظاهر شده‌اند. به ازای b<<1 نويز اضافه شده پهن باند نيز بسيار کمتر از تفريق طيفی ساده با يکسوسازی نيم موج (b=0) خواهد بود[55]. کف طيفی را کسری از طيف توان نويز اوّليه در نظر مي‎گيرند تا نويز پهن باند کاهش يابد؛ در اين صورت b را مي‎توان ضريب تضعيف نويز ناميد. برای مثال با b=0.01 ،20 دسیبل تضعيف در نويز پهن باند بوجود مي‌آيد. مقادير مختلف a (فاکتور فوق تفريق) و b مصالحهای بين مقدار نويز پهن باند باقی مانده و سطح نويز موزيکال بوجود مي‌آورند. اين مورد در قسمت 3-5 بررسی شده است. شگرد ديگر برای پوشش دادن به نويز موزيکال اينست که مقدار کمی (مثلا حدود 5%) از طيف سيگنال نويزی اوّليه را به طيف بهبود يافته اضافه کرد[40]. اين عمل بهتر است پس از اعمال روشهای ديگر کاهش نويز موزيکال صورت گيرد تا نويز مانده نهايی بوسيله آن پوشيده شود.

3-5-2-5 کاهش اضافی سيگنال در بازه‌های سکوت

در طول بازه‌هايی که سکوت تشخيص داده شده، بهتر است سطح سيگنال تضعيف گردد. اين عمل سبب تضعيف کيفی نويز مي‌گردد، از طرفی صفر کردن سيگنال در اين بازه‌ها درست نيست؛ زيرا سبب تقويت کيفی نويز در طول بازه‌های صحبت مي‌گردد. بنابراين بهتر است تخمين طيف خروجی در اين بازه‌ها ضريب تضعيفی داشته باشد. دليل آنرا مي‎توان به اين صورت بيان کرد که از آنجا که نويز موجود در بازه‌های صحبت تا حدی با صحبت پوشش داده مي‌شود، مقدار باقيمانده آن بايد با مقداری نويز در طول بازه‌های سکوت متوازن شود[3][54].

[1] Smoothing Coefficient

[2] Mask

[3] Spectral Floor

 

 

 

لینک دانلود فایل کامل

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *