روش ارزيابی ميزان بهبود صحبت

در ارزيابی الگوريتمهای بهبود صحبت لازم است که شباهتها و تفاوتهای کيفيت صحبت و ميزان فهم آن قابل اندازهگيری و تشخيص باشد. کيفيت صحبت شاخصی است برای “طبيعی بودن” سيگنال صحبت پردازش شده. قابليت فهم سيگنال صحبت، در واقع ميزان اطلاعات گفتاری موجود در سيگنال که حامل پيام گوينده است را نشان مي‎دهد.

كيفيت سيگنال معياری است قابل محاسبه[1] از ميزان مطبوعيت صوتی سيگنال پاكسازی شده برای شنونده.   قابليت فهم[2] از سوی ديگر، معياری است کيفي[3]  از ميزان اطلاعاتی كه شنونده مي‎تواند از گفتار استخراج كند؛ چه گفتار نويزی باشد و چه خالص. ممكن است سيگنال از كيفيت خوبی برخوردار باشد ولی قابليت فهم آن پايين باشد. سيستمهای پاكسازی گفتار معمولاً كيفيت سيگنال را بالا مي‎برند، ولی تا حدی از قابليت فهم آن مي‎كاهند[38].

هنوز رابطة بين کيفيت صحبت پردازش شده و قابليت فهم آن بهخوبی شناخته نشده است. ليکن مشخّص شده که صحبت غير قابل درک نمي‎تواند کيفيت بالايی داشته باشد؛ ولی عکس آن درست نيست. برای يک شنونده مهم است که سيگنال قابل فهم باشد، حتی اگر به قيمت تنزل در کيفيت صحبت باشد. تستهای ارزيابی کارايی به دو صورت هستند: يکی تستهای محاسباتی کيفيت و دوّم تستهای کيفی آن. اندازه گيريهای کيفی نمي‎تواند بهبود اندک در قابليت فهم صحبت را نشان دهد؛ چرا که به تفاوت “بزرگي” در کيفيت دو صحبت پردازش شده خروجی نياز است تا شنونده بتواند به اختلاف آن دو پی ببرد؛ بنابراين با تغيير پارامترهای يک الگوريتم نمي‎توان از راه حسی به بهبود فهم يا بدتر شدن آن پی برد. از طرف ديگر معيارهای محاسباتی بسادگی قابل تحقق بوده و با اطمينان بالايی مي‎توان به کرات از آن برای تست صحبتهای مختلف پردازش شده استفاده کرد. اندازه گيريهای محاسباتی مبتنی بر مقايسه رياضی وار سيگنالهای صحبت اوّليه و پردازش شده مي‎باشند. اکثر اندازه گيريهای محاسباتی کيفيت، کيفيت صحبت را بر حسب يک معيار عددی فاصله و يا يک مدل کيفی کيفيت صحبت که از روی سيستم شنوايی انسان بدست آمده است، ارزيابی مي‎کنند. مطلوب اينست که اندازه گيريهای محاسباتی با قوه تمييز کيفی انسان از صحبت مطابقت داشته باشند. ليکن آزمايشها نشان داده است که نتايج حاصل شده از اندازه گيريهای محاسباتی با نتايج اندازه گيريهای کيفی همبستگی چندانی ندارند. از متداولترين معيارهای ارزيابی صحبت مي‎توان به معيار SNR ، معيار ايتاکورا-سايتو[4] (IS)، اسپکتروگرام صحبت و ارزيابی کيفی صحبت اشاره کرد که در زير توصيف مي‎شوند:

 

  • نسبت سيگنال به نويز (SNR)

SNR معيار رايج در اندازهگيری کيفيت صحبت مي‎باشد. SNR نسبت توان سيگنال به توان نويز در مقياس دسي‎بل مي‎باشد و به صورت زير محاسبه مي‎شود[40-39]:

(2-1)

 

 

که در آن S(n) سيگنال صحبت خالص و  سيگنال صحبت بهبود يافته مي‎باشد. اگر عمل جمع ∑ روی کل سيگنال انجام شود، اين رابطه SNR سراسري[5] را مي‎دهد. معيار ديگر اينست که جمع ∑ را روی بازه‌های کوچکتری صحبت و يا روی قابها اعمال کرده و نهايتاً از تمام نتايج حاصله ميانگين گرفت. به اين روش SNR قطعهاي[6] مي‎گويند. در محاسبه SNR با روش اوّل (SNR سراسري) مقادير کوچک SNR محلی تأثير چندانی روی SNR کل ندارند. اين مقادير کوچک در صحبت با دامنه‌های پايين ايجاد مي‎شود و در نتيجه اثر آنها در نظر گرفته نمي‎شود. ولی در روش محاسبه SNR قطعهای اين مقادير بهتر منعکس مي‎گردند.

 ثابت شده است که SNR قطعهای نسبت به SNR سراسری همبستگی بيشتری با نتايج کيفی دارد[39].

 

 

  • معيار فاصله ايتاکورا- سايتو[7] (IS)

اين معيار بر مبنای اختلاف و شباهت بين مدل تمام قطب سيگنال خالص و سيگنال نويزی يا پردازش شده مي‎باشد. اين روش به هر نوع عدم تطبيق در موقعيت فرمنتها در دو صحبت خالص و نويزی يا پردازش شده، حساس بوده و نسبت به خطا در موقعيت درّه‌های طيفی حساسيت چندانی ندارد. اين رفتار، مطلوب است؛ زيرا سيستم شنوايی به خطا در محل فرمنتها و پهنای باند حساستر است تا به درّه‌های بين قلّه‌های طيفي.

 اين معيار با رابطة زير محاسبه مي‎شود[40]:

(2-2)

که در آن  و  بترتيب بهره‌های تمام قطب بخشهای صحبت بهبود يافته و صحبت خالص هستند. و  بترتيب بردارهای ضرايب پيشگويی خطی بخشهای صحبت بهبود يافته و صحبت خالص مي‎باشند.  و  نيز بترتيب ماتريسهای خودهمبستگی بخشهاي[8] صحبت بهبود يافته و صحبت خالص مي‎باشند. اين روش همبستگی 59% با اندازه گيريهای کيفی دارد[39]. محدوده عددی معيار IS معمولاً بين 0 تا 10 است و هر چه مقدار حاصل شده کمتر باشد، مبين فاصله کمتر و کيفيت صحبت بهتر خواهد بود.

  • اسپکتروگرام سيگنال

سومين ابزار متداول در اندازهگيری کيفيت صحبت، اسپکتروگرام صحبت مي‌باشد[41]. اسپکتروگرام در واقع نمودار زمان – فرکانسی طيف کوتاه مدت سيگنال را نشان مي‎دهد. اندازه گيريهای محاسباتی نمي‎توانند در مورد ساختار نويز مانده اطلاعاتی به ما بدهند. اسپکتروگرامهای صحبت ابزاری بسيار مناسب برای مشاهده اين ساختار مي‎باشند.

 

  • ارزيابی کيفي[9]

ارزيابی کيفی با مقايسه بين سيگنال اصلی و پردازش شده از طريق گوش دادن افراد و امتياز بندی بر اساس رتبه‌های از قبل تعيين شده انجام مي‎شود.

[1] Objective

[2] Intelligibility

[3] Subjective

[4] Itakura-Saito

[5] Global SNR

[6] Segmental SNR

[7] Itakura-Saito

[8] Segments

[9] Subjective

 

 

 

لینک دانلود فایل کامل

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *