در ارزيابی الگوريتمهای بهبود صحبت لازم است که شباهتها و تفاوتهای کيفيت صحبت و ميزان فهم آن قابل اندازهگيری و تشخيص باشد. کيفيت صحبت شاخصی است برای “طبيعی بودن” سيگنال صحبت پردازش شده. قابليت فهم سيگنال صحبت، در واقع ميزان اطلاعات گفتاری موجود در سيگنال که حامل پيام گوينده است را نشان ميدهد.
كيفيت سيگنال معياری است قابل محاسبه[1] از ميزان مطبوعيت صوتی سيگنال پاكسازی شده برای شنونده. قابليت فهم[2] از سوی ديگر، معياری است کيفي[3] از ميزان اطلاعاتی كه شنونده ميتواند از گفتار استخراج كند؛ چه گفتار نويزی باشد و چه خالص. ممكن است سيگنال از كيفيت خوبی برخوردار باشد ولی قابليت فهم آن پايين باشد. سيستمهای پاكسازی گفتار معمولاً كيفيت سيگنال را بالا ميبرند، ولی تا حدی از قابليت فهم آن ميكاهند[38].
هنوز رابطة بين کيفيت صحبت پردازش شده و قابليت فهم آن بهخوبی شناخته نشده است. ليکن مشخّص شده که صحبت غير قابل درک نميتواند کيفيت بالايی داشته باشد؛ ولی عکس آن درست نيست. برای يک شنونده مهم است که سيگنال قابل فهم باشد، حتی اگر به قيمت تنزل در کيفيت صحبت باشد. تستهای ارزيابی کارايی به دو صورت هستند: يکی تستهای محاسباتی کيفيت و دوّم تستهای کيفی آن. اندازه گيريهای کيفی نميتواند بهبود اندک در قابليت فهم صحبت را نشان دهد؛ چرا که به تفاوت “بزرگي” در کيفيت دو صحبت پردازش شده خروجی نياز است تا شنونده بتواند به اختلاف آن دو پی ببرد؛ بنابراين با تغيير پارامترهای يک الگوريتم نميتوان از راه حسی به بهبود فهم يا بدتر شدن آن پی برد. از طرف ديگر معيارهای محاسباتی بسادگی قابل تحقق بوده و با اطمينان بالايی ميتوان به کرات از آن برای تست صحبتهای مختلف پردازش شده استفاده کرد. اندازه گيريهای محاسباتی مبتنی بر مقايسه رياضی وار سيگنالهای صحبت اوّليه و پردازش شده ميباشند. اکثر اندازه گيريهای محاسباتی کيفيت، کيفيت صحبت را بر حسب يک معيار عددی فاصله و يا يک مدل کيفی کيفيت صحبت که از روی سيستم شنوايی انسان بدست آمده است، ارزيابی ميکنند. مطلوب اينست که اندازه گيريهای محاسباتی با قوه تمييز کيفی انسان از صحبت مطابقت داشته باشند. ليکن آزمايشها نشان داده است که نتايج حاصل شده از اندازه گيريهای محاسباتی با نتايج اندازه گيريهای کيفی همبستگی چندانی ندارند. از متداولترين معيارهای ارزيابی صحبت ميتوان به معيار SNR ، معيار ايتاکورا-سايتو[4] (IS)، اسپکتروگرام صحبت و ارزيابی کيفی صحبت اشاره کرد که در زير توصيف ميشوند:
- نسبت سيگنال به نويز (SNR)
SNR معيار رايج در اندازهگيری کيفيت صحبت ميباشد. SNR نسبت توان سيگنال به توان نويز در مقياس دسيبل ميباشد و به صورت زير محاسبه ميشود[40-39]:
|
که در آن S(n) سيگنال صحبت خالص و سيگنال صحبت بهبود يافته ميباشد. اگر عمل جمع ∑ روی کل سيگنال انجام شود، اين رابطه SNR سراسري[5] را ميدهد. معيار ديگر اينست که جمع ∑ را روی بازههای کوچکتری صحبت و يا روی قابها اعمال کرده و نهايتاً از تمام نتايج حاصله ميانگين گرفت. به اين روش SNR قطعهاي[6] ميگويند. در محاسبه SNR با روش اوّل (SNR سراسري) مقادير کوچک SNR محلی تأثير چندانی روی SNR کل ندارند. اين مقادير کوچک در صحبت با دامنههای پايين ايجاد ميشود و در نتيجه اثر آنها در نظر گرفته نميشود. ولی در روش محاسبه SNR قطعهای اين مقادير بهتر منعکس ميگردند.
ثابت شده است که SNR قطعهای نسبت به SNR سراسری همبستگی بيشتری با نتايج کيفی دارد[39].
- معيار فاصله ايتاکورا- سايتو[7] (IS)
اين معيار بر مبنای اختلاف و شباهت بين مدل تمام قطب سيگنال خالص و سيگنال نويزی يا پردازش شده ميباشد. اين روش به هر نوع عدم تطبيق در موقعيت فرمنتها در دو صحبت خالص و نويزی يا پردازش شده، حساس بوده و نسبت به خطا در موقعيت درّههای طيفی حساسيت چندانی ندارد. اين رفتار، مطلوب است؛ زيرا سيستم شنوايی به خطا در محل فرمنتها و پهنای باند حساستر است تا به درّههای بين قلّههای طيفي.
اين معيار با رابطة زير محاسبه ميشود[40]:
(2-2) |
که در آن و بترتيب بهرههای تمام قطب بخشهای صحبت بهبود يافته و صحبت خالص هستند. و بترتيب بردارهای ضرايب پيشگويی خطی بخشهای صحبت بهبود يافته و صحبت خالص ميباشند. و نيز بترتيب ماتريسهای خودهمبستگی بخشهاي[8] صحبت بهبود يافته و صحبت خالص ميباشند. اين روش همبستگی 59% با اندازه گيريهای کيفی دارد[39]. محدوده عددی معيار IS معمولاً بين 0 تا 10 است و هر چه مقدار حاصل شده کمتر باشد، مبين فاصله کمتر و کيفيت صحبت بهتر خواهد بود.
- اسپکتروگرام سيگنال
سومين ابزار متداول در اندازهگيری کيفيت صحبت، اسپکتروگرام صحبت ميباشد[41]. اسپکتروگرام در واقع نمودار زمان – فرکانسی طيف کوتاه مدت سيگنال را نشان ميدهد. اندازه گيريهای محاسباتی نميتوانند در مورد ساختار نويز مانده اطلاعاتی به ما بدهند. اسپکتروگرامهای صحبت ابزاری بسيار مناسب برای مشاهده اين ساختار ميباشند.
- ارزيابی کيفي[9]
ارزيابی کيفی با مقايسه بين سيگنال اصلی و پردازش شده از طريق گوش دادن افراد و امتياز بندی بر اساس رتبههای از قبل تعيين شده انجام ميشود.
[1] Objective
[2] Intelligibility
[3] Subjective
[4] Itakura-Saito
[5] Global SNR
[6] Segmental SNR
[7] Itakura-Saito
[8] Segments
[9] Subjective