استخراج ویژگی تشخیص گفتار از غیرگفتار

یکی از نکات مهم در پیاده سازی VADها، انتخاب ویژگی و یا ویژگی هایی است که بتوان به کمک آنها به تمایز دو ناحیه سکوت وگفتار پرداخت. در این مرحله پارامترهای مورد نیاز از فریم مربوطه استخراج می شوند. عموما پارامترهایی انتخاب می شوند که فاکتور خوبی برای تمایز[1] نواحی سکوت و غیر سکوت از هم باشند. از یک دیدگاه میتوان ویژگی های سیگنال گفتار را به دو دسته زیر تقسیم نمود:

1-ویژگی هایی که با مفاهیم سطح بالایی مانند: گویش(لهجه)، بستر سخن، شیوه ی صحبت کردن فرد خاص و مواردی مانند شرایط احساسی گوینده سرو کار دارند.

2-ویژگی هایی که با مفاهیم سطح پایینی مانند: فرکانس گام[2] (فرکانس پایه ای که تحت آن ارتعاش تارهای صوتی انجام می شود.) شدت صوت، فرکانس های مشتق[3]، خود همبستگی[4] طیفی سرو کار دارند. در حالت کلی این ویژگی ها با تحلیل طیف سیگنال در بازه های کوتاه زمانی بدست می آیند.[79] شمای کلی سیستم استخراج ویژگی در شکل (2-3) نشان داده شده است.

شکل (2-3): شمای کلی سیستم استخراج ویژگی [79]

در ادامه تعدادی از این ویژگی ها شرح داده شده اند.

2-2-2-1-انرژی

انرژی فریم یکی از ساده ترین و قدیمی ترین پارامترهایی است که به تنهایی و یا در کنار پارامترهای دیگر، مورد استفاده قرار گرفته است.[18-21] این پارامتر در[5] SNRهای پایین، بدلیل بالا بودن انرژی نویز نسبت به انرژی سیگنال در نواحی رخداد اصوات با انرژی پایین، به تنهایی عملکرد بالایی ندارد. در [18] با بررسی طولانی مدت انرژی فریم جاری و محاسبه SNR فریم، عملیات تشخیص انجام شده است. در [61] با محاسبه ، که x: انرژی فریم، µ: میانگین انرژی نویز و : واریانس نویز می باشند و استفاده از یک ماشین حالت محدود در جهت تصحیح خروجی VAD، ماهیت فریم ها مشخص شده است. در [22] در ابتدا با یک روش VE[6]مناسب، سیگنال گفتار از نویز جداسازی می شود و سپس با کمک یک الگوریتم VAD مبتنی بر انرژی عملیات جداسازی انجام می شود.

2-2-2-2-نرخ عبور از صفر[7]  

این پارامتر از طریق رابطه (2-1) محاسبه می گردد.

(2-1)  

که در آن k اندازه پنجره وsgn()  تابع علامت  معمولی می باشد. استفاده از ZCR در شرایطی که انرژی پایین باشد، بسیار کمک کننده خواهد بود. بطور معمول این پارامتر در سیگنال گفتار، در یک رنج بخصوصی می باشد و در فریم های حاوی نویز این عدد تصادفی و اتفاقی خواهد بود. در اکثر الگوریتمهای VAD از پارامترهای انرژی و ZCR در کنار یکدیگر به همراه پارامترهای دیگر استفاده می شود.[27-21]

2-2-2-3-استخراج ویژگی به کمک ضرایب کپسترال[8] فرکانسی در مقیاس مل(MFCC)[9]

منظور از ضرایب کپسترال، ضرایب کپسترال حقیقی می باشد. مطالعه روی نحوه شنیدن انسان و مدل گوش، نشان می دهد که درک انسان از محتوای فرکانسی، از یک مقیاس خطی پیروی نمی کند. برای شبیه سازی رفتار غیرخطی گوش در مقابل فرکانس ها از فیلتربانک استفاده می کنیم. در شکل (2ـ4 ) مراحل استخراج این ضرایب نشان داده شده است. در این سیستم ورودی سیگنال گفتار و خروجی بردارهای ویژگی (بردار ضرایب متناسب با آن گفتار) است. در ادامه توضیح مختصری از مراحل انجام کار داده می شود.[78]

شکل(2-4): مراحل استخراج ویژگی با روش MFCC

1)فیلتر پیش تاکید: فیلتری بالاگذر که روی کل سیگنال اعمال می شود، تا اثرات طیفی نامطلوب مانند تغییرات ناگهانی موجود در سیگنال که در اثر نویزهای لحظه ای شدید به وجود می آید را حذف نماید و باعث یکنواخت شدن سیگنال می گردد. رابطه این فیلتر در حوزه زمان و در حوزه فرکانس بصورت روابط (2-4) و (2-5) می باشد.

(2-4)  
(2-5)  

  : ضریب پیش تاکید است (معمولا ) در کارهای پردازش گفتار نزدیک به1 انتخاب می شود.

2)قاب بندی، پنجره گذاری و همپوشانی: ابتدا سیگنال را به قطعه های کوچکتر که آنرا قاب می نامند، تقسیم و ویژگی ها از هر قاب استخراج می شود. هر فریم یک بردار ویژگی را نتیجه می دهد. معمولا طول هر قاب بین 10 تا 50 میلی ثانیه  است و قاب ها با هم همپوشانی دارند. میزان همپوشانی بین آنها متفاوت (معمولا 25 تا 75 درصد طول قاب) انتخاب می شود. اگر طول قاب ها کوچکتر انتخاب شود، تعداد بردارهای ویژگی بیشتر و حجم محاسبات بالاتر می رود. و با افزایش طول قاب، تعداد بردارهای ویژگی و حجم محاسبات کمتر می شود ولی فرض ایستان بودن سیگنال در طول قاب خدشه دار می شود و اطلاعات کمتری از سیگنال استخراج می شود. قاب های بدست آمده، در یک پنجره که با w(n)  نشان داده می شود، ضرب می شود. تا اثر ناپیوستگی سیگنال در ابتدا و انتهای هر قاب کم شود و تداخلی بین قاب ها در حوزه فرکانسی پیش نیاید. از انواع پنجره، مستطیلی، همینگ، هنینگ، … وجود دارند. همینگ و هنینگ متداول تر هستند. که با رابطه های زیر نشان داده می شوند.[78]

(2-6)  
(2-7)  

اعمال پنجره به سیگنال مطابق رابطه زیر خواهد بود.

(2-8)  

3)محاسبه طیف و بانک فیلتر در مقیاس مل: برای داشتن محاسبات راحت تر و سریعتر، با استفاده از تبدیل فوریه، سیگنال گفتار به حوزه فرکانسی برده می شود. تخمین طیف با استفاده از تبدیل فوریه سریع[10] انجام می- شود. چون گوش انسان در درک فرکانس های صوتی، با آن فرکانس رابطه خطی ندارد، ایده اعمال یک تبدیل غیرخطی به اسم مقیاس مل[11] روی طیف گفتار انجام می شود تا حساسیت گوش انسان را نسبت به حوزه های مختلف فرکانس مدل کند، یعنی مقیاس مل بیان می کند که گوش انسان به اطلاعات حوزه پایین ارزش بیشتری می دهد. به این ترتیب که برای فرکانس های کمتر از 1KHZ خطی است و برای فرکانس های بالاتر لگاریتمی عمل می کند. مقیاس مل با رابطه زیر تعریف می شود:

(2-9)  

در این رابطه فرکانس Fبه  تبدیل می شود. سپس تعدادی فیلتر میان گذر هم اندازه با همپوشانی های یکسان روی طیف اعمال می شود و انرژی هر فیلتر را به عنوان یک ویژگی محاسبه می کنند.[63] شکل (2-5) این فیلتر را نمایش می دهد. انجام این کار قاب اولیه سیگنال را از تعداد چند صد تایی نمونه ها، به 20 تا 30 ویژگی (معمولا برابر با تعداد فیلترهاNf  ) کاهش می دهد. ویژگی هایی که با حذف اطلاعات اضافی، بسیاری از اطلاعات مفید سیگنال را نیز دارد.

شکل (2-5 ): اعمال بانک فیلتر مقیاس مل و محاسبه انرژی در هر زیر باند[16]

4)اعمال لگاریتم و تبدیل کسینوسی گسسته: با استفاده از رابطه (2-10) به منظور تعدیل دامنه ویژگی ها و بهبود ویژگی ها تبدیل غیر خطی زیر اعمال می شود.

(2-10)  

Fi فیلتر iام و E(i) لگاریتم انرژی در باند iام می باشد.

مرحله نهایی در MFCC استفاده از تبدیل کسینوسی گسسته[12] روی ویژگی های بدست آمده جهت برگرداندن ویژگی ها به حوزه زمان و تقریب معکوس  FFT است که با رابطه (2-11) انجام می شود. مزیت عمده این کار کاهش تعداد ویژگی ها ((Nc  نسبت به تعداد فیلترها Nf)) است. ( ) بعلاوه انجام این کار مستقل کردن ویژگی های بدست آمده و غیر همبسته کردن آنها را بدنبال خواهد داشت که منجر به قطری شدن ماتریس کواریانس ویژگی ها می شود.

(2-11)  

خروجی این تبدیل را ضرایب کپستروم[13] می نامند. این ضرایب غیر همبسته ترند و مولفه های پایین آن نشان دهنده اطلاعات مهم تر است. در مقابل مولفه های بالاتر دارای میزان اطلاعات کمتری در بازشناسی گفتار است تنها اطلاعات جزیی طیف و فرکانس را دارد که حذف آنها حتی میتواند در بهبود دقت سیستم موثر باشد.

5)محاسبه مشتقات ضرایب کپسترال: ضرایب استخراج شده از هر فریم فقط شامل اطلاعات استاتیک فریم است و این باعث می شود تا اثر فریم های مجاور در نظر گرفته نشود و بدلیل غیرایستان بودن سیگنال گفتار لازم است که بردار ویژگی هر فریم تغییرات ویژگی طیفی سیگنال را بازگو نماید.[63و62] بردار ویژگی هر فریم شامل مشتقات زمانی ضرایب استخراجی نیز می باشد. مشتقات زمانی هر فریم را میتوان با استفاده از دو روش بنام رگرسیون خطی[62] و روش تفاضل[63] که نسبت به روش قبلی ساده تر میباشد بدست آورد.]78]

2-2-2-4-ضرایب LPC[14]

ضرایب LPC از دیگر پارامترهایی است که میتوان از داخل هر فریم گفتار آنها را استخراج نمود. ضرایب LPC برای فریم iام  بصورت برداری ai =(ai (0),ai (1),…,ai (p)) نشان داده می شود. (p درجه LPC  میباشد.) این ضرایب بیشتر در کد نمودن اطلاعات با توجه به چگونگی ایجاد صوت در انسان به کمک یک فیلتر تمام قطب مورد استفاده قرار می گیرد. ایده استفاده از این بردار ویژگی در VAD ها بدین گونه است که سیگنال گفتار را به سه دسته صدادار[15]، بی صدا و سکوت (ناحیه نویزی فاقد گفتار) تقسیم می کنند. سپس بطور میانگین برای هر دسته یک سری ضرایب LPC از درجه P  استخراج می شود. حال با ورود یک فریم مشکوک، پس از بدست آوردن ضرایب LPC فریم مزبور، فاصله این بردار از تک تک بردارهای متناظر با سه دسته فوق را بدست می- آورند. چگونگی بدست آوردن فاصله مزبور از راه های مختلف امکان پذیر می باشد. در [48] از محاسبه فاصله به روش Itakura استفاده شده است. در نهایت با بررسی فاصله بردار فریم مزبور با هر دسته، نزدیکترین دسته انتخاب می شود. در [41] از جمع مربع های ضرایب LPC، بعنوان یک ویژگی استفاده شده است.   

2-2-2-5-آنتروپی[16]

استفاده از پارامتر انرژی در SNRهای پایین به دلیل بالا بودن انرژی نویز و پایین بودن انرژی برخی واج ها، کار VAD را دچار مشکل می کند. نواحی مربوط به گفتار در سیگنال گفتار، منظم تر[17] از نواحی مربوط به نویز می-باشد. برای بررسی نظم در مجموعه ها طبق قانون شانون[18] توسط رابطه (2-12) که برای بدست آوردن تعداد بیت های مورد نیاز به ازاء هر سمبل است،  میتوان عمل نمود.

(2-12)  

که در آن S=[s(1),s(2), … ,s(N)] و N تعداد سمبل ها، P(s(i)) احتمال رخداد سمبل s(i) می باشد. همانند رابطه (2-12)، به کمک رابطه (2-13) میتوان نظم را در طیف فرکانسی سیگنال بررسی نمود.

(2-13)  
(2-14)  
     

احتمال رخداد باند فرکانسی  در فریم t ام می باشد. بیشترین مقدار بی نظمی در صورت رخداد نویزی کاملا تصادفی (نویز سفید) و در صورت رخداد یک تن خالص معادل صفر خواهد بود. میتوان با درنظر گرفتن قاب های ابتدایی بعنوان سکوت، مقدار آستانه ای برای بی نظمی بدست آورد و در نهایت با بدست آوردن این پارامتر در قاب جاری و مقایسه آن با مقدار آستانه، تشخیص را انجام داد.[31] این روش در صورت وجود نویز رنگی و سایر نویزهای منظم، کارایی ندارد. در صورت وجود این نوع نویزها، قبل از محاسبه آنتروپی، عملیات سفیدسازی نویز انجام می شود. برای انجام این کار توسط رابطه (2-15) سیگنال از یک فیلتر سفیدکننده عبور داده می شود.

(2-15)  

در [32] نیز بهبودهایی بر روش های معمول مبتنی بر آنتروپی انجام شده است. مثلا برای بررسی آنتروپی باند فرکانسی 6000-250 هرتز، برای محاسبه، در نظر گرفته شده است و یا برای کم کردن اثر نویزهایی که در همه نقاط فرکانسی مولفه دارند (نویز سفید) و یا نویزهایی که در برخی زیرباندها به شدت مولفه دارند از رابطه (2-16) برای بهبود استفاده شده است.

(2-16)  

در [32] محاسبه آنتروپی از روی وزن گذاری بر روی باندها انجام می شود. در همین مرجع، در نهایت بر روی اعداد آنتروپی بدست آمده، بر روی فریم های متوالی مجاور، فیلتر میانه ای اعمال شده است. در [33] با همین ایده آنتروپی پارامتر دیگری بنام LEC[19]   در جهت تشخیص از روی رابطه (2-17) تعریف شده است.

(2-17)  

که در آن E2,E1,E به ترتیب آنتروپی فریم جاری، آنتروپی فریم بعدی و آنتروپی فریم قبلی می باشد، نشان داده شده در صورتیکه LEC>0 فریم غیرایستان می باشد. در حقیقت فریم غیرایستان نشان دهنده گذار و فریم ایستان نشان دهنده حالت پایداری می باشد. میتوان با بررسی حالت LEC در سیگنال و حداقل طول دوره گفتار و سکوت، نواحی ایستان گفتار را تشخیص داد.

2-2-2-6- اندازه متناوب بودن[20]

این پارامتر یکی از پارامترهای رایج دیگری است که در VAD ها مورد استفاده قرار می گیرد. میتوان سیگنال گفتار را از لحاظ چگونگی ایجاد به سه دسته صدادار، بی صدا و سکوت تقسیم نمود. واج های صدادار به دلیل تحریک شدن و ارتعاش تارهای صوتی، دارای ماهیت تناوبی می باشند. از این نکته در تشخیص نواحی صدادار در سیگنال گفتار استفاده می شود. اما استفاده از این پارامتر در VAD کار تشخیص را در نواحی رخداد واج- های بی صدا کمی سخت می کند. نحوه محاسبه این پارامتر بطور خلاصه در زیر آمده است.[34] فرض می- کنیم که  s(i) = so(i) + n(i)و در آن so(i)، قسمت متناوب و n(i) قسمت نامتناوب سیگنال s(i) باشد بطوری که  so(i)= so(i+kpo)  و po تناوب so(i) در طول قاب باشد. فرض می کنیم که از روی s(i) یک تخمین از po یعنی  را بدست بیاوریم. برای این کار  و یا  را که تخمینی از so(i) است را بصورت رابطه (2-18) می نویسیم.

(2-18)  

که در آن Pmin و Pmax حداقل و حداکثر تعداد نمونه ها در تناوب گام، )] ko = [( ، تعداد تناوب های   در قاب جاری باشد. هدف در اینجا بدست آوردن  است که با آن خطای مابین  و S(i) حداقل شود. برای محاسبه پارامتری که بتواند ما را در این کار کمک کند، فریدمن از رابطه (2-19) ،  را محاسبه کرده است.

(2-19)  

که   و از رابطه های (2-20) و (2-21) بدست می آیند.

(2-20)  
(2-21)  

برای هر قاب  به ازاء  محاسبه می شود. ماکزیمم مقدار  در حقیقت میزان قابلیت متناوب بودن قاب جاری می باشد. در حقیقت LSPE[21]، محاسبه مقدار قابلیت متناوب بودن در سیگنال می باشد. مقداری که برای یک قاب حاوی نویز سفید از این طریق بدست می آید حدود 0.5 است. به همین دلیل مقدار بدست آمده را از 0.5 کم می کنند و در صورت منفی شدن، صفر را برای این مقدار اتخاذ می نمایند. بعد از هموار کردن مقدار بدست آمده در طول چند قاب (فیلتر میانه) و مقایسه تک تک مقادیر با یک مقدار آستانه، ماهیت قاب مشخص می شود. یکی از نکات مهم در محاسبه و بدست آوردن این پارامتر و بررسی آن، روش پیش پردازشی است که در [34] به آن اشاره شده است. در این فاز (پیش پردازش)، تن ها و برخی فرکانس های تداخلی بدلیل امکان ایجاد مشکل، حذف می گردند. این کار با بررسی فرکانس های هارمونیک گام و بررسی مولفه های فرکانسی در طول چند قاب قابل بررسی می باشد. این پارامتر به تنهایی در [34] و در جهت کمک به پارامترهای دیگر در پیاده سازی در [25]،[36و35] مورد استفاده قرار گرفته است. از پارامترهای دیگر وابسته به میزان متناوب بودن، اندازه پارامتر اختلاف پریود گام است که در [30] به آن اشاره شده و از طریق رابطه (2-22) قابل محاسبه می باشد.

(2-22)  

در این رابطه r بین 20 و 160 می باشد. مساله تناوبی بودن قاب گفتار، در [27] نیز به گونه ای در بررسی قابلیت اطمینان عملکرد VAD مورد استفاده قرار گرفته است.

2-2-2-7- اطلاعات زیر باند

یکی دیگر از روش هایی که در VADها مورد استفاده قرار می گیرد، بررسی انرژی فریم در زیرباندهای مختلف می باشد. برخی VADها مانند [42] به سادگی، با محاسبه انرژی در هر زیرباند و سپس محاسبه SNR در زیر باند مربوطه و در نهایت محاسبه SNR فریم و مقایسه آن با مقدار آستانه، ماهیت فریم را مشخص می کنند. در برخی VADها نظیر [43] از اطلاعات زیرباند برای تعیین صداداربودن، بی صدا بودن و یا سکوت بودن قاب به طریق زیر استفاده می کنند. برای تشخیص اینکه فریم موردنظر صدادار است، ابتدا سیگنال را از یک دسته فیلتر میان گذر گوسی، با مرکز فرکانس هایی که مضاربی از فرکانس گام می باشد، عبور می دهد. انرژی حاصله (Ef) محاسبه و با کمک انرژی کل (E)، عدد ρ از رابطه ρ= E / (E-Ef) محاسبه می شود. بالا بودن ρ نشان دهنده صدا دار بودن سیگنال می باشد. در این مرجع برای شناسایی سیگنال بی صدا هم از رابطه γ=Eh / El  که Eh، انرژی در باند بالا و El، انرژی در باند پایین می باشد استفاده می شود. در نهایت به کمک γ وρ ، VAD کارش را انجام می دهد. یکی از روش های تصمیم گیری در VADها استفاده از آزمایش مربع کای[22]می باشد.[81] این روش نیز بر اساس اطلاعات زیر باند قاب می باشد. از این آزمایش در دو قسمت، یکی در تخمین طیف نویز در جهت بهسازی از روش EM[23] که نوعی تفریق طیفی است و دیگری در قسمت تشخیص استفاده می شود. برای انجام عمل آزمایش، ابتدا با کمک بردار مشاهدات (فریم جاری) و بردار مقادیر موردانتظار (طیف تخمینی نویز) عدد مربع شای بدست می آید، عدد بدست آمده با مقدار آستانه مقایسه و عملیات تشخیص انجام می شود.

2-2-2- 8-سایر پارامترها

بردار واریانس خودهمبستگی[24] (AVV ) پارامتر دیگری است که در [24] مورد توجه قرار گرفته است. در این روش قاب به چند زیر قاب از لحاظ زمانی تقسیم می شود. انرژی در هر زیر قاب E(i,j) (فریمiام، زیر فریم jام)، محاسبه می شود. سپس واریانس دنباله انرژی در زیر فریم ها محاسبه می شود. از روی مقایسه این مقدار با مقداری مربوط به نویز، ماهیت قاب مشخص می شود. در [36] نیز، از محدوده رخداد فرکانس گام، برای تشخیص استفاده شده است. به خاصیت ایستان بودن فرکانس گام طول چند قاب در [44] و خاصیت ایستان بودن طیف سیگنال گفتار در طول چند قاب، بهنگام رخداد یک واج صدادار نیز در [35] اشاره شده است. در [45] نیز با فرض ایستان بودن طیف نویز در طول دوره سکوت و انتخاب بردار ویژگی بر اساس انرژی قاب در زیرباندها و اعمال یک تابع تفاضلی بر روی بردار ویژگی قاب جاری با قاب های قبلی، نواحی سکوت تشخیص داده شده است. دو پارامتر دیگر مورد استفاده LTSE[25] وLTSD[26] می باشند. که ایده اساسی استفاده از این پارامترها، تغییرات زمانی اندازه طیف سیگنال می باشد.[38و37]

[1].Threshold

  1. Pitch
  2. Formant

6.Autocorrelation

54.Signal to Noise Ratio

[6].Voice Extraction

[7].Zero Crossing Rate

[8].Cepsteral  Coefficient

[9].Mel-Frequency Cepstral Coefficient

[10] .Fast Fourier Transform(FFT)

[11] .Mel scale

[12] .Discrete Cosine Transform(DCT)

[13].Cepstrum

2.Linear Prediction Coding

[15].Voiced

[16] .Entropy

[17] .Organized

[18] .Shannon

1.Local Entropy Criterion

2.Periodicity

1.Least Square Periodicity Estimator

[22] .CHI-Square

[23].Ephraim and Malah

[24].Autocorrelation Vector Variance

[25] .Long Term Spectral Estimation

[26] . Long Term Spectral Divergence

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *