از آنجا که حذف نويز از سيگنال صحبت نياز به شناخت وجه تمايز آنها دارد، بنابراين هر چه اطلاعات اوّليه در مورد نويز و سيگنال صحبت بيشتر باشد، کاهش نويز بهتر صورت ميگيرد[4]. علم بررسی خواص صوت توليد شده توسط انسان به ويژه در زمينههای توصيف، دسته بندی و آوا شناسی را فونتيک ميگويند و ما به برخی از خصوصيتهای آن اشاره خواهيم کرد. اکثر امواج صوتی صحبت از کانال دهان و برخی از اصوات هم از راه بيني، لبها و حلق نشات ميگيرند و دستخوش تغيير و تنوّعات و کسب ويژگيهای خاصی به سبب مسير عبورشان ميگردند[5]. در سيگنال صحبت ويژگيهای زيادی وجود دارد که از آنها در پردازش صحبت استفاده ميشود. ويژگيهای عمده سيگنال صحبت عبارتند از:
1- افزونگيهاي[1] صحبت 2- واک صحبت 3- دورة تناوب گام[2] صحبت 4- فرکانس اصلی يا گام[3] 5- فرکانس فرمنت[4] لوله صوتی 6- انرژی صحبت 7 – نرخ عبور از صفر[5] .
از ويژگيهای نام برده شده، آنچه در روشهای حذف نويز محيطی از سيگنال صحبت مطرح هستند، واک صحبت، دورة تناوب گام صحبت، انرژی صحبت و نرخ عبور از صفر ميباشد که توصيف مختصری از آن در زير آمده است:
2-2-1 واک صحبت
لرزش منظم تارهای صوتي[6] را واک ميگويند. اصواتی را که با چنين ارتعاشات منظم و مداومی همراه هستند، باواک[7] يا آوايی و اصوات ديگر را بيواک[8] يا غيرآوايی مينامند. اصوات باواک به خاطر نحوة توليدشان به صورت يک قطار پالسی شبه متناوب هستند که در اثر ارتعاش تارهای صوتی حاصل ميشود. همچنين اصوات بيواک به خاطر نحوة توليدشان مشابه يک منبع نويز با طيف گسترده(نويز سفيد) هستند. بنابراين اصوات باواک و بيواک از نظر ميزان انرژی و از نظر طيفی با هم متفاوتند. انرژی اصوات باواک زياد است و بيشترين انرژی طيف آن در فرکانسهای پايين تا حدود 800 هرتز قرار دارد. شکل (2-2) يک صوت باواک و بيواک و طيف آنرا نشان ميدهد. در حذف نويز سيگنال صحبت حتی با پيچيدهترين روشها نيز نميتوان برخی حروف را به خوبی از نويز جدا کرد، چون حروف بيصدای موجود در صحبت، خود شبيه نويز سفيد يا نويز زمينه ميباشند. نکته قابل ذکر در اين قسمت نرخ عبور از صفر اصوات باواک و بيواک ميباشد. همان طور که از شکل پيداست، اصوات باواک نرخ عبور از صفر کمتری نسبت به اصوات بيواک دارند. اين ويژگی يکی از پارامترهايی است که در عمليات حذف نويز، برای تعيين لحظات سکوت صحبت ميتواند بکار رود.
|
2-2-2 دورة تناوب گام صحبت
همان طور که گفته شد اصوات باواک به صورت يک قطار پالسی شکل شبه متناوب هستند. دورة تناوب تارهای صوتی را دورة تناوب گام صحبت مينامند. اين تناوب در اثر ارتعاش تارهای صوتی حاصل ميشود. البته ارتعاشات مزبور دقيقا متناوب نيستند، بلکه دورة تناوب گام صحبت بتدريج تغيير ميکند. وجه تسميه دورة تناوب گام صحبت اين است که دورة تناوب ارتعاش تارهای صوتی به طور مستقيم به زير و بم صوت بستگی دارد.
2-2-3 مدل سيگنال صحبت و انرژی آن
سيگنال صحبت مدل فرآيند تصادفی را دارد. يعنی قبل از وقوع آن نميتوان آنرا به صورت تابع تقديري[9] از زمان نشان داد، ولی ميتوان توصيفی آماری از آن داشت. اين سيگنال يک فرآيند تصادفی غير ايستان محسوب ميشود. (يعنی پارامترهای آماری نويز مثل ميانگين و تابع خودهمبستگی آن ثابت نبوده و با زمان تغيير ميکند.) و به همين دليل مبنای اندازهگيری انرژی صحبت، بازههای کوچکی از سيگنال صحبت است که در آن بازهها بتوان سيگنال را ايستان فرض کرد. (به اين بازهها “قاب[10] صحبت” ميگويند.) اگر لازم باشد سيگنال صحبت پنجره بندی شود، انرژی هر پنجره را به عنوان انرژی قاب در نظر ميگيرند. انرژی سيگنال صحبت در تشخيص واجهای باواک از واجهای بيواک و همچنين در تشخيص سيگنال از نويز بکار ميرود. معمولاً صحبت باواک دارای دامنة بزرگی ميباشد؛ بنابراين انرژی آن زياد است ولی صحبت بيواک و نويز دارای دامنة کمتری است؛ بنابراين انرژی آن کمترميباشد.
2-2-4 نرخ عبور از صفر
نرخ عبور از صفر، شدّت تغييرات سيگنال حول مقدار صفر را نشان ميدهد. برای محاسبه تعداد عبور از صفر ميتوان تعداد تغييرات علامت نمونههای سيگنال را در يک قاب شمرد. واضح است که صحبت باواک دارای نرخ عبور از صفر کمتری نسبت به صحبت بيواک است. برای محاسبه دقيقتر لحظات سکوت در سيگنال صحبت ميتوان از معيار انرژی و نرخ عبور از صفر به طور همزمان استفاده کرد[6].
- ساير مشخّصات سيگنال گفتار
طيف سيگنال گفتار در بازة فرکانسی 20 هرتز تا 20 کيلو هرتز قرار دارد. حدود 90% انرژی طيف فرکانسی سيگنال صحبت زير فرکانس يک کيلو هرتز قرار داشته و 60% ميزان قابليت شناخت يا فهم صحبت، بالای يک کيلوهرتز قرار دارد. جدول 2-1 پهنای باندهای تعريف شده برای کاربردهای مختلف را نشان ميدهد:
|
نوع کاربرد | محدوده فرکانسي(Hz) | صدا |
PSTN | 300 تا 3500 | تلفن |
conferencing | 50 تا 7000 | پهن باند |
FM,TV | 300 تا 15000 | با کيفيت بالا |
CD | 20 تا 20000 | با کيفيت بالا |
آزمايشها نشان داده است که سيگنال صحبت در بازة زمانی 10 تا 20 ميلی ثانيه دارای تغييرات توازن کمی بوده و ميتوان آنرا شبه ايستان فرض نمود[4].
[1] Redundancy
[2] Pitch Period
[3] Fundamental Frequency
[4] Formant Frequency
[5] Zero Crossing Rate
[6] Vocal Cords
[7] Voiced
[8] Unvoiced
[9] Deterministic
[10] Frame