ويژگيهای اساسی صحبت

از آنجا که حذف نويز از سيگنال صحبت نياز به شناخت وجه تمايز آنها دارد، بنابراين هر چه اطلاعات اوّليه در مورد نويز و سيگنال صحبت بيشتر باشد، کاهش نويز بهتر صورت مي‎گيرد[4]. علم بررسی خواص صوت توليد شده توسط انسان به ويژه در زمينه‌های توصيف، دسته بندی و آوا شناسی را فونتيک مي‎گويند و ما به برخی از خصوصيتهای آن اشاره خواهيم کرد. اکثر امواج صوتی صحبت از کانال دهان و برخی از اصوات هم از راه بيني، لبها و حلق نشات مي‎گيرند و دستخوش تغيير و تنوّعات و کسب ويژگيهای خاصی به سبب مسير عبورشان مي‎گردند[5]. در سيگنال صحبت ويژگيهای زيادی وجود دارد که از آنها در پردازش صحبت استفاده مي‎شود. ويژگيهای عمده سيگنال صحبت عبارتند از:

1- افزونگي‌هاي[1] صحبت 2- واک صحبت 3- دورة تناوب گام[2] صحبت 4- فرکانس اصلی يا گام[3] 5- فرکانس فرمنت[4] لوله صوتی 6- انرژی صحبت 7 – نرخ عبور از صفر[5] .

از ويژگيهای نام برده شده، آنچه در روشهای حذف نويز محيطی از سيگنال صحبت مطرح هستند، واک صحبت، دورة تناوب گام صحبت، انرژی صحبت و نرخ عبور از صفر مي‎باشد که توصيف مختصری از آن در زير آمده است:

2-2-1 واک صحبت

لرزش منظم تارهای صوتي[6] را واک مي‎گويند. اصواتی را که با چنين ارتعاشات منظم و مداومی همراه هستند، با‌واک[7] يا آوايی و اصوات ديگر را بي‌واک[8] يا غيرآوايی مي‌نامند. اصوات باواک به خاطر نحوة توليدشان به صورت يک قطار پالسی شبه متناوب هستند که در اثر ارتعاش تارهای صوتی حاصل مي‎شود. همچنين اصوات بي‌واک به خاطر نحوة توليدشان مشابه يک منبع نويز با طيف گسترده(نويز سفيد) هستند. بنابراين اصوات باواک و بي‌واک از نظر ميزان انرژی و از نظر طيفی با هم متفاوتند. انرژی اصوات باواک زياد است و بيشترين انرژی طيف آن در فرکانسهای پايين تا حدود 800 هرتز قرار دارد. شکل (2-2) يک صوت باواک و بي‌واک و طيف آنرا نشان مي‎دهد. در حذف نويز سيگنال صحبت حتی با پيچيده‌ترين روشها نيز نمي‎توان برخی حروف را به خوبی از نويز جدا کرد، چون حروف بي‌صدای موجود در صحبت، خود شبيه نويز سفيد يا نويز زمينه مي‎باشند. نکته قابل ذکر در اين قسمت نرخ عبور از صفر اصوات باواک و بي‌واک مي‎باشد. همان طور که از شکل پيداست، اصوات باواک نرخ عبور از صفر کمتری نسبت به اصوات بي‌واک دارند. اين ويژگی يکی از پارامترهايی است که در عمليات حذف نويز، برای تعيين لحظات سکوت صحبت مي‎تواند بکار رود.

شکل (2-2) شکل موجهای واکدار (بالا) و بي‌واک (پايين) و طيف کوتاه مدت آنها[73]

2-2-2 دورة تناوب گام صحبت

همان طور که گفته شد اصوات باواک به صورت يک قطار پالسی شکل شبه متناوب هستند. دورة تناوب تارهای صوتی را دورة تناوب گام صحبت مي‌نامند. اين تناوب در اثر ارتعاش تارهای صوتی حاصل مي‎شود. البته ارتعاشات مزبور دقيقا متناوب نيستند، بلکه دورة تناوب گام صحبت بتدريج تغيير مي‎کند. وجه تسميه دورة تناوب گام صحبت اين است که دورة تناوب ارتعاش تارهای صوتی به طور مستقيم به زير و بم صوت بستگی دارد.

2-2-3 مدل سيگنال صحبت و انرژی آن

سيگنال صحبت مدل فرآيند تصادفی را دارد. يعنی قبل از وقوع آن نمي‎توان آنرا به صورت تابع تقديري[9] از زمان نشان داد، ولی مي‎توان توصيفی آماری از آن داشت. اين سيگنال يک فرآيند تصادفی غير ايستان محسوب مي‎شود. (يعنی پارامترهای آماری نويز مثل ميانگين و تابع خودهمبستگی آن ثابت نبوده و با زمان تغيير مي‎کند.) و به همين دليل مبنای اندازه⁯گيری انرژی صحبت، بازه‌های کوچکی از سيگنال صحبت است که در آن بازه‌ها بتوان سيگنال را ايستان فرض کرد. (به اين بازه‌ها “قاب[10] صحبت” مي‎گويند.) اگر لازم باشد سيگنال صحبت پنجره بندی شود، انرژی هر پنجره را به عنوان انرژی قاب در نظر مي‎گيرند. انرژی سيگنال صحبت در تشخيص واجهای باواک از واجهای بي‌واک و همچنين در تشخيص سيگنال از نويز بکار مي‎رود. معمولاً صحبت باواک دارای دامنة بزرگی مي‎باشد؛ بنابراين انرژی آن زياد است ولی صحبت بي‌واک و نويز دارای دامنة کمتری است؛ بنابراين انرژی آن کمترمي‎باشد.

2-2-4 نرخ عبور از صفر

نرخ عبور از صفر، شدّت تغييرات سيگنال حول مقدار صفر را نشان مي‎دهد. برای محاسبه تعداد عبور از صفر مي‎توان تعداد تغييرات علامت نمونه‌های سيگنال را در يک قاب شمرد. واضح است که صحبت باواک دارای نرخ عبور از صفر کمتری نسبت به صحبت بي‌واک است. برای محاسبه دقيقتر لحظات سکوت در سيگنال صحبت مي‎توان از معيار انرژی و نرخ عبور از صفر به طور همزمان استفاده کرد[6].

ساير مشخّصات سيگنال گفتار

طيف سيگنال گفتار در بازة فرکانسی 20 هرتز تا 20 کيلو هرتز قرار دارد. حدود 90% انرژی طيف فرکانسی سيگنال صحبت زير فرکانس يک کيلو هرتز قرار داشته و 60% ميزان قابليت شناخت يا فهم صحبت، بالای يک کيلوهرتز قرار دارد. جدول 2-1 پهنای باندهای تعريف شده برای کاربردهای مختلف را نشان مي‎دهد:

جدول (2-1) کاربردهای مختلف سيگنال صحبت و پهنای باند آنها

نوع کاربرد	محدوده فرکانسي(Hz)	صدا
PSTN	300 تا 3500	تلفن
conferencing	50 تا 7000	پهن باند
FM,TV	300 تا 15000	با کيفيت بالا
CD	20 تا 20000	با کيفيت بالا

آزمايشها نشان داده است که سيگنال صحبت در بازة زمانی 10 تا 20 ميلی ثانيه دارای تغييرات توازن کمی بوده و مي‎توان آنرا شبه ايستان فرض نمود[4].

[1] Redundancy

[2] Pitch Period

[3] Fundamental Frequency

[4] Formant Frequency

[5] Zero Crossing Rate

[6] Vocal Cords

[7] Voiced

[8] Unvoiced

[9] Deterministic

[10] Frame

لینک دانلود فایل کامل

ويژگيهای اساسی صحبت

دیدگاه‌ خود را بنویسید لغو پاسخ

ما راه یادگیری شما را کوتاه می کنیم

ایران متلب یکی از برندهای معتبر تولید فیلم آموزشی در ایران می باشد