مراحل مختلف کاری سیستم های بازشناسی گوینده

بطور کلی مراحل مختلف یک سیستم بازشناسی گوینده، بصورت زیر خلاصه می گردد:

1-قطعه بندی آکوستیکی[1]

2-تشخیص گفتار از غیر گفتار[2]

3-تشخیص جنسیت گوینده

4-تشخیص تغییر گوینده

5-جمع زدن گوینده های مشابه

این سیستم دارای بلوک های کاری مستقل از هم می باشد که هر بلوک ورودی خود را از خروجی بلوک قبلی دریافت می کند و ورودی لازم برای بلوک کاری پس از خود را تهیه می کند. در برخی سیستم ها، از بلوک سوم کاری صرف نظر می شود. در ادامه شرح مختصری از بخش های مختلف داده شده است.[4-2]

1-2-1-قطعه بند آکوستیکی

در اولین مرحله، باید جریان داده های صوتی به قطعات همگن آکوستیکی تقسیم شود. برای این امر باید نقاطی که  تغییر در خواص آکوستیکی داده های صوتی روی میدهد را، بدست آورد. در واقع این نقاط شکست[3] بعنوان ورودی به بلوک کاری بعدی داده می شود. در بسیاری از کاربردهای چند رسانه ای که داده ها علاوه بر صدا دارای تصویر نیز می باشند، عمل تشخیص نقاط تغییر، هم از روی صدا و هم از روی تصویر امکان پذیراست.[2] بنابراین کارایی چنین سیستم هایی نسبت به داده هایی که تنها شامل صوت یا تصویر هستند، بالاتر خواهد بود.

 امروزه روش های کاربردی تعیین نقاط تغییر آکوستیکی،  همگی بر پایه ی محاسبه فاصله آماری بین دو قطعه مجاور استوار هستند. تفاوت عمده ی میان آنها معیار فاصله ای است که در آنها بکار می رود. از روش های غیر آماری مورد استفاده میتوان به شبکه عصبی[4] و ماشین بردار پشتیبان[5]  اشاره نمود، که در بخش های بعدی توضیح داده خواهند شد.

از دیدگاهی قطعه بندی، یک مساله بهینه سازی[6] است. زیرا هدف نهایی یافتن نقاطی است که در آنها معیار فاصله به ماکزیمم محلی[7] برسد. یکی از پرکاربردترین معیارهایی که امروزه برای تعیین نقاط شکست آکوستیکی بکار می رود، معیار بیزین[8] است.  پیش از این، روش های آماری دیگری از سال 1997 ابداع شده بود، که همگی آنها در مقایسه با معیار بیز جواب مناسبی نمی داده اند.[1] ارایه این روش اعتبار روش های دیگر را تا حدودی کمتر نمود.

1-2-2-تشخیص گفتار از غیر گفتار(دسته بندی[9] صوتی)

برای پیاده سازی این سیستم ها، قبل از هر کار دیگری بخش های گفتاری صوت ضبط شده را از بخش های غیر گفتاری آن مانند (سکوت، موسیقی، نویز خیابان، صدای سرفه ، صدای ورق زدن و …) جدا می نمایند. با حذف بخش های غیرگفتاری میزان بار محاسباتی سیستم کاهش پیدا می کند و سرعت سیستم بیشتر می شود و سپس مراحل بخش بندی و خوشه بندی اجرا می شود. بعد از یافتن نقاط تغییر آکوستیکی، میتوان جریان داده های صوتی را مانند قطعات همگن در نظر گرفت. به عبارت دیگر یک قطعه نباید هم شامل گفتار، هم موسیقی و سکوت با هم باشد. اگر یک قطعه شامل گفتار دو گوینده باشد، باز هم همگن نخواهد بود. بنابراین این بلوک کاری خروجی قطعه بند صوتی را دریافت کرده و از آن قطعاتی را که حاوی داده های صوتی غیرگفتاری اند را حذف می کند. در یک سیستم تشخیص گفتار، معمولا داده های صوتی به 5 کلاس[2] زیر تقسیم می شوند:

1-موسیقی خالص

2-گفتار خالص

3-گفتار همراه با نویز

4-سکوت

5-سکوت همراه با نویز

البته در یک سیستم تشخیص گوینده، تنها احتیاج به تشخیص موارد 2و3 وجود دارد. زیرا هدف سیستم کار با گفتار بوده و هر چیزی غیر از گفتار از جریان داده ی صوتی حذف می شود تا بلوک های کاری پس از این بلوک با تمرکز برروی گفتار عمل نمایند. روشی که برای رسیدن به هدف این سیستم وجود دارد، بیشترین میزان شباهت[10](ML) مبتنی بر مدل مخلوط گوسی(GMM)[11] می باشد.

1-2-3-تشخیص جنسیت گوینده

این بخش سیستم برای بهبود سرعت اجرای بلوک کاری خوشه بندی داده های گفتاری بکار می رود.[2] به این ترتیب که با برچسب خوردن هریک از قطعات گفتاری به عنوان مرد یا زن، فضای جستجو کاهش می یابد، زیرا لازم نیست که قطعات گفتاری با برچسب جنسی مخالف با یکدیگر مقایسه شوند. روش بکار رفته در این بلوک کاری نیز ML مبتنی بر GMM می باشد.

1-2-4-تشخیص تغییر گوینده

از جهت ترتیب و ترکیب بخش بندی و خوشه بندی نیز روش های موجود پیاده سازی شده در سیستم ها به دو دسته تقسیم می شوند: در روش اول یک روال دو مرحله ای [7-9] اجرا می شود. (همانند ساختار شکل (1-2)) که مرحله اول بخش بندی است. این مرحله مرز سگمنت ها را بر اساس تغییرات آکوستیکی سیگنال مشخص می کند. مرحله دوم خوشه بندی است که سگمنت های متعلق به هر گوینده را در یک خوشه دسته بندی می کند. نقطه ضعف این روش برطرف نشدن خطاهای ناشی از مرحله بخش بندی در پردازش های بعدی سیستم می باشد. و متعاقبا کارآیی مرحله خوشه بندی را نیز کاهش می دهد. در روش دوم بخش بندی و خوشه بندی بصورت توام [12] و تکراری[13] است. این روش کارآیی بیشتری در مقایسه با روش اول دارد. در این روش تکرارهای لازم  با استفاده از مدل های پنهان مارکوف(HMM)  پیاده سازی شده اند.[10]

  1. Acoustic Segmentation Module

2.Speech Detection

1.Break Point

2.Artificial Neural Network

3.Support Vector Machine

4.Optimization

5.Local Maximum

1.Bayesian Information Criterion

2.Classification

1.Maximum Likelihood.

  1. 2. Gaussian Mixture Model

[12] .Joint

[13] .Iterative

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *