کل روش های بخش بندی گوینده درسه گروه خلاصه می شوند که عبارتند از:
1)بخش بندی بر اساس فاصله(متریک)
2)بخش بندی بر اساس مدل
3)بخش بندی هیبرید
3-2-1-بخش بندی بر اساس فاصله
روش های متریک شاید یکی از تکنیک هایی است که تا بحال بیشترین استفاده را داشته اند. و بر اساس فاصله بین دو بخش تصمیم می گیریم که آیا دو بخش مختلف، مربوط به یک گوینده می باشد یا هر بخش به گوینده متفاوتی تعلق دارد. روش کار به این صورت است که برای دو بخش سیگنال بردارهای آکوستیکی Xi , Xj با تعداد نمونه های Ni , Nj و میانگین و واریانس های iµ و و jµ و که می توانند یک سیگنال گوسی یا یک مدل مخلوط گوسی باشند، در نظر گرفته می شود. به عبارت دیگر اگر دو بخش را بصورت پیوسته در نظربگیریم، میتوان بردار آکوستیکی X و میانگین و واریانس µ و مدل گوسی را برای آنها در نظر بگیریم. این روش تابحال بیشترین کاربرد را داشته است. بدلیل استفاده از مدل مخلوط گوسی در قسمت های مختلف، توضیح مختصری از این مدل ارائه شده است. در این مدل داده ها توسط منحنی های گوسی که در شکل (3-2) نشان داده شده اند، توصیف می شوند.
شکل) 3-2( : ترکیب مدل های گوسین برای یک سیگنال شامل سکوت/گفتار[1]
برای یک ترکیب با K مولفه که از نمودارهای گوسی متفاوت تشکیل شده اند، داریم:
(3-27) |
P مجموع k توزیع گوسی که هر توزیع دارای وزنی میباشد را مشخص میکند.
میانگین و کواریانس ماتریس می باشند. و مجموع وزن ها 1 می باشد. و داریم:
(3-28) |
P k توزیع نرمال گوسی o را نشان می دهد. اغلب مواقع کواریانس قطری گوسی مانند فرمول زیر مورد استفاده قرار می گیرد:[1]
(3-29) | |
(3-30) |
d ابعاد O می باشد.
3-2-2-بخش بندی بر اساس مدل
این بخش بندی از دو مرحله تشکیل می شود. این مراحل عبارتند از:
1)مرحله آموزش: داده های آموزشی اولیه به سیستم انتقال می یابد و از آن مدل های اولیه که در نهایت توسط سیستم مورد استفاده قرار می گیرد، استخراج می شود.
2)مرحله آزمایش یا تشخیص گفتار : بازشناسی گفتار جدید با توجه به مدل های بدست آمده از مرحله قبل، هدف اصلی مرحله آزمایش یا بازشناسی است. هر سیستم با توجه به الگوریتم کاری خود می تواند گفتار جدید را با مدل های اولیه ذخیره شده در مرحله آموزش مقایسه و در نهایت نتیجه را اعلام کند.
3-2-3-بخش بندی هیبرید
این روش ترکیبی از دو تکنیک بر اساس مدل و بر اساس فاصله است. در این روش یک الگوریتم بخش بندی بر اساس فاصله، تنها برای ساخت یک مجموعه اولیه مدل های گویندگان بکار می رود، سپس با شروع از این مدل ها بخش بندی بر اساس مدل انجام می شود و با ترکیب خوشه بندی بر اساس فاصله و بر اساس مدل دقت خوشه بندی افزایش می یابد.[1]