تاکنون روش های مختلفی برای بخش بندی و خوشه بندی گویندگان در یک جریان صوتی پیشنهاد شده است. روش های بکارگرفته شده را میتوان در سه دسته طبقه بندی نمود:
1-3-1-روش بر اساس فاصله
در این روش بخش بندی گویندگان به دو بخش اصلی تقسیم می شود:
1)آشکارسازی تغییر گوینده[4]: در ابتدا آشکارساز تغییر گوینده جریان صوتی[5] را به سگمنت های کوچکتر که شامل گفتار تنها یک گوینده هستند، تقسیم می کند.
2)خوشه بندی سگمنت ها(بخش ها): ادغام سگمنت های گفتاری متعلق به هر گوینده است. این ادغام با استفاده از یک معیار فاصله که شباهت بین دو سگمنت را اندازه می گیرد انجام می شود. مزیت این روش آن است که به هیچ اطلاعات قبلی نیاز ندارد ولی چون خوشه بندی بر اساس فاصله بین سگمنت های مجزا است وسگمنت های خیلی کوتاه نمی توانند به اندازه کافی مشخصات یک گوینده را توصیف کنند، بنابراین سگمنت های خیلی کوتاه روی دقت این روش تاثیر نامطلوب دارند.[16و17] عیب این روش، متکی بودن بر فاصله است، که موجب می گردد مقاومت و پایداری زیادی نداشته باشد.[15]
1-3-2-روش بر اساس مدل
در روش بخش بندی بر اساس مدل برای هر گوینده موجود در فایل صوتی با استفاده از داده های آموزشی یک مدل آموزش داده می شود. و این کار قبل از بخش بندی انجام می شود و سپس یک بخش بندی با استفاده از مدل های پنهان مارکوف [6] برای یافتن بهترین دنباله زمانی گویندگان[7] انجام می شود. جریان صوتی ورودی با استفاده از این مدل ها توسط انتخاب بیشترین درست نمایی دسته بندی می شود. در این روش، بخش بندی توسط بررسی ماکزیمم درست نمایی کلی[8] انجام می شود. در هر صورت بیشتر روش های بر اساس مدل به اطلاعات قبلی برای آماده سازی مدل های گویندگان نیاز دارند.
1-3-3-روش هیبرید یا ترکیبی
این روش ها جدید و متنوع هستند و هنوز برای حصول نتایج بهتر بر روی آنها کار می شود. این روش ترکیبی از دو روش بر اساس فاصله و بر اساس مدل می باشد. نتایج حاصل از این روش در سیستم های پردازش گوینده بطور قابل ملاحظه ای بهتر از سایر روش های دیگر است.[15][17] برای نمونه در این روش یک الگوریتم بخش بندی بر اساس فاصله، تنها برای ساخت یک مجموعه اولیه مدل های گویندگان بکار می رود. سپس با شروع از این مدل ها، بخش بندی بر اساس مدل انجام می شود و با ترکیب خوشه بندی بر اساس فاصله و بر اساس مدل دقت خوشه بندی افزایش می یابد.
1-4-خوشه بندی نمودن
خوشه بندی کردن بخشی از علم دسته بندی غیر ناظرانه ی داده های آماری است. یعنی هیچ اطلاعی از نوع، مدل و حتی تعدادخوشه ها در اختیار نداریم و به صورت کورکورانه داده هایی را که با هم شباهت دارند در یک خوشه فرضی دسته بندی می کنیم. بیشتر از روش توده کردن سلسله مراتبی[9] که روشی آماری برای جمع کردن داده هایی است که به هم شباهت دارند، استفاده می شود. نکته مهم یافتن معیار شباهت است. به عبارت دیگر، اصول کلی فرآیند خوشه بندی کردن در تمام کاربردها یکسان است و فقط معیار شباهت برای هر کاربرد متفاوت است. قبلا دیدیم که معیار BIC بهترین معیار برای اندازه گیری شباهت دو قطعه است، بنابراین برای خوشه بندی نمودن نیز از BIC استفاده می شود. بدیهی است که با تغییر دادن معیار شباهت به الگوریتم های دیگری می رسیم که لزوما جواب یکسانی به ما نمی دهند.
[1] .Distance-based
[2] .Model-based
[3] .Hybrid
[4].Speaker Change Detection
[5].Audio Stream
[6].Hidden Markov Models(HMM)
[7].Best Time-aligned Speaker Sequence
[8].Global Maximum Likelihood Framework