در یک فایل صوتی که شامل صحبت چندین گوینده می باشد، یکی از مهمترین موضوعات مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده می باشد. بنابراین باید مشخص نماییم که هر نفر در چه بازه ای صحبت نموده است. در سال های اخیر این مسئله موضوع پژوهش در بسیاری موارد بوده است. از جمله کاربردهای این بخش استفاده در سیستم های ردیابی گوینده[1] و افزایش دقت سیستم های بازشناسی گفتار و گوینده و فهرست نگاری اصوات ضبط شده و … را میتوان نام برد. هدف یافتن نقاط تغییر گوینده در فایل صوتی می باشد. فایل صوتی به بخش های کوچکتری که در هر بخش(سگمنت) تنها گفتار یک گوینده وجود دارد تقسیم می شود. این مرحله لازمه اصلی در این سیستم ها می باشد. بنابراین باید از الگوریتم های مناسبی استفاده نماییم تا بهترین نتایج بدست آیند. در سیستم های بخش بندی گفتار تکنیکی که اولین بار مورد استفاده قرار گرفت بوسیله چن و گوپالاکریشنان در سال 1998 بکار گرفته شد.[1]
از اولین کارها در این زمینه میتوان به تحقیقات و سیستم های پیاده سازی شده که توسط گیش و دیگران[66] انجام شده است، اشاره نمود. در این روش پارامترهای سیگنال های گفتاری در ابتدا برحسب بردارهای ویژگی تعیین می شوند و سپس فاصله بین دو سگمنت همسایه بطور پی در پی برای آشکارسازی تغییر گوینده محاسبه می شود.[15] دو پنجره با طول نسبتا کم مانند شکل(3-1) در نظر گرفته می شوند و محتویات این دو پنجره بردارهای ویژگی استخراج شده از روی سیگنال صوتی هستند. این دو پنجره در طول سیگنال صوتی حرکت می کنند و شباهت محتویات آنها با هر قسمت از سیگنال با استفاده از یک تابع فاصله محاسبه می شود. مقایسه مقدار بهینه محلی این تابع فاصله، با مقدار آستانه تعیین می کند که آیا مرز این دو پنجره، t نقطه تغییر گوینده هست یا نه؟
شکل( 3-1):پنجره های همسایه
الگوریتم های مختلف آشکارسازی گوینده در نوع تابع فاصله (ناهمانندی)[2] مورد استفاده، اندازه دو پنجره، افزایش زمانی شیفت دو پنجره، راه های آستانه گذاری و ارزیابی نتایج حاصل از مقادیر فاصله محلی فرق دارند. پارامترهای آستانه نیز معمولا تجربی محاسبه می شوند و نسبت به شرایط محیطی و آکوستیکی متفاوت مقاوم نیستند. الگوریتم های مختلفی در این بخش مورد استفاده قرار می گیرند.[80]
[1].Speaker Tracking