روش های متداول آشکارسازی گوینده

متداول ترین معیارهایی که برای آشکارسازی تغییر گوینده بکار می روند عبارتند از:

-معیار اطلاعات بیزین

-نرخ درست نمایی عمومی[1]

-فاصله کالبک لیبلر[2]

-فاصله دیورژانس اشکال[3]

BIC – متقاطع[4]

-درستنمایی مدل مخلوط گوسی[5]

در ادامه هر یک از معیارها را توضیح می دهیم.[80]

3-4-1-معیار اطلاعات بیزین (BIC)

معیار بیزین بیشترین مورد استفاده در بخش بندی و کلاسه بندی را در بین روش های متریک به خود اختصاص داده است. در ضمن روش ساده و کارآمدی می باشد. معیار بیزین یک معیار مشخص نمودن پیچیدگی مدل مورد استفاده با توجه به تعداد پارامترهای آزاد بکار گرفته شده در مدل می باشد.[1] این مدل در سال 1971 توسط اسچوارز و 1978 باز هم توسط اسچوارز بعنوان یک مدل معیار مورد استفاده قرار گرفت.[69] و بطور گسترده ای در مقالات آماری بکار می رود. مسئله انتخاب مدل، انتخاب یک مدل از میان مجموعه مدل- های کاندید M = M₁, M₂ , … ,M_n است. که این مدل، مجموعه داده مشخص D = D₁ , D₂ , … , D_N را نمایش می دهد. مقدار BIC از رابطه (3-1) بدست می آید.

(3-1)

درستنمایی ماکزیمم مدل M_i و d_i تعداد پارامترهای مستقل مدل است. و فاکتور جریمه است که برای جبران مواردی با مقدار N کوچک مورد استفاده قرار می گیرد. (چون BIC تمایل به انتخاب یک مدل ساده دارد، در زمانی که نمونه انتخابی کوچک می باشد، برای تنظیم λ کوچکتر، احتمال انتخاب مدل پیچیده تر افزایش می یابد. در تئوری مقدار λ باید 1 قرار داده شود، ولی در عمل λ یک پارامتر قابل تنظیم است. در رابطه فوق، مقدار ، از مقدار درستنمایی، بخاطر پیچیدگی کم می شود. بر اساس معیار BIC، برای مقادیر بقدر کافی بزرگ N ، بهترین مدل برای نمایش داده، مدلی با مقدار BIC ماکزیمم است. امکان انتخاب مدل صحیح توسط BIC با بزرگتر شدن سایز نمونه ها(N ∞ ) به 1 نزدیک می شود.

3-4-1-2-بخش بندی با استفاده از مدل آماری گوینده BIC

فرض کنیدR^d , i = 1,2,…,N X= x_i دنباله ای از بردارهای ویژگی کپسترال بر اساس فریم استخراج شده از روی جریان صوتی باشد. (معمولا از بردارهای ویژگی MFCC استفاده می شود. البته معیار BIC هیچ فرضی درباره ی روش استخراج ویژگی ندارد. بنابراین این روش قابل تعمیم به مواردی است که از روش های دیگر استخراج ویژگی استفاده می کنند.) که در آن حداکثر یک مرز سگمنت وجود دارد. مسئله تعیین اینکه آیا یک تغییر گوینده (مرز سگمنت) در فریم b وجود دارد یا نه، می تواند به یک مسئله انتخاب مدل تبدیل شود. دو مدل تعریف شده عبارتند از:

مدل M₁ فرض می کند که همه نمونه های X مستقل هستند و بطور یکسان توسط یک فرآیند گوسین چند متغیره[6] توزیع می شود.
مدل M₂ فرض می کند که X توسط دو فرآیند گوسین چند متغیره ایجاد شده است.

اگر0 <) BIC(M₁) – BIC(M₂ باشد، داده یکنواخت بوده و نقطه شکست (تغییر گوینده) نداریم. اگر این مقدار منفی باشد، نقطه شکست در این بازه وجود دارد.

میتوان نشان داد که با فرض یک توزیع نرمال N(µ , ∑) ، درستنمایی داده های وقتی ماکزیمم است که شود و داشته باشیم:

(3-2)
(3-3)

طبق رابطه (3-1) مقادیر BIC این دو مدل بصورت زیر محاسبه می شود:

(3-4)
(3-5)

و و برآوردهای کواریانس با ماکزیمم درستنمایی از روی داده نظیر هستند. Dبعد ویژگی کپسترال است. همچنین تفاضل BIC می تواند با استفاده از روابط بالا بعنوان تابعی از نقطه شکست b طبق رابطه (3–6) محاسبه شود.

(3-6)

براساس معیار BIC بخش بندی جریان صوتی به دو بخش در فریم b وقتی صحیح است که باشد. مقدار مثبت بدین معناست که مدل M₂ سیگنال را بهتر توصیف می کند و نقطه شکست b وجود دارد. نقطه بخش بندی نهایی می تواند از طریق برآوردگر درستنمایی بیشینه[7]( (MLE بصورت زیر بدست آید:

(3-7)

باید توجه داشت که BIC تنها برای بدست آوردن حداکثر یک نقطه تغییر آکوستیکی در داده های صوتی کاربرد دارد. تنظیم پارامترهای , N برای رسیدن به سیستمی مناسب بسیار اهمیت دارد. (در واقع خروجی سیستم قطعه بند صوتی بسیار حساس به تنظیم این دو پارامتر است.) بنابراین لازم است از الگوریتم هایی برای بدست آوردن نقاط شکست بیشتر استفاده نماییم. بنابراین برای صوتی که شامل چندین مرز بخش بندی است، یک الگوریتم آشکارسازی ترتیبی در [8]پیشنهاد شده است. در [8] یک پنجره متحرک کل جریان صوتی را جاروب می کند. پنجره از ابتدای جریان با عرض 1 ثانیه آغاز می شود و داخل هر پنجره تست BIC به ترتیب برای هر نقطه انجام می شود تا تعیین کند که آیا در این فاصله یک مرز سگمنت وجود دارد یا نه؟ اگر مرزی یافت نشود، پنجره 1 ثانیه به سمت جلو سیگنال جابجا می شود و اگر مرزی یافت شود، از محل این مرز پنجره جدیدی آغاز می شود.[80]

3-4-2-ترکیب آماره T² و BIC

بخش بندی بر اساس معیار BIC پیچیدگی زیادی دارد. اگرچه میتوان سرعت را با جستجو روی یک شبکه (در هر 30 فریم) بهبود داد، ولی بار محاسباتی زیادی دارد. چون در یک پنچره برای هر نقطه شکست b، دترمینان- های دو ماتریس کواریانس کامل[8] تعیین می شوند و میانگین و کواریانس این توزیع ها باید برآورده شوند، میزان خطا بالا خواهد بود. این مشکلات منجر به پیشنهاد روشی سریعتر و مفیدتر برای آشکارسازی مرز از طریق آماره T² توسط هانسن و زیو گردید.[11]

آماره T² هتلینگ، یک آماره چند متغیره از توزیع معروف t است.[70] یکی از کاربردهای آماره T² هتلینگ، اندازه گیری فاصله بین میانگین دو نمونه در زمانی است که ماتریس کواریانس آن دو نمونه یکسان ولی نامعلوم فرض می شود. در اینجا فرض می کنیم: دو نمونه در یک جریان گفتاری داریم. اولی شامل فریم های [1,b] و دومی شامل فریم های [b+1,N] است. آماره T² بصورت زیر تعریف می شود.

(3-8)

و بترتیب میانگین های دو نمونه هستند و ∑ ماتریس کواریانس مشترک است. مقدار کوچکتر T² نشان دهنده شباهت بیشتر توزیع های دو نمونه است. بنابراین، هنگامی که T² به ماکزیمم خود می رسد، نقطه تغییر گوینده است که بین نمونه های کاملا متفاوت و نامشابه رخ می دهد. این مطلب در شکل (3-3) نشان داده شده است.

شکل)3-3(: منحنی ها با اعمال متریک T²-statistic رسم شده اند. شکل a مربوط به دو بخش متفاوت می باشد. شکل b سه بخش را نشان می دهد. شکل c سه بخش که به دو گوینده متعلقند را نمایش می دهد.[82]

الگوریتم جدید پیشنهادی [68] تلفیقی از دو روش بالاست. بدین ترتیب که در داخل یک پنجره آشکارسازی، آماره T² در هر نقطه محاسبه می شود. نقطه با مقدار پیک بعنوان کاندید یک تغییر گوینده انتخاب می شود. سپس معیار BIC تنها در این نقطه، در کنار پنجره آشکارسازی امتحان می شود. اگر تغییر گوینده توسط تست BIC تایید شود، یک پنجره آشکارسازی جدید از این نقطه شروع می شود که به جستجوی نقطه بعدی تغییرگوینده می پردازد. در غیر اینصورت، پنجره آشکارسازی برای بزرگتر کردن بازه جستجو، بزرگ می شود. این روش ترکیبی ساده مزایای فراوانی دارد که عبارتند از:

1)با پیش انتخاب نقاط شکست ممکن از طریق آماره T²، از محاسبه دو ماتریس کواریانس کامل در سایر نقاط جلوگیری می کنیم و بنابراین در مقایسه با BIC برای هر پنجره لغزان، تعداد ضرب ها (N+2).d² مرتبه کاهش می یابد. بنابراین این روش با استفاده از یک روش آشکارسازی ترتیبی موثرتر است و مزایای BIC مانند مستقل از آستانه بودن و یک پایه ریاضی ثابت را نیز هنوز دارد.

2)هنگامی که اندازه نمونه کوچک است یا نقطه شکست نزدیک مرز پنجره است، روش BIC نتایج مطلوبی ندارد. چون وجود یک نقطه شکست درون یک پنجره با اندازه کوچک بدلیل ناکافی بودن داده ها باعث انحراف آماره مرتبه دوم می شود و تصمیم گیری در مورد نقاط شکست درست نخواهد بود. از طرفی ارزیابی آماره T² تنها به آماره های مرتبه اول نیاز دارد و نسبت به مواردی با اندازه نمونه کوچک، مقاوم است. در نتیجه پیش انتخاب نقاط شکست از طریق آماره T² از رخ دادن اشتباه در تعیین مرزها[9] در بخش بندی BIC جلوگیری می- نماید.[80]

3-4-2-1-سرعت و بهره بیشتر در بخش بندی T²-BIC

برای افزایش سرعت و بازدهی در این روش، افزایش اندازه پنجره متغیر و آزمایش پرش قاب نیز پیشنهاد شده است. میزان و خلوص داده موجود در هر پنجره، برای گرفتن تصمیمات آماری قابل اطمینان اهمیت فراوانی دارد. در الگوریتم بخش بندی ترتیبی، پهنای پنجره جاری اثر مهمی در پیش انتخاب نقاط شکست کاندید از طریق آماره T² و تصمیم گیری BIC بعدی دارد. اگر پنجره از نظر مدت زمان، خیلی پهن باشد و بیشتر از یک نقطه تغییر را شامل شود، فرض انتخاب مدل صحیح نیست و اگر پنجره خیلی کوتاه انتخاب شود، کمبود داده باعث می شود که برآورد گوسین ضعیف باشد و منجر به تصمیم نادرست در بخش بندی می شود. ضمنا این خطاها آماره های گوسین بعدی را نیز آلوده می کنند و روی آشکارسازی مرز سگمنت بعدی تاثیر می گذارند. بنابراین در این روش از یک پنجره پویا[10] استفاده می نماییم.[80] یک پنجره با پهنای W₀=200 در ابتدا مورد استفاده قرار می گیرد. اگر هیچ نقطه شکستی در پنجره قبلی W_i₁ نباشد، پهنای پنجره فعلی W_i بصورت زیر تنظیم می شود:

(3-9)
(3-10)

علاوه براین، پهنای پنجره فعلی W_i با موقعیت پیک (قله) آماره T² پنجره قبلی نیز کنترل می شود. اگر این پیک نزدیک مرز انتهایی پنجره در محدوده یک آستانه در پنجره قبلی ظاهر شود، قرار می گیرد. با استفاده از این پنجره با افزایش قابل تنظیم، بهتر میتوان نقاط شکست سگمنت های کوچکتر را یافت و زمانی که هیچ نقطه شکستی در داده نباشد، جریان را با نرخ سریعتری جستجو نمود. دومین بهبود در کارآیی این الگوریتم از آزمایش پرش قاب حاصل می شود. نکته جالب توجه این است که نیازی نیست که همه قاب های داخل پنجره، بعنوان یک مرز در نظر گرفته شوند (بویژه زمانی که پنجره فعلی بزرگ باشد) برای مثال قاب های داده نزدیک به پنجره بویژه زمانی که پنجره فعلی بزرگ باشد، می توانند در تست T² در نظر گرفته نشوند، چون نمیتوان برآورد گوسین مقاومی را با این داده محدود بدست آورد. بعلاوه در پنجره های بزرگ ( بزرگتر از 1000 قاب) احتمال اینکه یک شکست در بخش آغازین پنجره فعلی روی دهد، خیلی کم است. چون بعید به نظر می- رسد که شکستی از آزمایش بخش بندی قبلی در پنجره قبلی بجای مانده باشد. بنابراین در مورد این قاب ها آزمایش آماره T² را انجام نمی دهیم. بهسازی دیگری نیز می تواند با محاسبه پویای ماتریس کواریانس پنجره کامل ∑ بدست آید. که این ماتریس بوسیله آماره T² و تست BIC مورد استفاده قرار می گیرد. فرض کنید که در چند پریود زمانی، شکستی آشکار نشده باشد و در نتیجه طول پنجره همچنان زیاد می شود. میتوان کواریانس پنجره فعلی را با ترکیب آماره های داده پنجره قبلی و گسترش جدید محاسبه کرد. به این روش، از محاسبات تکراری کواریانس، روی داده های همپوش بین پنجره های پی در پی جلوگیری می شود. اگر پهنای پنجره فعلی W_i=W_i1 + باشد، ماتریس کواریانس پنجره فعلی بصورت زیر بدست می آید.

(3-11)

و و و به ترتیب ماتریس های میانگین و کواریانس پنجره قبلی و داده اضافه شده جدید هستند و پنجره فعلی کامل بصورت زیر بدست می آید.

(3-12)

3-4-3-فاصله نرخ درستنمایی عمومی(GLR)

این روش اولین بار در سالهای 1976 توسط ویلسکی و جونز و در 1982 توسط برندت و اپل مورد استفاده قرار گرفت و روشی متریک مبتنی بر احتمال است. در آشکارسازی تغییر گوینده، دو زیر سگمنت همسایه را با استفاده از فاصله GLR نیز میتوان مقایسه نمود. اگر X₁ , X₂به ترتیب مجموعه بردارهای ویژگی دو سگمنت همسایه باشند و L(X_j , λ_j) و L(X_i , λ_i) درستنمایی X_i , X_j باشند و λ_j, λ_i پارامترهای مدلی باشند که درستنمایی را ماکزیمم می کند و همینطور X ناشی از اتحاد دو سگمنت با هم و ماکزیمم درستنمایی برآورد شده برای X باشد، داریم:

(3-17)
(3-18)

با استفاده از اعمال آستانه به این فاصله میتوان نقاط تغییر نهفته را آشکار نمود. اگر دو سگمنت مورد بررسیi , j متعلق به یک گوینده باشند، مقدار فاصله GLR بیشتر از 1 می شود و اگر دو سگمنت به یک گوینده متعلق نباشند، مقدار فاصله GLR به سمت صفر نزدیک می شود. معمولا مقدار GLR فاصله را بطریق تجربی به گونه- ای مشخص می کنند که بتوان نقاط تغییر موجود در سیگنال صوتی را کاملا آشکار نمود. برای محاسبه این معیار معمولا مدل های گوسین مورد استفاده قرار می گیرند و λ شامل میانگین و واریانس مدل گوسین می- باشد که از روی داده های سگمنت بدست می آید.[65]

3-4-4-فاصله KL2

روش فاصله ی متقارن KL2 مانند روش BIC از روش هایی است که هم برای قطعه بندی آکوستیکی کاربرد دارد و هم برای خوشه بندی مورد استفاده قرار می گیرد. روش KL در سال 1997 برای اولین بار و همچنین در سال 2000 توسط هانگ و ونگ و لی مورد استفاده قرار گرفت. و نتایج قابل قبولی برای دو توزیع رندم X,Y بدست می دهد. فاصله KL (اغلب دیورژانس نامیده می شود) از فرمول (3-19) محاسبه می شود:

(3-19)

)

وقتی دو بخش مورد بررسی دارای توزیع گوسی باشند میتوان میزان فاصله KL را از رابطه (3-20) محاسبه نمود:

(3-20)

معیار KL2 خود از معیار فاصله KL مشتق می شود. معیار فاصله ی KL در پیدا کردن فاصله ی دو متغیر تصادفی کاربرد دارد. به این ترتیب که برای بدست آوردن فاصله ی دو متغیر تصادفی A,B کافی است B را با کدبندی بهینه برای A، کد کنیم. در این صورت نرخ بیت اضافی ( کمتری) که برای B بدست می آید، همان فاصله ی دو متغیر خواهد بود. هر چه این فاصله ی KL بزرگتر باشد، به معنی این است که توابع توزیع چگالی دو متغیر تصادفی از هم فاصله ی بیشتری دارند. بنابراین می بینیم که روابط بالا خاصیت تقارنی ندارند و نمیتوان آن را به عنوان معیار فاصله در نظرگرفت. با کمی بازبینی در این رابطه میتوان رابطه متقارن KL2 را مطرح نمود. برای توزیع های گوسین چند متغیره، فرمول بالا را میتوان به صورت رابطه زیر تغییر داده و نام فاصله KL2 برای آن انتخاب گردید.

(3-21)

KL2(X;Y) = KL(X;Y) + KL(Y;X)

اگر دو زیر سگمنت همسایه توسط توزیع های گوسین چند متغیره[11] مدل شوند، فاصله KL2 بین دو زیر سگمنت همسایه بصورت زیر تعریف و محاسبه می شود:[68]

(3-22)

این معیار فاصله، مثبت و متقارن[12] است. هنگامی که فاصله KL2 در مرز دو سگمنت به مقدار ماکزیمم محلی خود می رسد، این محل، نقطه تغییر گوینده و شروع بخش جدید را مشخص می کند. این معیار فاصله بطور معمول بصورت پیوسته بین پنجره های همسایه در طول جریان صوتی محاسبه و منحنی فواصل محاسبه شده رسم می شود. برای جلوگیری از ایجاد نوسانات[13] در این منحنی، فواصل بدست آمده را با استفاده از یک فیلتر پایین گذر، ملایم سازی می نمایند. در نهایت، پیک های محلی منحنی بعنوان نقاط کاندید تغییر گوینده در نظر گرفته می شوند. تعیین نهایی نقاط تغییر گوینده از روی نقاط کاندید شده، کار مشکلی می باشد، چون به آستانه ای برای مقایسه نیاز دارد که این آستانه معمولا از روی داده های آموزشی تعیین می شود و به همین دلیل نمی تواند برای همه داده های آزمایشی مقاوم و پایدار باشد.

3-4-5-آشکارسازی تغییر گوینده با استفاده از DSD

این روش نیز مانند روش های قبلی با استفاده از معیار فاصله کار میکند و روشی بسیار شبیه به روش گیش است و در سال 1991 توسط گیش مطرح گردید. این روش به راحتی تحت تاثیر شرایط محیطی قرار می گیرد. در این روش برای آشکارسازی تغییرات گوینده، دو زیر سگمنت همسایه از بردارهای ویژگی MFCC، روی جریان گفتاری حرکت داده می شوند. شباهت بین محتویات این دو زیر سگمنت با استفاده از یک تابع فاصله دیورژانس محاسبه می شود.[15] ناهمانندی D بین دو زیر سگمنت همسایه بصورت فاصله تعیین شده توسط کواریانس دو زیر سگمنت با رابطه زیر تعریف می شود:

(3-23)

ماتریس های کواریانس برآورد شده از زیر سگمنت های i,j هستند. زمانی یک تغییر گوینده بالقوه[14] بین زیر سگمنت های i و i+1 وجود دارد که شرایط زیر برآورده شود:

(3-24)

D(i , j) فاصله بین زیر سگمنت i , j می باشد و T_i یک مقدار آستانه می باشد. دو شرط اول وجود پیک محلی را تضمین می کنند و شرط سوم از آشکارسازی پیک های کوچک جلوگیری می کند. نتایج حاصل از معیار DSD نتایج قابل قبولی می باشند. در معیار DSD، تنظیم آستانه کار سختی می باشد و اگر آستانه خیلی کوچک باشد، آشکارسازی نادرستی انجام می گیرد. همچنین مقدار آستانه تحت تاثیر شرایط محیطی مختلف نیز قرار می گیرد، بعنوان مثال اگر گفتار در یک محیط نویزی باشد، فاصله بین زیر سگمنت های گفتاری افزایش می یابد و بنابراین برای یک محیط نویزی مقدار آستانه باید افزایش یابد. به کمک رابطه زیر میتوان آستانه مناسب را با استفاده از N فاصله پیاپی بدست آورد:[67]

(3-25)

N تعداد فواصل قبلی بکار رفته برای پیش بینی آستانه و a یک ضریب تقویت کننده با مقادیر است. نتیجه گیری در این سیستم بدین صورت است که اگر فاصله بین دو سگمنت گفتاری بزرگتر از یک آستانه باشد، این دو سگمنت گفتاری متعلق به دو گوینده مختلف می باشند.[16]

3-4-6- BIC متقاطع

این معیار فاصله در سال 2004 توسط هرناندو و آنگرا و در سال 2005 توسط آنگرا مورد استفاده قرار گرفت. این معیار فاصله با استفاده از BIC، میزان فاصله میان دو بخش مجاور را با استفاده از معیار درستنمایی[15] اندازه- گیری می نماید، رابطه زیر چگونگی محاسبه فاصله را نمایش می دهد.[1]

(3-26)

3-4-7-درستنمایی مدل مخلوط گوسی(GMM-L)

برای اندازه گیری درستنمایی مدل مخلوط گوسی بصورت زیر عمل می نماییم: اگر دو زیر سگمنت همسایه A و Bتوسط توزیع های گوسین چند متغیره و مدل شوند ، فاصله GMM-L بین این دو زیر سگمنت بصورت زیر محاسبه می شود.[17]

(3-31)

اگر مقدار فاصله دو زیر سگمنت کم باشد، احتمال اینکه نقطه تغییر گوینده بین A و B باشد، بیشتر است. [1]

[1]. Generalize Likelihood Ratio (GLR)

[2]. Kullback-Leibler distance (KL or KL2)

[3]. Divergence Shape Distance(DSD)

[4].Cross-BIC (XBIC)

[5].GMM Likelihood Measure(GMM-L)

1.Multivariate Gaussian Process

1.Maximum Likelihood Estimator

1. Full Covariance Matrice
1. Miss Locations
2. Dynamic
Multivariate Gussian Distribution

2.Symmetric

1.Fluctuation

2.Potential Speaker Change

[15].Cross-likelihood

روش های متداول آشکارسازی گوینده

دیدگاه‌ خود را بنویسید لغو پاسخ

ما راه یادگیری شما را کوتاه می کنیم

ایران متلب یکی از برندهای معتبر تولید فیلم آموزشی در ایران می باشد