معیار ارزیابی سیستم های تشخیص گوینده

برای ارزیابی سیستم از نظیرکردن یک به یک گوینده های مرجع به گوینده هایی که سیستم آنها را تشخیص داده است، استفاده می شود. این موضوع را در نظیر کردن مورد توجه قرار می دهیم که هر گوینده در مرجع باید حداکثر به یک گوینده در خروجی سیستم نظیر شود و هر گوینده در خروجی سیستم باید حداکثر به یک گوینده در مرجع نسبت داده شود. معیار اصلی ارزیابی سیستم، عبارت است از کسری از رشته داده ی صوتی که به درستی به گوینده ای نسبت داده شده است. معیارهای مختلفی در مقالات مختلف برای ارزیابی کارایی الگوریتم های بخش بندی و خوشه بندی مورد استفاده قرار می گیرد. در ادامه به توضیح رایج ترین آنها می-پردازیم.

اگر یک الگوریتم بخش بندی به خوبی تغییرات صحیح گوینده ها را نتیجه دهد، هر بخش تشخیصی تنها شامل گفتار یک گوینده خواهد بود. در آشکارسازی تغییرات گوینده ها، با دو نوع خطا روبرو هستیم:

-خطای درج[1]: زمانی که یک تغییر گوینده آشکار شود ولی در مرجع این تغییر گوینده وجود ندارد.

-خظای حذف[2]: تغییر گوینده وجود دارد، ولی این تغییر آشکار نشده است.

این خطاها تاثیرات متفاوتی با توجه به کاربرد بر روی سیستم دارند. در سیستم هایی که ابتدا بخش بندی و سپس کلاسه بندی انجام می شود، خطاهای درج که باعث بخش بندی بیش از اندازه می شوند از خطاهای حذف کم اهمیت تر هستند، چون در مرحله خوشه بندی با دسته بندی سگمنت های متعلق به هر گوینده، امکان تصحیح خطاهای درج وجود دارد. در حالیکه خطاهای حذف را نمیتوان در این مرحله تصحیح نمود.]40[ برای تحلیل خطاها به یک مرجع تغییرات گوینده نیاز داریم، که این مرجع توسط بخش بندی دستی که خیلی هم دقیق نیست، بدست می آید. همانطور که قبلا توضیح داده شد، نقطه تغییر گوینده مرز هر سگمنت می- باشد. محل درست مرز برای یک سگمنت بطور دقیق تعریف نمی شود و اکثرا دو سگمنت بوسیله سکوت کوتاهی از هم جدا می شوند. و هر مرز سگمنت که داخل این محدوده سکوت قرار گیرد، مرز صحیح تلقی می- شود. بنابراین یک محدوده زمانی تعریف می شود که اگر مرز سگمنت فرضی داخل فاصله زمانی از مرز مرجع قرار گیرد، این مرز به عنوان یک مرز صحیح در نظر گرفته می- شود.]64[ با آزمایشاتی که انجام شد، مقادیر مناسب، 100تا 200 میلی ثانیه تشخیص داده شد. معیارهای ارزیابی کارایی واحد بخش بندی بصورت زیر تعریف می شوند:

-دقت[3](PRC) : نسبت تعداد مرزهای صحیح آشکار شده به مجموع تعداد مرزهای آشکار شده توسط واحد بخش بندی. این خطا هنگامی اتفاق می افتد که نقطه تغییر گوینده آشکارشده، صحیح نباشد. (خطای درج)

-فراخوانی (RCL)[4]: نسبت تعداد مرزهای صحیح آشکارشده به کل تعداد مرزها (تمام نقاط تغییر گوینده در مرجع). این خطا هنگامی اتفاق می افتد که واحد بخش بندی، نقطه تغییر گوینده ای را از دست بدهد. (خطای حذف)

سیستمی که دو معیار دقت و فراخوانی بالایی داشته باشد، مطلوب تر است. برای اینکه هر دو عامل فوق را برای بیان میزان کارایی الگوریتم به راحتی مورد استفاده قرار دهیم، یک معیار هارمونیکی که F نام دارد و ترکیبی از دو عامل فوق با وزن یکسان است، و با رابطه (5-2) تعریف می شود، مورد استفاده قرار می گیرد.

(5-2)

با توجه به رابطه (5-2)، میتوان گفت که تغییر می کند. اگر F=1 باشد، به معنای بخش بندی کاملا درست است و F=0 یعنی بخش بندی کاملا نادرست است.]15[ البته در بعضی مقالات به جای موارد فوق از روابط زیر استفاده می نمایند.

(5-3)

این معیارها مقایسهای است بین قسمتهای تشخیص داده شده و قسمتهائی که در دادگان مورد آزمایش موجود بوده است. و توسط روابط (5-4) و (5-5) محاسبه می شوند.

(5-4)

(5-5)

برای بررسی سیستم پیاده سازی شده در این پایان نامه نیز از این معیارها استفاده شده است. البته معیار دیگری که در سال های اخیر برای محاسبه خطای سیستم های تشخیص گوینده مورد استفاده “نرخ خطای سیستم تشخیص گوینده ” یا DER[5] نامیده می شود.[29] با استفاده از رابطه (5-6) محاسبه میشود.

(5-6)

SE[6]: کل زمانی که برای گویندهی اشتباهی اختصاص داده شده است.
[7]MS: کل زمانی که در آن تعداد گویندگان کمتری نسبت به حالت صحیح تشخیص داده شده است.

FA[8] : کل زمانی که در آن تعداد گویندگان بیشتری نسبت به حالت صحیح تشخیص داده شده است.

SPK[9] : جمع کل زمان سخنان هر گوینده که به مرجع اختصاص داده شده است.

به بیان دیگر میتوانیم بگوئیم که DER نسبت کل زمانی است که خطا اتفاق افتاده به کل زمان عملیات میباشد. این مفهوم در شکل (5-5) نشان داده شده است.

شکل (5-5): تشخیص خطا در سیستم های تشخیص گوینده]29[

کارایی مرحله کلاسترینگ نیز با معیار K سنجیده می شود].70[

(5-7)

acp : عبارت است از درستی(خلوص) خوشه متوسط و از رابطه (5-4) بدست می آید.

(5-8)

مقدار فوق خلوص یک خوشه است و با رابطه (5-5) در زیر تعریف می شود:

(5-9)

:مجموع تعداد فریم های صحبت گوینده j در خوشه i

: مجموع تعداد گویندگان و : مجموع تعداد خوشه ها و N: مجموع تعداد قاب ها.

: مجموع تعداد قاب ها در خوشه i و : مجموع تعداد قاب های صحبت شده توسط گوینده j

همچنین (خلوص گوینده) و asp از روابط زیر محاسبه می شود:

(5-10)

(5-11)

مقدار asp بیان می کند که تا چه اندازه یک گوینده به تنها یک خوشه محدود می شود و مقدار acp نشان می- دهد که به چه میزان یک خوشه به تنها یک گوینده محدود می شود.

[1] .Insertion errors

[2] .Deletion errors

[3] .Precision

[4] .Recall

[5]. Diarization Error Rate (DER)

[6] . Speaker Error time

[7] . Missed Speaker time

[8] . False Alarm Speaker time

[9] . Scored Speaker time

معیار ارزیابی سیستم های تشخیص گوینده

دیدگاه‌ خود را بنویسید لغو پاسخ

ما راه یادگیری شما را کوتاه می کنیم

ایران متلب یکی از برندهای معتبر تولید فیلم آموزشی در ایران می باشد