آموزش

معیار ارزیابی سیستم های تشخیص گوینده

برای ارزیابی سیستم از نظیرکردن یک به یک گوینده های مرجع به گوینده هایی که سیستم آنها را تشخیص داده است، استفاده می شود. این موضوع را در نظیر کردن مورد توجه قرار می دهیم که هر گوینده در مرجع باید حداکثر به یک گوینده در خروجی سیستم نظیر شود و هر گوینده در خروجی […]

معیار ارزیابی سیستم های تشخیص گوینده بیشتر بخوانید »

دسته بندی کننده ماشین بردار پشتیبان

ماشين­هاي بردار پشتيبان يك تكنيك دسته­بندي و رگرسيون است كه توسط وپنیک[1] و گروهش در آزمايشگاه AT&T Bell پيشنهاد شده است و در حال حاضر در بسياري از زمينه­ها مثل تشخيص چهره، تشخیص صوت، بازشناسي ديجيتالي هويت با استفاده از دست­خط وغیره استفاده مي­شود. این دسته­بندی کننده یک دسته­بندی کننده خطی است که می­توان با

دسته بندی کننده ماشین بردار پشتیبان بیشتر بخوانید »

روش های خوشه بندی متداول در سیستم های خوشه بندی گوینده

در این سیستم ها هدف از خوشه بندی گوینده، شناسایی و دسته بندی سگمنت های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست و در نهایت نتیجه فرآیند خوشه بندی، یک خوشه در ازای هر گوینده خواهد بود. در سیستم های بخش بندی و خوشه بندی گوینده، روش خوشه بندی تجمعی

روش های خوشه بندی متداول در سیستم های خوشه بندی گوینده بیشتر بخوانید »

روش های خوشه بندی

خوشه بندی، سازمان دهی مجموعه ای از الگوها[1] بر اساس شباهت در خوشه ها است. به نحوی که الگوهای داخل یک خوشه شبیه به هم بوده و دارای بیشترین تفاوت با الگوهای خوشه های دیگر باشند. بطور کلی، فرآیند خوشه بندی بصورت یک دسته بندی بدون سرپرست، تعریف می شود که هیچ اطلاع قبلی در

روش های خوشه بندی بیشتر بخوانید »

روش های متداول آشکارسازی گوینده

متداول ترین معیارهایی که برای آشکارسازی تغییر گوینده بکار می روند عبارتند از:  -معیار اطلاعات بیزین  -نرخ درست نمایی عمومی[1]  -فاصله کالبک لیبلر[2]  -فاصله دیورژانس اشکال[3] BIC – متقاطع[4] -درستنمایی مدل مخلوط گوسی[5] در ادامه هر یک از معیارها را توضیح می دهیم.[80] 3-4-1-معیار اطلاعات بیزین (BIC) معیار بیزین بیشترین مورد استفاده در بخش بندی

روش های متداول آشکارسازی گوینده بیشتر بخوانید »

روش های بخش بندی گوینده

کل روش های بخش بندی گوینده درسه گروه خلاصه می شوند که عبارتند از: 1)بخش بندی بر اساس فاصله(متریک) 2)بخش بندی بر اساس مدل 3)بخش بندی هیبرید 3-2-1-بخش بندی بر اساس فاصله روش های متریک شاید یکی از تکنیک هایی است که تا بحال بیشترین استفاده را داشته اند. و بر اساس فاصله بین دو

روش های بخش بندی گوینده بیشتر بخوانید »

مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده

در یک فایل صوتی که شامل صحبت چندین گوینده می باشد، یکی از مهمترین موضوعات  مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده می باشد. بنابراین باید مشخص نماییم که هر نفر در چه بازه ای صحبت نموده است. در سال های اخیر این مسئله موضوع پژوهش در بسیاری موارد بوده است.

مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده بیشتر بخوانید »

بلوک دیاگرام چند VAD استاندارد

سه VAD استانداردی که در کاربردهای کدگذاری و انتقال اطلاعات گفتار مورد استفاده قرار می گیرند عبارتند از: AMR[1], GSM[2] , G.729B. از G.729B در این پایان نامه استفاده شده است، که درفصل پنجم توضیح داده شده است. در زیر بلوک دیاگرامهای دو موردآخر آورده شده است. 2-3-1-استاندارد ETSI[3] AMR موسسه استانداردسازی اروپا (ETSI)، دو

بلوک دیاگرام چند VAD استاندارد بیشتر بخوانید »

تصمیم گیری مبتنی بر شبکه های عصبی

در این روش بعد از فاز استخراج ویژگی، برای تصمیم گیری از یک شبکه عصبی استفاده می شود. شبکه های عصبی دارای ورودی، خروجی و لایه های مخفی میانی[1]می باشند.  شکل (2-7) دیاگرام ساده ای از این روش می باشد. شکل (2-7): نمودار ساده ای از یک VAD مبتنی برشبکه های عصبی[30] در [30] در

تصمیم گیری مبتنی بر شبکه های عصبی بیشتر بخوانید »

تصمیم گیری مبتنی بر مدل مخفی مارکوف

در این مدل، با در نظر گرفتن یک سری حالت، احتمال گذار حالات، یک بردار ویژگی و توابع توزیع عناصر بردار در هر حالت، … اعمال الگوریتم جستجوی ویتربی[1]بر روی مشاهدات، بهترین دنباله حالت برای رخداد این مشاهدات، بدست می آید. در [46] از ویژگی های ZCR، انرژی، تابع متوسط اندازه تفاضلاتAMDF[2] و اعمال آنها

تصمیم گیری مبتنی بر مدل مخفی مارکوف بیشتر بخوانید »