ایران متلب

روش های خوشه بندی متداول در سیستم های خوشه بندی گوینده

در این سیستم ها هدف از خوشه بندی گوینده، شناسایی و دسته بندی سگمنت های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست و در نهایت نتیجه فرآیند خوشه بندی، یک خوشه در ازای هر گوینده خواهد بود. در سیستم های بخش بندی و خوشه بندی گوینده، روش خوشه بندی تجمعی […]

روش های خوشه بندی متداول در سیستم های خوشه بندی گوینده بیشتر بخوانید »

روش های خوشه بندی

خوشه بندی، سازمان دهی مجموعه ای از الگوها[1] بر اساس شباهت در خوشه ها است. به نحوی که الگوهای داخل یک خوشه شبیه به هم بوده و دارای بیشترین تفاوت با الگوهای خوشه های دیگر باشند. بطور کلی، فرآیند خوشه بندی بصورت یک دسته بندی بدون سرپرست، تعریف می شود که هیچ اطلاع قبلی در

روش های خوشه بندی بیشتر بخوانید »

روش های متداول آشکارسازی گوینده

متداول ترین معیارهایی که برای آشکارسازی تغییر گوینده بکار می روند عبارتند از:  -معیار اطلاعات بیزین  -نرخ درست نمایی عمومی[1]  -فاصله کالبک لیبلر[2]  -فاصله دیورژانس اشکال[3] BIC – متقاطع[4] -درستنمایی مدل مخلوط گوسی[5] در ادامه هر یک از معیارها را توضیح می دهیم.[80] 3-4-1-معیار اطلاعات بیزین (BIC) معیار بیزین بیشترین مورد استفاده در بخش بندی

روش های متداول آشکارسازی گوینده بیشتر بخوانید »

روش های بخش بندی گوینده

کل روش های بخش بندی گوینده درسه گروه خلاصه می شوند که عبارتند از: 1)بخش بندی بر اساس فاصله(متریک) 2)بخش بندی بر اساس مدل 3)بخش بندی هیبرید 3-2-1-بخش بندی بر اساس فاصله روش های متریک شاید یکی از تکنیک هایی است که تا بحال بیشترین استفاده را داشته اند. و بر اساس فاصله بین دو

روش های بخش بندی گوینده بیشتر بخوانید »

مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده

در یک فایل صوتی که شامل صحبت چندین گوینده می باشد، یکی از مهمترین موضوعات  مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده می باشد. بنابراین باید مشخص نماییم که هر نفر در چه بازه ای صحبت نموده است. در سال های اخیر این مسئله موضوع پژوهش در بسیاری موارد بوده است.

مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده بیشتر بخوانید »

بلوک دیاگرام چند VAD استاندارد

سه VAD استانداردی که در کاربردهای کدگذاری و انتقال اطلاعات گفتار مورد استفاده قرار می گیرند عبارتند از: AMR[1], GSM[2] , G.729B. از G.729B در این پایان نامه استفاده شده است، که درفصل پنجم توضیح داده شده است. در زیر بلوک دیاگرامهای دو موردآخر آورده شده است. 2-3-1-استاندارد ETSI[3] AMR موسسه استانداردسازی اروپا (ETSI)، دو

بلوک دیاگرام چند VAD استاندارد بیشتر بخوانید »

تصمیم گیری مبتنی بر شبکه های عصبی

در این روش بعد از فاز استخراج ویژگی، برای تصمیم گیری از یک شبکه عصبی استفاده می شود. شبکه های عصبی دارای ورودی، خروجی و لایه های مخفی میانی[1]می باشند.  شکل (2-7) دیاگرام ساده ای از این روش می باشد. شکل (2-7): نمودار ساده ای از یک VAD مبتنی برشبکه های عصبی[30] در [30] در

تصمیم گیری مبتنی بر شبکه های عصبی بیشتر بخوانید »

تصمیم گیری مبتنی بر مدل مخفی مارکوف

در این مدل، با در نظر گرفتن یک سری حالت، احتمال گذار حالات، یک بردار ویژگی و توابع توزیع عناصر بردار در هر حالت، … اعمال الگوریتم جستجوی ویتربی[1]بر روی مشاهدات، بهترین دنباله حالت برای رخداد این مشاهدات، بدست می آید. در [46] از ویژگی های ZCR، انرژی، تابع متوسط اندازه تفاضلاتAMDF[2] و اعمال آنها

تصمیم گیری مبتنی بر مدل مخفی مارکوف بیشتر بخوانید »

استخراج ویژگی تشخیص گفتار از غیرگفتار

یکی از نکات مهم در پیاده سازی VADها، انتخاب ویژگی و یا ویژگی هایی است که بتوان به کمک آنها به تمایز دو ناحیه سکوت وگفتار پرداخت. در این مرحله پارامترهای مورد نیاز از فریم مربوطه استخراج می شوند. عموما پارامترهایی انتخاب می شوند که فاکتور خوبی برای تمایز[1] نواحی سکوت و غیر سکوت از

استخراج ویژگی تشخیص گفتار از غیرگفتار بیشتر بخوانید »

پیش پردازش تشخیص گفتار از غیرگفتار

در این مرحله اعمال پنجره، فیلتر کردن اطلاعات و … انجام می شود. برای بررسی سیگنال، ابتدا سیگنال قاب- بندی[1] می شود. در اکثر الگوریتم های پردازش گفتار برای کمترکردن تاثیر لبه ها در طیف، از پنجره های همینگ یا هنینگ بجای پنجره مستطیلی و بطور هم پوشان استفاده می شود. شکل (2-2) نمایش یک

پیش پردازش تشخیص گفتار از غیرگفتار بیشتر بخوانید »