مارس 2017

روش های متداول آشکارسازی گوینده

متداول ترین معیارهایی که برای آشکارسازی تغییر گوینده بکار می روند عبارتند از:  -معیار اطلاعات بیزین  -نرخ درست نمایی عمومی[1]  -فاصله کالبک لیبلر[2]  -فاصله دیورژانس اشکال[3] BIC – متقاطع[4] -درستنمایی مدل مخلوط گوسی[5] در ادامه هر یک از معیارها را توضیح می دهیم.[80] 3-4-1-معیار اطلاعات بیزین (BIC) معیار بیزین بیشترین مورد استفاده در بخش بندی […]

روش های متداول آشکارسازی گوینده بیشتر بخوانید »

روش های بخش بندی گوینده

کل روش های بخش بندی گوینده درسه گروه خلاصه می شوند که عبارتند از: 1)بخش بندی بر اساس فاصله(متریک) 2)بخش بندی بر اساس مدل 3)بخش بندی هیبرید 3-2-1-بخش بندی بر اساس فاصله روش های متریک شاید یکی از تکنیک هایی است که تا بحال بیشترین استفاده را داشته اند. و بر اساس فاصله بین دو

روش های بخش بندی گوینده بیشتر بخوانید »

مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده

در یک فایل صوتی که شامل صحبت چندین گوینده می باشد، یکی از مهمترین موضوعات  مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده می باشد. بنابراین باید مشخص نماییم که هر نفر در چه بازه ای صحبت نموده است. در سال های اخیر این مسئله موضوع پژوهش در بسیاری موارد بوده است.

مشخص نمودن بازه زمانی بخش های گفتاری مربوط به هر گوینده بیشتر بخوانید »

بلوک دیاگرام چند VAD استاندارد

سه VAD استانداردی که در کاربردهای کدگذاری و انتقال اطلاعات گفتار مورد استفاده قرار می گیرند عبارتند از: AMR[1], GSM[2] , G.729B. از G.729B در این پایان نامه استفاده شده است، که درفصل پنجم توضیح داده شده است. در زیر بلوک دیاگرامهای دو موردآخر آورده شده است. 2-3-1-استاندارد ETSI[3] AMR موسسه استانداردسازی اروپا (ETSI)، دو

بلوک دیاگرام چند VAD استاندارد بیشتر بخوانید »

تصمیم گیری مبتنی بر شبکه های عصبی

در این روش بعد از فاز استخراج ویژگی، برای تصمیم گیری از یک شبکه عصبی استفاده می شود. شبکه های عصبی دارای ورودی، خروجی و لایه های مخفی میانی[1]می باشند.  شکل (2-7) دیاگرام ساده ای از این روش می باشد. شکل (2-7): نمودار ساده ای از یک VAD مبتنی برشبکه های عصبی[30] در [30] در

تصمیم گیری مبتنی بر شبکه های عصبی بیشتر بخوانید »

تصمیم گیری مبتنی بر مدل مخفی مارکوف

در این مدل، با در نظر گرفتن یک سری حالت، احتمال گذار حالات، یک بردار ویژگی و توابع توزیع عناصر بردار در هر حالت، … اعمال الگوریتم جستجوی ویتربی[1]بر روی مشاهدات، بهترین دنباله حالت برای رخداد این مشاهدات، بدست می آید. در [46] از ویژگی های ZCR، انرژی، تابع متوسط اندازه تفاضلاتAMDF[2] و اعمال آنها

تصمیم گیری مبتنی بر مدل مخفی مارکوف بیشتر بخوانید »

استخراج ویژگی تشخیص گفتار از غیرگفتار

یکی از نکات مهم در پیاده سازی VADها، انتخاب ویژگی و یا ویژگی هایی است که بتوان به کمک آنها به تمایز دو ناحیه سکوت وگفتار پرداخت. در این مرحله پارامترهای مورد نیاز از فریم مربوطه استخراج می شوند. عموما پارامترهایی انتخاب می شوند که فاکتور خوبی برای تمایز[1] نواحی سکوت و غیر سکوت از

استخراج ویژگی تشخیص گفتار از غیرگفتار بیشتر بخوانید »

پیش پردازش تشخیص گفتار از غیرگفتار

در این مرحله اعمال پنجره، فیلتر کردن اطلاعات و … انجام می شود. برای بررسی سیگنال، ابتدا سیگنال قاب- بندی[1] می شود. در اکثر الگوریتم های پردازش گفتار برای کمترکردن تاثیر لبه ها در طیف، از پنجره های همینگ یا هنینگ بجای پنجره مستطیلی و بطور هم پوشان استفاده می شود. شکل (2-2) نمایش یک

پیش پردازش تشخیص گفتار از غیرگفتار بیشتر بخوانید »

تشخیص گفتار از نواحی غیر گفتاری

سیگنال گفتار از دو ناحیه سکوت و غیرسکوت تشکیل می شود. آشکارسازی گفتار در حضور وقایع آکوستیکی غیرگفتاری و نویزهای زمینه، تشخیص گفتار از غیر گفتار نامیده می شود و با نام های[1]VAD، [2]PDT و یا EDT[3] بکار می رود. این عمل یکی از اجزاء مهم در برخی از کاربردهای پردازش گفتار نظیر تشخیص گفتار[4]،

تشخیص گفتار از نواحی غیر گفتاری بیشتر بخوانید »

روش های بخش بندی و خوشه بندی گویندگان

تاکنون روش های مختلفی برای بخش بندی و خوشه بندی گویندگان در یک جریان صوتی پیشنهاد شده است. روش های بکارگرفته شده را میتوان در سه دسته طبقه بندی نمود: روش های بر اساس فاصله[1] [7][11] روش های بر اساس مدل[2] [12-14] روش های هیبرید یا ترکیبی[3] [15-17] 1-3-1-روش بر اساس فاصله در این روش

روش های بخش بندی و خوشه بندی گویندگان بیشتر بخوانید »