در این سیستم ها هدف از خوشه بندی گوینده، شناسایی و دسته بندی سگمنت های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست و در نهایت نتیجه فرآیند خوشه بندی، یک خوشه در ازای هر گوینده خواهد بود. در سیستم های بخش بندی و خوشه بندی گوینده، روش خوشه بندی تجمعی سلسله مراتبی بیشتر از سایر روش ها دارای کاربرد می باشد که از یک معیار توقف بر اساس BIC استفاده می کند. در خوشه بندی بر اساس BIC عموما فاصله بین خوشه ها با برآورد نرخ درست نمایی عمومی مشخص می شود و بررسی می شود که آیا این زوج خوشه با دو توزیع گوسین مجزا و یا یک توزیع گوسین بهتر توصیف می شوند. اگر خوشه ها ادغام شوند، داده هر دو خوشه برای برآورد یک توزیع گوسین ترکیب می شود. مراحل ادغام وقتی پایان می یابد که حداقل فاصله، از یک آستانه مشخص(صفر) بیشتر شود. در مواردی نیز که تعداد گویندگان از قبل مشخص بوده است، از روش K-means برای خوشه بندی سگمنت ها استفاده شده است.[72] سیستم های خوشه بندی موجود اساسا از نظر تابع فاصله، نحوه ادغام خوشه ها و معیار توقف متفاوت هستند. همچنین از روش های خوشه بندی دیگری نظیر روش تقسیمی[1][73] و تلفیق بخش بندی و خوشه بندی [10][74] نیز با موفقیت استفاده شده است. برای اندازه گیری فاصله بین خوشه ها نیز معیارهای متفاوتی پیشنهاد شده است. از جمله این معیارها میتوان به نرخ لگاریتم درستنمایی ، GLR، KL2اشاره کرد که قبلا مفصلا توضیح داده شده اند. باید توجه داشت که انتخاب روش مناسب خوشه بندی دارای اهمیت زیادی می باشد و علاوه بر آن معیار توقف مورد استفاده نیز نقش حیاتی در تعیین میزان کارآیی دارد و تنظیم این معیار به نحوه استفاده از نتیجه خوشه بندی بستگی دارد. چون اگر خوشه بندی کمتر از حد[2] لازم صورت گرفته باشد، داده های گفتاری یک گوینده در چند خوشه پراکنده می شود و اگر خوشه بندی بیش از حد[3] باشد، خوشه های نهایی خالص نخواهند بود و شامل گفتار چند گوینده خواهند بود. که هر دو مورد برای انجام عمل فهرست نگاری مطلوب نیستند، اما ممکن است در کاربردهای دیگر مورد استفاده قرار گیرند. بعنوان مثال هرگاه مجموع گفتار چند گوینده مشابه را می خواهیم، خوشه بندی بیش از حد می تواند مفید باشد و زمانی که نتیجه خوشه بندی برای تطبیق گوینده در آماده سازی مدل های بازشناسی گفتار بکار می رود و گوینده در چند محیط آکوستیکی متفاوت سخن گفته باشد، خوشه بندی کمتر میتواند مفید باشد. معمولا برای معیار توقف از تغییر درستنمایی کلی بعد از خوشه بندی استفاده می کنند. متداول ترین معیار توقف برای این منظور BIC می باشد. [8]