يكي ديگر از اهداف دادهکاوی پديدهی خوشهبندي ميباشد، كه به فرآيند تقسيم مجموعهاي از دادهها (يا اشياء) به زير كلاسهايي با مفهوم خوشه اشاره دارد. يك خوشه، يك سري دادههاي مشابه ميباشد كه همانند يك گروه واحد رفتار ميكنند. لازم به ذكر است، خوشهبندي تاحدودیمشابه کلاسبندی است، با اين تفاوت كه كلاسها از پيشتعريفشده و معين نميباشند و عمل گروهبندي دادهها بدون نظارت انجام ميگيرد (11).
برخلاف کلاسبندی كه دادهها را براساس كلاسها تحليل ميكند،در خوشهبندي دادهها، بدون در نظر گرفتن برچسبهاي كلاس، تحليل میشوند ومعمولاً برچسب كلاسها دردادههاي آموزش مشخص نيست. خوشهبندي گاهي براي تعيين و توليد برچسبهايي برای دادهها بكار ميرود. دادههای خوشهبندی شده بر اساس اصل ماكزيمم شباهت بين اعضای هر کلاس و مينيمم شباهت بين کلاسهای مختلف گروهبندی میشوند، يعنی خوشهها بهگونهای تنظيم میشوند که اشيای داخل هر خوشه بيشترين شباهت را با يكديگر داشته باشند. هر خوشه به عنوان يك كلاس ميباشد، كه قوانين هر کلاس، از خوشه متناظرش مشتق ميشوند (12).
روشها و الگوريتمهای بسياری برای خوشهبندی ارائه شده است. يکی از اين روشها نگاشت خود سازمانده[1] میباشد. در اين تحقيق از روش نگاشت خود سازمانده نوخاسته[2] استفاده شده است. در ادامه اين بخش درباره SOMو ESOMتوضيح مختصری داده میشود.
1-2-3-1- نگاشت خود سازمانده و نگاشت خود سازمانده نوخاسته
نگاشت خود سازمانده يک نوع از شبکههای عصبی مصنوعی است که به صورت نظارت نشده آموزش ميبيند و هدف آن ايجاد يک نمايش از فضای دادههای ورودی به فضايی با ابعاد کمتر (معمولاً دو بعد) است. که به اين نمايش ابعاد پايين، نگاشت (يا نقشه) گفته میشود. نگاشت خود سازمانده با ساير شبکههای عصبی مصنوعی متفاوت است زيرا از يک تابع همسايگی به منظور حفظ خواص توپولوژيکی فضای ورودی استفاده میکند. اين مدل برای اولين بار توسط يک پروفسور فنلاندی به نام کوهونن[3] ارائه شد، به همين دليل گاهی اوقات به نام نگاشت کوهونن شناخته میشود (13).
همانند بيشتر شبکههای عصبی مصنوعی SOMنيز در دو فاز آموزش و نگاشت اجرا میشود. در فاز آموزش، نگاشت (يا نقشه) با استفاده از نمونههای ورودی ساخته میشود. آموزش يک فرآيند رقابتی است که به نام تدريج بردار[4] نيز شناخته میشود. در فاز نگاشت بردارهای ورودی جديد به طور خودکار کلاسبندی میشوند (13).
نگاشت خود سازمانده از اجزايی به نام نرون تشکيل میشود. هر نرون با يک بردار وزن با ابعادی، برابر با ابعاد داده ورودی و موقعيتش در فضای نگاشت مشخص میشود. نرونها معمولاً در يک فضای منظم به شکل يک شبکه شش ضلعی يا مستطيل شکل چيده میشوند. همان طور که پيش از اين اشاره شد، نگاشت خود سازمانده توصيفی از فضای ورودی با ابعاد بالا به نگاشتی با ابعاد پايين است. SOM برای قرار دادن يک بردار از فضای داده ورودی در نگاشت، نرونی که نزديکترين بردار وزن به فضای داده ورودی را دارد، پيدا میکند، پس از مشخص شدن نزديکترين نرون، مقدار بردار وزن نرون، با توجه به داده ورودی، به روزرسانی میشود. در اين روش استفاده از ماتريسU[5] بسيار متعارف است. مقدار يک نرون در ماتريسU، ميانگين فاصله بين نرون و نزديکترين همسايههايش است. در يک شبکه مربعی 4 يا 8 همسايه و در يک شبکه شش ضلعی شش همسايه در نظر گرفته میشوند. از جمله توسعههای مفيدی که در اين نوع شبکهها داده شده است، میتوان به شبکههای چنبرهای[6] اشاره کرد. در اين شبکهها لبههای مخالف به يکديگر متصل شدهاند و از تعداد زيادی نرون استفاده میکنند (13).
نشان داده شده است که نگاشتهای خود سازمانده، با تعداد کمی نرون همانند روش k – ميانگين[7] رفتار میکنند، درحاليکه شبکههای خود سازمانده بزرگ دادهها را به روشی که مشخصات توپولوژيکی اصلی حفظ شوند، مرتب میکنند. اين ويژگی باعث مطرح شدن شبکههای ESOMشد. تفاوت ميان ESOMو SOMسنتی اين است که ESOMاز تعداد بسيار زيادی (حداقل چند هزار) نرون استفاده میکند. بنابراين ESOMبرای ايجاد يک ديد کلی از ساختار دادههای پراکنده[8] و دارای ابعاد بالا مناسبتر است. در ESOMها ويژگی دادهها بهتر مشخص میشود، بنابراين از ESOMها که هزاران نرون دارند، میتوان برای خوشهبندی مناسبتر دادهها استفاده کرد (14).
[1] Self Organizing Map (SOM)
[2]Emergent SOM
[3] Kohonen
[4]Vector Quantization
[5] U-Matrix
[6] Toroidal
[7]K-Means
[8] Sparse