خوشه بندی clustering

يكي ديگر از اهداف داده‌کاوی پديده‌ی خوشه‌بندي مي‌باشد، كه به فرآيند تقسيم مجموعه‌اي از داده‌ها (يا اشياء) به زير كلاس‌هايي با مفهوم خوشه‌ اشاره دارد. يك خوشه‌، يك‌ سري داده‌هاي مشابه مي‌باشد كه همانند يك گروه واحد رفتار مي‌كنند. لازم به ذكر است، خوشه‌بندي تاحدودیمشابه کلاس‌بندی است، با اين تفاوت كه كلاس‌ها از پيش‌تعريف‌شده و معين نمي‌باشند و عمل گروه‌بندي داده‌ها بدون نظارت انجام مي‌گيرد (11).

برخلاف کلاس‌بندی كه داده‌ها را براساس كلاس‌ها تحليل مي­كند،در خوشه‌بندي داده‌ها، بدون در نظر گرفتن برچسب‌هاي كلاس، تحليل می­شوند ومعمولاً برچسب كلاس‌ها درداده‌هاي آموزش مشخص نيست. خوشه‌بندي گاهي براي تعيين و توليد برچسب­هايي برای داده­ها بكار مي­رود. داده­های خوشه‌بندی‌ شده بر اساس اصل ماكزيمم شباهت بين اعضای هر کلاس و مينيمم شباهت بين کلاس‌های مختلف گروه‌بندی می‌شوند، يعنی خوشه‌ها به‌گونه‌ای تنظيم می‌شوند که اشيای داخل هر خوشه‌ بيشترين شباهت را با يكديگر داشته باشند. هر خوشه‌ به عنوان يك كلاس مي‌باشد، كه قوانين هر کلاس، از خوشه متناظرش مشتق مي­شوند (12).

روش­ها و الگوريتم­های بسياری برای خوشه­بندی ارائه شده است. يکی از اين روش­ها نگاشت خود سازمانده[1] می­باشد. در اين تحقيق از روش نگاشت خود سازمانده نوخاسته[2] استفاده شده است. در ادامه اين بخش درباره SOMو ESOMتوضيح مختصری داده می­شود.

1-2-3-1- نگاشت خود سازمانده و نگاشت خود سازمانده نوخاسته

نگاشت خود سازمانده يک نوع از شبکه­های عصبی مصنوعی است که به صورت نظارت نشده آموزش مي­بيند و هدف آن ايجاد يک نمايش از فضای داده­های ورودی به فضايی با ابعاد کمتر (معمولاً دو بعد) است. که به اين نمايش ابعاد پايين، نگاشت (يا نقشه) گفته می­شود. نگاشت خود سازمانده با ساير شبکه­های عصبی مصنوعی متفاوت است زيرا از يک تابع همسايگی به منظور حفظ خواص توپولوژيکی فضای ورودی استفاده می­کند. اين مدل برای اولين بار توسط يک پروفسور فنلاندی به نام کوهونن[3] ارائه شد، به همين دليل گاهی اوقات به نام نگاشت کوهونن شناخته می­شود (13).

همانند بيشتر شبکه­های عصبی مصنوعی SOMنيز در دو فاز آموزش و نگاشت اجرا می­شود. در فاز آموزش، نگاشت (يا نقشه) با استفاده از نمونه­های ورودی ساخته می­شود. آموزش يک فرآيند رقابتی است که به نام تدريج بردار[4] نيز شناخته می­شود. در فاز نگاشت بردارهای ورودی جديد به طور خودکار کلاس­بندی می­شوند (13).

نگاشت خود سازمانده از اجزايی به نام نرون تشکيل می­شود. هر نرون با يک بردار وزن با ابعادی، برابر با ابعاد داده ورودی و موقعيتش در فضای نگاشت مشخص می­شود. نرون­ها معمولاً در يک فضای منظم به شکل يک شبکه شش ضلعی يا مستطيل شکل چيده می­شوند. همان طور که پيش از اين اشاره شد، نگاشت خود سازمانده توصيفی از فضای ورودی با ابعاد بالا به نگاشتی با ابعاد پايين است. SOM برای قرار دادن يک بردار از فضای داده ورودی در نگاشت، نرونی که نزديکترين بردار وزن به فضای داده ورودی را دارد، پيدا می­کند، پس از مشخص شدن نزديکترين نرون، مقدار بردار وزن نرون، با توجه به داده ورودی، به روزرسانی می­شود. در اين روش استفاده از ماتريسU[5] بسيار متعارف است. مقدار يک نرون در ماتريسU، ميانگين فاصله بين نرون و نزديکترين همسايه­هايش است. در يک شبکه مربعی 4 يا 8 همسايه و در يک شبکه شش ضلعی شش همسايه در نظر گرفته می­شوند. از جمله توسعه­های مفيدی که در اين نوع شبکه­ها داده شده است، می­توان به شبکه­های چنبره­ای[6] اشاره کرد. در اين شبکه­ها لبه­های مخالف به يکديگر متصل شده­اند و از تعداد زيادی نرون استفاده می­کنند (13).

 نشان داده شده است که نگاشت­های خود سازمانده، با تعداد کمی نرون همانند روش k – ميانگين[7] رفتار می­کنند، درحاليکه شبکه­های خود سازمانده بزرگ داده­ها را به روشی که مشخصات توپولوژيکی اصلی حفظ شوند، مرتب می­کنند. اين ويژگی باعث مطرح شدن شبکه­های ESOMشد. تفاوت ميان ESOMو SOMسنتی اين است که ESOMاز تعداد بسيار زيادی (حداقل چند هزار) نرون استفاده می­کند. بنابراين ESOMبرای ايجاد يک ديد کلی از ساختار داده­های پراکنده[8] و دارای ابعاد بالا مناسب­تر است. در ESOMها ويژگی­ داده­ها بهتر مشخص می­شود، بنابراين از ESOMها که هزاران نرون دارند، می­توان برای خوشه­بندی مناسب­تر داده­ها استفاده کرد (14).

[1] Self Organizing Map (SOM)

[2]Emergent SOM

[3] Kohonen

[4]Vector Quantization

[5] U-Matrix

[6] Toroidal

[7]K-Means

[8] Sparse

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.