انتخاب ويژگی Feature Selection

انتخاب ويژگی، تکنيک انتخاب زيرمجموعه­ای از ويژگی­های مرتبط است، که هدف آن ساختن يک مدل يادگيری قوی­تر می­باشد. در يادگيری ماشين و آمار از عناوينی مثل انتخاب متغيير، کاهش ويژگی­ها، انتخاب صفت يا انتخاب زيرمجموعه­ای از متغييرها به جای انتخاب ويژگی نيز استفاده می­شود (12). انتخاب ويژگی با حذف ويژگی­های بی­ربط و کاهش ابعاد ويژگی­های داده­ها به دلايل زير باعث بهبود کارايی مدل يادگيری می­شود:

  • کاهش اثرات منفی ابعاد بالا
  • افزايش قابليت تعميم
  • افزايش سرعت فرآيند آموزش
  • بهبود قابليت تفسير مدل

انتخاب ويژگی، با بيان اينکه کدام ويژگی­ها مهمتر هستند و ويژگی­ها چگونه با هم در ارتباط هستند، به افراد کمک می­کند تا ديد بهتری از داده­هايشان پيدا کنند. برای انتخاب ويژگی، تاکنون الگوريتم­های زيادی ارائه شده­ است. هر يک از اين الگوريتم­ها با توجه به نوع و حجم داده­ها، الگوريتم آموزش مورد استفاده و اينکه يادگيری نظارت شده يا بدون نظارت است، کاربرد دارند و الگوريتم انتخاب ويژگی بايد با در نظر گرفتن شرايط مسئله انتخاب شود. در اين تحقيق برای انتخاب ويژگی در بخش کلاس­بندی از الگوريتم SVM-RFE و برای بخش خوشه بندی الگوريتم PCAاستفاده شده است، که در ادامه اين بخش درباره اين الگوريتم­ها توضيح داده می­شود.

1-2-4-1- ماشين بردار پشتيبانی – استخراج ويژگی بازگشتی[1]

SVM-RFE برای اولين بار در تجزيه و تحليل داده­های ميکرو آرايه­ها، بويژه برای پيدا کردن ژن بيماری استفاده شد. اين روش ژن­های اضافی را حذف می­کند و زير مجموعه­ای از ژن­های بهتر را نگه می­دارد. در اين روش ويژگی­ها براساس يک معيار مرتبط با پشتيبانيشان از تابع جداکننده، حذف می­شوند و SVMدر هر گام مجدد آموزش می­بيند (15). SVM-RFEاز اندازه وزن­ها به عنوان معيار رتبه­بندی استفاده می­کند و دارای چهار مرحله زير می­باشد:

  • آموزش دادن SVMروی مجموعه داده­های آموزش
  • مرتب کردن مشخصات با استفاده از وزن­های به دست آمده از کلاس­بندی کننده
  • حذف کردن مشخصات دارای کمترين وزن
  • تکرار فرآيند آموزش با ويژگی­های باقی مانده در داده­های آموزش

در اين تحقيق از SVMبرای کلاس­بندی داده­ها و از SVM-RFE برای شناسايی بهترين مشخصات در بخش کلاس­بندی استفاده شده است.

1-2-4-2- تحليل مولفه­ های اصلی[2]

تحليل مولفه­های اصلی، يک مجموعه داده را به مجموعه داده جديدی تبديل می­کند، به شکلی که در مجموعه داده جديد احتمالاً تعداد کمتری ويژگی (يا حداکثر برابر با همان تعداد ويژگی­های مجموعه داده اصلی) وجود دارد و اين ويژگی­های جديد برخلاف داده­های اوليه که عموماً به هم وابسته­اند، مستقل از هم هستند. در واقع اين روش اطلاعات جديدی از داده­ها را بر اساس شباهت­ها و تفاوت­های ميان داده­های اوليه به دست می­آورد. از جمله مزايای اين روش، اين است که با تحليل داده­ها و به دست آوردن الگوی آن­ها می­توان به اطلاعات فشرده­ای دست يافت، که اين اطلاعات اگرچه فشرده و کم حجم­تر هستند اما تقريباً همه اطلاعات داده­های اصلی را حفظ کرده­اند. تحليل مولفه­های اصلی بر اصول آماری متکی است و کاهش تعداد ويژگی­ها در اين روش باعث شده است که به عنوان يکی از معمولترين روش­های استخراج ويژگی نظارت نشده مطرح شود (11). در ادامه با فرض اينکه خواننده با مفاهيم پايه آماری مورد استفاده در اين روش آشنا است، توضيح مختصری درباره مراحل ششگانه اين روش داده می­شود (11):

  • جمع آوری داده­ها

نوع ويژگی­های داده­های ورودی بايد عددی باشد.

  • تنظيم داده­ها

ميانگين هر ويژگی از مقادير همان ويژگی کم می­شوند.

  • محاسبه ماتريس کواريانس

کواريانس داده­ها محاسبه و ماتريس کواريانس داده­ها ساخته می­شود.

  • محاسبه مقادير ويژه و بردارهای ويژه ماتريس کواريانس

بردارهای ويژه و مقادير ويژه با استفاده از ماتريس کواريانس محاسبه می­شوند.

  • انتخاب مولفه­ها و ساختن بردار ويژگی

بردارهای ويژه حاصل از مرحله قبل دارای ارزش­های متفاوتی هستند و با مرتب کردن آن­ها و حذف تعدادی از بردارهای کم اهميت می­توان با از دست دادن اطلاعات کمی، داده­ها را متراکم کرده و حجم آن­ها را کاهش داد.

  • بدست آوردن داده­های جديد

در آخرين مرحله با ضرب ترانهاده بردار ويژه به دست آمده در مرحله قبل، در ترانهاده داده­های نرمال شده داده­های جديد در ابعاد کمتر به دست می­آيند.

[1]Support Vector Machine – Recursive Feature Extraction

[2]Principal Component Analysis

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.