انتخاب ويژگی، تکنيک انتخاب زيرمجموعهای از ويژگیهای مرتبط است، که هدف آن ساختن يک مدل يادگيری قویتر میباشد. در يادگيری ماشين و آمار از عناوينی مثل انتخاب متغيير، کاهش ويژگیها، انتخاب صفت يا انتخاب زيرمجموعهای از متغييرها به جای انتخاب ويژگی نيز استفاده میشود (12). انتخاب ويژگی با حذف ويژگیهای بیربط و کاهش ابعاد ويژگیهای دادهها به دلايل زير باعث بهبود کارايی مدل يادگيری میشود:
- کاهش اثرات منفی ابعاد بالا
- افزايش قابليت تعميم
- افزايش سرعت فرآيند آموزش
- بهبود قابليت تفسير مدل
انتخاب ويژگی، با بيان اينکه کدام ويژگیها مهمتر هستند و ويژگیها چگونه با هم در ارتباط هستند، به افراد کمک میکند تا ديد بهتری از دادههايشان پيدا کنند. برای انتخاب ويژگی، تاکنون الگوريتمهای زيادی ارائه شده است. هر يک از اين الگوريتمها با توجه به نوع و حجم دادهها، الگوريتم آموزش مورد استفاده و اينکه يادگيری نظارت شده يا بدون نظارت است، کاربرد دارند و الگوريتم انتخاب ويژگی بايد با در نظر گرفتن شرايط مسئله انتخاب شود. در اين تحقيق برای انتخاب ويژگی در بخش کلاسبندی از الگوريتم SVM-RFE و برای بخش خوشه بندی الگوريتم PCAاستفاده شده است، که در ادامه اين بخش درباره اين الگوريتمها توضيح داده میشود.
1-2-4-1- ماشين بردار پشتيبانی – استخراج ويژگی بازگشتی[1]
SVM-RFE برای اولين بار در تجزيه و تحليل دادههای ميکرو آرايهها، بويژه برای پيدا کردن ژن بيماری استفاده شد. اين روش ژنهای اضافی را حذف میکند و زير مجموعهای از ژنهای بهتر را نگه میدارد. در اين روش ويژگیها براساس يک معيار مرتبط با پشتيبانيشان از تابع جداکننده، حذف میشوند و SVMدر هر گام مجدد آموزش میبيند (15). SVM-RFEاز اندازه وزنها به عنوان معيار رتبهبندی استفاده میکند و دارای چهار مرحله زير میباشد:
- آموزش دادن SVMروی مجموعه دادههای آموزش
- مرتب کردن مشخصات با استفاده از وزنهای به دست آمده از کلاسبندی کننده
- حذف کردن مشخصات دارای کمترين وزن
- تکرار فرآيند آموزش با ويژگیهای باقی مانده در دادههای آموزش
در اين تحقيق از SVMبرای کلاسبندی دادهها و از SVM-RFE برای شناسايی بهترين مشخصات در بخش کلاسبندی استفاده شده است.
1-2-4-2- تحليل مولفه های اصلی[2]
تحليل مولفههای اصلی، يک مجموعه داده را به مجموعه داده جديدی تبديل میکند، به شکلی که در مجموعه داده جديد احتمالاً تعداد کمتری ويژگی (يا حداکثر برابر با همان تعداد ويژگیهای مجموعه داده اصلی) وجود دارد و اين ويژگیهای جديد برخلاف دادههای اوليه که عموماً به هم وابستهاند، مستقل از هم هستند. در واقع اين روش اطلاعات جديدی از دادهها را بر اساس شباهتها و تفاوتهای ميان دادههای اوليه به دست میآورد. از جمله مزايای اين روش، اين است که با تحليل دادهها و به دست آوردن الگوی آنها میتوان به اطلاعات فشردهای دست يافت، که اين اطلاعات اگرچه فشرده و کم حجمتر هستند اما تقريباً همه اطلاعات دادههای اصلی را حفظ کردهاند. تحليل مولفههای اصلی بر اصول آماری متکی است و کاهش تعداد ويژگیها در اين روش باعث شده است که به عنوان يکی از معمولترين روشهای استخراج ويژگی نظارت نشده مطرح شود (11). در ادامه با فرض اينکه خواننده با مفاهيم پايه آماری مورد استفاده در اين روش آشنا است، توضيح مختصری درباره مراحل ششگانه اين روش داده میشود (11):
- جمع آوری دادهها
نوع ويژگیهای دادههای ورودی بايد عددی باشد.
- تنظيم دادهها
ميانگين هر ويژگی از مقادير همان ويژگی کم میشوند.
- محاسبه ماتريس کواريانس
کواريانس دادهها محاسبه و ماتريس کواريانس دادهها ساخته میشود.
- محاسبه مقادير ويژه و بردارهای ويژه ماتريس کواريانس
بردارهای ويژه و مقادير ويژه با استفاده از ماتريس کواريانس محاسبه میشوند.
- انتخاب مولفهها و ساختن بردار ويژگی
بردارهای ويژه حاصل از مرحله قبل دارای ارزشهای متفاوتی هستند و با مرتب کردن آنها و حذف تعدادی از بردارهای کم اهميت میتوان با از دست دادن اطلاعات کمی، دادهها را متراکم کرده و حجم آنها را کاهش داد.
- بدست آوردن دادههای جديد
در آخرين مرحله با ضرب ترانهاده بردار ويژه به دست آمده در مرحله قبل، در ترانهاده دادههای نرمال شده دادههای جديد در ابعاد کمتر به دست میآيند.
[1]Support Vector Machine – Recursive Feature Extraction
[2]Principal Component Analysis