ماشينهاي بردار پشتيبان يك تكنيك دستهبندي و رگرسيون است كه توسط وپنیک[1] و گروهش در آزمايشگاه AT&T Bell پيشنهاد شده است و در حال حاضر در بسياري از زمينهها مثل تشخيص چهره، تشخیص صوت، بازشناسي ديجيتالي هويت با استفاده از دستخط وغیره استفاده ميشود. این دستهبندی کننده یک دستهبندی کننده خطی است که میتوان با اعمال برخی تغییرات از آن به عنوان دستهبندی کننده غیر خطی نیز بهرهجست. توانایی این دستهبندی کننده در یافتن فوق صفحه بهینه برای دستهبندی میباشد. در ادامه به بررسی این دستهبندی کننده و توانایی آن در دسته بندی دادههای خطی در دو حالت جداپذیر کامل و جدا ناپذیر کامل میپردازیم و سپس نحوه استفاده از این دستهبندی کننده را برای دادههای غیرخطی شرح میدهیم.
4-5-1- دستهبندی کننده ماشین بردار پشتیبان خطی
4-5-1-1- دستهبندی کلاسهای جداپذیر
در این بخش هدف طراحی یک دستهبندی کننده خطی به منظور جداسازی کلاسهای جداپذیر از هم میباشد. در ابتدا یک دستهبندی کننده خطی به منظور جداسازی دادههای دو کلاس جداپذیر از هم معرفی میگردد و سپس این دستهبندی کننده را به منظور جدا سازی دادههای کلی و جداناپذیر گسترش میدهیم.[28]
فرض کنید بردارهای ویژگی برای دادههای آموزشی[2] باشد. این دادهها به دو کلاس و ، که به صورت خطی از هم جداپذیرند، تعلق دارند. هدف بدست آوردن فوق صفحه به نحوی است که تمامی دادههای آموزشی را صحیح دستهبندی کند. به صورت کلی این فوق صفحه یکتا نبوده و میتوان مقادیر مختلفی را برای و بدست آورد. شکل (4-6) دو نمونه از فوق صفحههایی را که میتوان به منظور دستهبندی صحیح نقاط داده شده در نظرگرفت را نشان میدهد.
شکل(4-6): یک نمونه از مسئله دو کلاسه خطی جداپذیر که نمونهها توسط دو دستهبندی کننده خطی جدا شده.
هر دو فوق صفحه نشان داده شده در شکل (4-6) عمل جداسازی را به درستی انجام میدهند، اما واضح است که خط متصل نسبت به خط منقطع دستهبندی کننده مناسبتری است. زیرا این فوق صفحه فضای بیشتری را در دو طرف خود ایجاد میکند. این بدان معنی است که این دستهبندی کننده در زمان دستهبندی نمونههای آزمایشی نتایج بهتری را از خود نشان میدهد. این نتیجه امری بسیار مهم در طراحی دستهبندی کنندههاست و آنرا عمومیت عملکرد[3] دستهبندی کننده مینامند. این مسئله به توانایی دستهبندی کننده در دستهبندی رضایتبخش دادههای خارجی برمیگردد.
بنابراین در دستهبندی کننده ماشینهای بردار پشتیبان قصد بر این است که علاوه بر دستهبندی صحیح دادههای آموزشی، فوق صفحهای را بدست آوریم که حاشیه[4] بین دو کلاس را بیشینه کند. منظور از حاشیه بین دو کلاس فاصلهای است که فوقصفحه بین دو کلاس باقی میگذارد.
هر فوق صفحه بوسیله جهت و مکان دقیقش در فضا مشخص میگردد که جهت فوقصفحه را و مکان دقیق آنرا در فضا مشخص میکند. به دلیل اینکه هیچ برتری بین دو کلاس وجود ندارد، لازم است فاصله فوق صفحه از نزدیکترین نقاط هر دو کلاس و به یک اندازه باشد. بنابراین لازم است فوق صفحهای را بیابیم که بیشترین حاشیه ممکن را ایجاد کند و به این منظور به دنبال جهت بهینه و مکان دقیق فوقصفحه هستیم. [28] شکل (4-7) این امر را به وضوح روشن میسازد.
شکل(4-7): حاشیه برای جهت 2 بیشتر از حاشیه در جهت 1 است.
فوقصفحهای که در شکل (4-7) با خط ضخیمتر نشان داده شده است فوقصفحه مورد نظر جهت جداسازی دو کلاس میباشد. زیرا علاوه بر جداسازی دو کلاس، حاشیه بین فوقصفحه و دو کلاس را هم بیشینه کرده است.
فاصله یک نقطه از یک فوقصفحه برابر است با:
(4-7) |
و را طوری مقیاسدهی میکنیم که اندازه در نزدیکترین نقاط برابر 1 و در نزدیکترین نقاط برابر شود. حاشیه بین دو کلاس برابر خواهد بود با:
(4-8) |
به این ترتیب خواهیم داشت:
(4-9) |
حال به جایی رسیدهایم که مسئله را میتوانیم به صورت ریاضی حل کنیم. برای هر یک برچسب کلاس به صورت ، اگر و اگر ، در نظر میگیریم. برای بدست آوردن فوقصفحه دلخواه میبایستی و بر اساس شرایط زیر بدست آوریم:
(4-10)
واضح است که کمینه کردن مقدار نرم[5] باعث میگردد که حاشیه فوقصفحه با کلاسها بیشینه گردد. این شرایط حل یک معادله غیرخطی براساس یک سری محدودیتهای خطی میباشد.
شرایط Karush-Kuhn-Tucher (KKT) به منظور کمینه کردن معادله (4-8) برابر خواهد بود با:
(4-11)
(4-12)
(4-13)
(4-14)
در معادلات بالا بردار ضرایب لاگرانژ و تابع لاگرانژ است که به صورت زیر تعریف میگردد:
(4-15)
با ترکیب رابطه (4-15) با (4-11) و (4-12) خواهیم داشت:
(4-16)
(4-17)
باید توجه داشت که ضرایب لاگرانژ، ها، میتوانند صفر و یا مثبت باشند. بنابراین براساس معادله(4-16) پاسخ بدست آمده برای بردار پارامترهای برابر است با ترکیب خطی از بردار ویژگی که ضریب لاگرانژ آنها مخالف صفر است.
(4-18)
این بردارها که ضرایب لاگرانژ غیرصفر دارند و برای بدست آوردن فوقصفحه بهینه استفاده میگردند را بردارهای پشتیبان[6] مینامند. بر اساس دسته محدودیتهای موجود در رابطه (4-14) برای ضرایب لاگرانژ غیرصفر، بردارهای پشتیبان در دو فوقصفحه زیر قرار میگیرند:
(4-19)
بردارهای پشتیبان بردارهایی هستند که نزدیکترین فاصله را از دستهبندیکننده خطی را دارا میباشند. باند جداسازی فاصله بین دو فوقصفحه معرفی شده توسط معادله (4-19) میباشد. از بین بردارهای ویژگی، بردارهایی که ضریب لاگرانژ مربوط به آنها صفر میباشد، ، میتوانند داخل و یا خارج باند جداسازی کلاسها و یا حتی بر روی خود دو فوق صفحه محدود کننده باند قرار گیرند.
به منظور حل معادلات مربوطه و بدست آوردن فوق صفحه بهینه، که اثبات میشود که این فوق صفحه یکتا میباشد، روشهای گوناگونی مورد استفاده قرار میگیرد. این معادلات با استفاده از خاصیت مرسوم به دوگانی لاگرانژ قابل حل هستند و نمایش همارز دوگان Wolfe آنها برابر خواهد بود با:
(4-20)
(4-21)
(4-22)
محدودیتهای بدست آمده در رابطه (4-22) با صفر قرار دادن گرادیان لاگرانژ نسبت به و بدست آمدهاند. با قرار دادن روابط (4-22) و (4-21) در رابطه (4-20) و انجام محاسبات ریاضی خواهیم داشت:
(4-23)
(4-24)
4-5-1-2- دستهبندی کلاسهای جدا ناپذیر
در این حالت کلاسهای موجود با استفاده از دستهبندی کننده خطی به صورت کامل از همدیگر جدا نمیشوند. همانگونه که در شکل (4-8) مشخص میباشد دو کلاس در این حالت جداپذیر نمیباشند و نمیتوان با یک دستهبندی کننده خطی آنها را کاملا از هم جدا کرد. هر گونه تلاشی به منظور جداسازی دادهها با یک فوقصفحه به نتیجه نمیرسد مگر آنکه یک سری از دادهها در داخل باند جداسازی قرار گیرد. در این شرایط حاشیه فاصله بین دو فوقصفحه با معادله تعریف میگردد.
شکل(4-8): نمونهای از دادههایی که به صورت خطی به طور کامل از همدیگر جدا نمیشوند.
بردار ویژگی نمونههای آموزشی به یکی از سه دسته زیر تعلق دارند.]28[
بردارهایی که خارج از باند قرار میگیرند و صحیح دستهبندی شدهاند. این بردارها شرایط در نظر گرفته شده در معادله (4-10) را برقرار میسازند.
بردارهایی که در داخل باند قرار میگیرند و صحیح دستهبندی شدهاند. این بردارها در شکل (4-8) با مربع مشخص گردیدهاند و در شرایط زیر صدق میکنند.
(4-25)
بردارهایی که به اشتباه دستهبندی شدهاند. این بردارها در شکل (4-8) با دایره مشخص گردیدهاند و از شریط زیر تبعیت میکنند.
(4-26)
تمامی سه حالت فوق را میتوان با اضافه کردن یک محدودیت جدید و معرفی یک دسته پارامتر جدید در نظر گرفت:
(4-27)
گروه اول دادهها با در نظر گرفتن ، گروه دوم با در نظر گرفتن و گروه سوم با در نظر گرفتن بدست میآیند. پارامتر به نام پارامتر Slack شناخته میشود. در شرایط کنونی هدف این است که تا حدممکن حاشیه را با در نظر گرفتن تعداد نقاطی است که در آنها است، افزایش دهیم. در فرم ریاضی این عمل برابر است با مینیمم کردن تابع هزینه زیر:
(4-28)
که در آن بردار پارامترهای است و
(4-29)
پارامتر یک عدد ثابت مثبت است که تاثیر نسبی دو قسمت رابطه (4-28) را کنترل میکند. بهینهسازی رابطه (4-28) مشکل است زیرا شامل تابع ناپیوسته است. بنابراین شرایط به صورت زیر تغییر میکند:
(4-30)
(4-31)
(4-32)
محدودیت لاگرانژ برای حل معادلات فوق برابر است با:
(4-33)
شرایط Karush-Kuhn-Tucker متناظر برابر است با:
(4-34)
(4-35)
(4-36)
(4-37)
(4-38)
(4-39)
نمایش دوگانی Wolf معادلات فوق برابر خواهد بود با:
(4-40)
با اعمال محدودیت فوق به معادلات لاگرانژ خواهیم داشت:
(4-41)
(4-42)
(4-43)
تنها تفاوت معادلات فوق با معادلات کلاسهای خطی جداپذیر از هم در محدودیت اعمال شده بر روی ضرایب لاگرانژ است که با مقدار محدود گشتهاند. حالت کلاسهای خطی جداپذیر زمانی که برقرار میگردد. همانگونه که ملاحظه میگردد پارامتر Slack، و ضرایب لاگرانژ متناظرشان و در معادلات وارد نگشتهاند. حضور این پارامترهای به صورت غیرمستقیم در پارامتر منعکس گشته است.
4-5-1-3- دستهبندی دادههای چند کلاسه با ماشینهای بردار پشتیبان
در تمامی قسمتهای گذشته، به بررسی عمل دستهبندی برای دو کلاس مختلف پرداختیم. اگر بخواهیم دستهبندی کننده ماشینهای بردار پشتیبان را برای کلاس گسترش دهیم کافی است روش ارائه شده در قسمتهای پیشین را برای مسئله دو کلاس اعمال کنیم. به این ترتیب مسئله دسته بندی کلاس به دستهبندی دو کلاسه تبدیل خواهد شد. برای هر یک از کلاسها، ما به دنبال بدست آوردن تابع تفکیک بهینه هستیم. نمونه متعلق به کلاس است اگر
(4-44)
4-5-2- ماشینهای بردار پشتیبان غیر خطی
در بخشهای پیشین ماشینهای بردار پشتیبان را به صورت یک دستهبندی کننده خطی بهینه معرفی کردیم. حال فرض کنید یک نگاشت به صورت
(4-45)
از فضای ویژگی ورودی به یک فضای k بعدی داریم که در این فضای جدید کلاسها با یک فوقصفحه از یکدیگر قابل جداسازی هستند. حال در این فضای k بعدی جدید یک دستهبندی کننده ماشینهای بردار پشتیبان طراحی میکنیم.]28[ در زیر قضیهای را به نام Mercer معرفی میکنیم.
قضیه Mercer :
فرض کنید و نگاشت به صورت زیر در نظر گرفته شده باشد:
(4-46)
یک فضای اقلیدسی[7] است. در این صورت عملگر ضرب داخلی به صورت زیر قابل نمایش است:
(4-47)
جزء r ام از نگاشت بوده و یک تابع متقارن است که از شرایط پیروی میکند:
(4-48)
به ازای هر که داشته باشیم
(4-49)
توابعی که شرایط فوق را داشته باشد کرنل مینامیم. به هر حال قضیه Mercer نحوه بدست آوردن فضای را شامل نمیشود. بنابراین اگر ضرب داخلی مرتبط با فضای مورد نظر را داشته باشیم ابزاری کلی برای بدست آوردن نگاشت را در اختیار نداریم. بعلاوه ما ابزاری برای شناخت ابعاد فضا نیز در اختیار نداریم. به صورت کلی کرنلهایی که به منظور نگاشت در شناسایی آماری الگو استفاده میگردد عبارتند از:
- کرنل چند جملهای:
- (4-50)
- کرنل تابع پایه شعاعی[8] :
- (4-51)
- کرنل تانژانت هیپربولیک :
- (4-52)
از این کرنلها برای نگاشت به فضای بالاتر در دستهبندی کنندههای ماشینهای بردار پشتیبان استفاده میگردد. زمانی که یک کرنل مناسب به منظور نگاشت به فضایی با ابعاد بالاتر استفاده گردید با استفاده از بهینه ساز دوگان Wolfe خواهیم داشت:
(4-53)
(4-54)
(4-55)
و درنتیجه نمونه متعلق به کلاس خواهد بود اگر
(4-56)
و بصورت مشابه نمونه متعلق به کلاس خواهد بو د اگر
(4-57)
شکل (4-9) نحوه نگاشت به فضای بالاتر را در SVM غیرخطی نشان میدهد. تعداد گرههای موجود در لایه میانی را تعداد بردارهای پشتیبان در دستهبندی کننده SVM تعیین میکند.]28[