پروژه درس يادگيری ماشين

امروزه به دلیل افزایش وسیع استفاده از اینترنت، حجم زیاد اطلاعات در فرمت داده دیجیتال تولید شده است. دسته‌ بندی دستی و یکی یکی این اطلاعات در بسیاری از مسائل  واقعی غیرممکن است، بنابراین تحقیقات زیادی تاکنون روی دسته‌بندی اتوماتیک مستندات صورت گرفته است. تکنیک‌ های یادگیری ماشین در این زمینه بسیار مفید واقع شده‌اند. تکنیک‌های آماری و قدیمی یادگیری ماشین برای آموزش صحیح، به حجم زیادی از مثال‌های  آموزشی برچسب‌ دار نیاز دارند. برای تهیه مثال‌های آموزشی کافی، باید این حجم زیاد داده‌ های آموزشی را با دست و به وسیله افراد متخصص برچسب‌گذاری کنیم.
ماشين‌ هاي بردار پشتيبان افزايشي ابزاري در کاربردهاي عملي يادگيري on-line محسوب مي‌شوند. اين الگوريتم‌ ها مبتني بر Radial Basis Function Kernel و يا يادگيري افزايشي محلي هستند. آموزش ماشين‌هاي بردار پشتيبان نيازمند حل يک مساله Quadratic programming(QP) با تعداد ضرايبي معادل تعداد نمونه‌هاي  آموزشي مي‌باشد. تکنيک‌ هاي استاندارد QP براي مجموعه داده‌ هاي بسيار بزرگ غير عملي مي‌شوند، بنابراين تکنيک‌ هاي عملي مساله را به زير مسائلي شامل بخشي از داده‌ها تبديل مي‌کنند. در آموزش افزايشي ماشين بردار پشتيبان براي يک داده جديد که کليه داده‌هاي قبل به جز ماشين‌هاي بردار پشتيبان در نظر گرفته نمي‌شوند جواب به دست آمده تقريبي خواهد بود. بنابراين مشکل اين روش‌ها اين است که به يک جواب تقريبي رسيده و ممکن است براي هم گرايي نياز به تکرار زيادي روي مجموعه داده مورد نظر داشته باشند. در روش مورد بررسي الگوريتم به صورت بازگشتي براي هر نقطه در هر تکرار عمل مي‌کند.
در این پروژه برای دسته‌بندی مستندات متنی به بررسی یک الگوریتم یادگیری با نظارت مبتنی بر ماشین‌های بردار پشتیبان می‌پردازیم. این الگوریتم برای دسته‌بندی صحیح‌تر، از مستندات بدون برچسب برای تقویت مثال‌های آموزشی بر چسب‌دار موجود استفاده می‌کند. این روش علاوه بر اینکه نیاز به عمل وقت‌گیر و پرهزینه جمع‌آوری داده‌های آموزشی را کاهش می‌دهد، از روش‌های دسته‌بندی قدیمی به نتایج بهتری می‌رسد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *