امروزه به دلیل افزایش وسیع استفاده از اینترنت، حجم زیاد اطلاعات در فرمت داده دیجیتال تولید شده است. دسته بندی دستی و یکی یکی این اطلاعات در بسیاری از مسائل واقعی غیرممکن است، بنابراین تحقیقات زیادی تاکنون روی دستهبندی اتوماتیک مستندات صورت گرفته است. تکنیک های یادگیری ماشین در این زمینه بسیار مفید واقع شدهاند. تکنیکهای آماری و قدیمی یادگیری ماشین برای آموزش صحیح، به حجم زیادی از مثالهای آموزشی برچسب دار نیاز دارند. برای تهیه مثالهای آموزشی کافی، باید این حجم زیاد داده های آموزشی را با دست و به وسیله افراد متخصص برچسبگذاری کنیم.
ماشين هاي بردار پشتيبان افزايشي ابزاري در کاربردهاي عملي يادگيري on-line محسوب ميشوند. اين الگوريتم ها مبتني بر Radial Basis Function Kernel و يا يادگيري افزايشي محلي هستند. آموزش ماشينهاي بردار پشتيبان نيازمند حل يک مساله Quadratic programming(QP) با تعداد ضرايبي معادل تعداد نمونههاي آموزشي ميباشد. تکنيک هاي استاندارد QP براي مجموعه داده هاي بسيار بزرگ غير عملي ميشوند، بنابراين تکنيک هاي عملي مساله را به زير مسائلي شامل بخشي از دادهها تبديل ميکنند.
در آموزش افزايشي ماشين بردار پشتيبان براي يک داده جديد که کليه دادههاي قبل به جز ماشينهاي بردار پشتيبان در نظر گرفته نميشوند جواب به دست آمده تقريبي خواهد بود. بنابراين مشکل اين روشها اين است که به يک جواب تقريبي رسيده و ممکن است براي هم گرايي نياز به تکرار زيادي روي مجموعه داده مورد نظر داشته باشند. در روش مورد بررسي الگوريتم به صورت بازگشتي براي هر نقطه در هر تکرار عمل ميکند.
در این پروژه برای دستهبندی مستندات متنی به بررسی یک الگوریتم یادگیری با نظارت مبتنی بر ماشینهای بردار پشتیبان میپردازیم. این الگوریتم برای دستهبندی صحیحتر، از مستندات بدون برچسب برای تقویت مثالهای آموزشی بر چسبدار موجود استفاده میکند. این روش علاوه بر اینکه نیاز به عمل وقتگیر و پرهزینه جمعآوری دادههای آموزشی را کاهش میدهد، از روشهای دستهبندی قدیمی به نتایج بهتری میرسد.