مشکلی که دنيای امروز با آن رو به رو است، كمبود يا نبود اطلاعات نيست بلکه کمبود دانشي است که از اين اطلاعات ميتوان حاصل کرد. ميليون ها صفحه ي وب، ميليون ها کلمه در کتابخانه هاي ديجيتال و هزاران صفحه اطلاعات در هر شرکت، تنها بخشی از اين منابع اطلاعاتي هستند. اما نمي توان به طور مشخص منبعي از دانش را در اين بين معرفي کرد. دانش حاصلی است که از نتيجه گيري و فکر و تحليل بر روي اطلاعات به دست می آيد. هدف داده کاوی مشخص کردن روابط ميان داده های موجود در پايگاه داده ها و استخراج دانش از ميان آن ها می باشد. زمانی که داده های موجود ساخت يافته باشند استفاده از روش-های داده کاوی و کسب دانش از آن ها ساده است. اما امروزه بخش زيادی از اطلاعات به صورت متن نگهداری می شود و متن ها داده هايی غير ساخت يافته هستند. يک فرد براي دريافت دانش از اطلاعات يک متن، بايستي ابتدا آنرا درک کند، تا بفهمد چه معاني و مفاهيمي در آن موجود است و چه ارتباطي ميان مفاهيم وجود دارد. با اين حال عصر تکنولوژي به دنبال خودکارسازی است، حتي اگر اين کار “درک معني متن” باشد (11).
متن كاوي تمام فعاليت هايي كه به نوعي به دنبال كسب دانش از متن هستند را شامل ميگردد. تحليل داده هاي متني توسط روش هاي يادگيري ماشين، بازيابي اطلاعات هوشمند، پردازش زبان طبيعي، همگي در دسته فعاليت های متن کاوی قرار ميگيرند. تصوير 1-1 مراحل متعارف متن کاوی را نشان می دهد. اولين گام در متن کاوی استفاده از روش هايی برای ساختارمند نمودن متن ها است. متن از مجموعه ای از کلمات و عبارات زبان طبيعی تشکيل شده است. عموماً روش های متن کاوی ابتدا کلمات و عبارات، را از متن استخراج می کنند و سپس آن ها را مورد پردازش قرار می دهند، برای مثال برخی کلمات مثل حروف اضافه و ضماير حذف، و کلمات باقی مانده ريشه يابی می شوند. سپس مشخصات استخراج شده از متن ها به روش های مختلفی مقداردهی می شوند، از ميان اين روش ها می توان به مقداردهی دودويی (بيان گر ظاهر شدن/ نشدن کلمه در متن است)، فراوانی کلمه در متن، وزن TF-IDFاشاره کرد (12).در اين تحقيق از روش وزن دهی TF-IDFاستفاده شده است، که در قسمت بعد درباره اين روش توضيح داده خواهد شد. با استفاده از مقادير به دست آمده بردارهای ويژگی برای داده ها ساخته و از بين مجموعه ی داده ها، داده های آموزش و تست کلاس بندی کننده انتخاب می شوند. پس از آن يک روش کلاس بندی انتخاب می شود. کلاس بندی کننده با استفاده از داده های آموزش، آموزش داده و با استفاده از داده های تست ارزيابی می شود.
تصوير 1- 1: مراحل متعارف متن کاوی.