امروزه شبكه گسترده جهاني يك رسانه عمومي براي انتشار اطلاعات است. وب عظيم، متنوع و پوياست که اينها به ترتيب مسائل مقياس پذيري، چند رسانهاي و موقتي بودن دادهها را مطرح ميكنند. باتوجه به اين وضعيت، ما در حال غرق شدن در اطلاعات هستيم و با سرريز شدن اطلاعات مواجه شدهايم. كاربران اطلاعات در استفاده از اطلاعات ممكناست با مشكلات زير مواجه شود:
الف- پيدا كردن اطلاعات مرتبط
ب- بوجود آوردن دانش هاي جديد از اطلاعاتي كه از طريق وب در دسترسند
ج- شخصي سازي اطلاعات
د- يادگيري درباره مشتريان يا كاربران فردي
چنين رشد عظيمي در داده و پايگاههاي داده يك نياز فوري به تكنيك ها و ابزارهايي كه بتوانند به صورت خودكار و هوشمند داده را به اطلاعات و دانش مفيد تبديل كنند، بوجود آورده است.
وبکاوي شامل عمليات مختلفي ميشود که اين عمليات به سه دستة عمده تقسيم ميشوند: کاوش در محتواي وب، کاوش در ساختار وب و کاوش در کاربردهاي وب. از کاربردهاي مهم وبکاوي در تعيين اعتبار صفحات، طبقهبندي خودکار صفحات و ساخت يک پايگاه اطلاعاتي چند لايه از وب است. اين کاربردها زماني اهميت خود را بيشتر نشان ميدهند که شما کاربري کم تجربه باشيد و از هزينه هاي بالاي جستجو در وبي با اين عظمت هم بياطلاع باشيد و دربارة موضوع خاصي در اينترنت در حال جستجو باشيد. مسلماً شما انتظار داريد صفحاتي که بعنوان نتيجة جستجو دريافت ميکنيد از اعتبار کافي برخوردار باشند و کاملاً هم به موضوع مورد نظر شما مربوط باشند.
هدف از انجام اين پروژه اين است که با استفاده از روش هاي طبقه بندي و بخش بندي اطلاعات ، اطلاعات را به صورتي گرد آوري و طبقه بندي کنيم، که امکان انجام جستجوي مفيدتر و بهينه تري را براي کاربر فراهم آوريم.
تكنيك هاي يادگيري ماشين ميتوانند در پردازش هايي در وبكاوي بكار برده شوند. براي مثال تحقيقات اخير نشان داده است كه بكار بردن تكنيكهاي يادگيري ماشين نسبت به استفاده از تكنيكهاي متداول IR ميتواند فرايند طبقهبندي متن را بهتر كند. به صورت خلاصه وبكاوي و تكنيك هاي يادگيري ماشيني كه در وب بكار مي روند، يكديگر را در يك نقطه قطع ميكنند.
بخش بندي يك مسئله يادگيري با نظارت است. ما يك مجموعه از نمونهها (اسناد) داريم كه به درستي بخشبندي شدهاند (معمولاً توسط فهرست نويسان)، اين مجموعه براي آموزش طبقهبندي كننده بر اساس يك الگوريتم يادگيري ماشين استفاده ميشود. طبقه بندي كننده ياد گرفته شده براي بخشبندي مجموعه مقصد استفاده ميشود.
بخش بندي متن كار مهمي است كه به عنوان بخشي از اكثر سيستم هاي متن كاوي و سيستم هاي بازيابي اطلاعات انجام ميشود. بخشبندي ميتواند براي پيدا كردن مؤثر نزديكترين همسايه هاي يک سند، بهبود دقت سيستم هاي بازيابي اطلاعات، كمك به كاوش مجموعه اي از اسناد، سازماندهي نتايج موتور هاي جستجو و شخصي سازي نتايج موتورهاي جستجو استفاده شود.
با بررسيهاي انجام شده و مقايسة روشهاي مختلف با هم سه روش بيزي، نزديكترين k همسايه و ماشينهاي بردارهاي پشتيباني به عنوان روشهاي برتر انتخاب شدند. در نهايت به دليل فوايد مهميكه ماشينهاي بردارهاي پشتيباني در بخشبندي متن دارند:
– هيچ احتياجي به انتخاب عبارات نيست چون ماشينهاي بردارهاي پشتيباني از جهت سايز مشكلي ندارند و مقياس آنها ميتواند تا ابعاد قابل ملاحظهاي بزرگ شود.
– هيچ احتياجي به تنظيم پارامترهاي يك مجموعه ارزيابي نيست چون يك سري تنظيمات نظري «قراردادي» براي پارامترها وجود دارد كه نشان داده شده كه بيشترين کارايي را هم دارند. براي پيادهسازي اين پروژه روش ماشينهايبردارهاي پشتيباني انتخاب شد.