استفاده از SVM در بخش‌بندی صفحات وب

امروزه شبكه گسترده جهاني يك رسانه عمومي براي انتشار اطلاعات است. وب عظيم، متنوع و پوياست که اينها به‌ ترتيب مسائل مقياس پذيري، چند رسانه‌اي و موقتي بودن داده‌ها را مطرح مي‌كنند. باتوجه به اين وضعيت، ما در حال غرق شدن در اطلاعات هستيم و با سرريز شدن اطلاعات مواجه شده‌ايم. كاربران اطلاعات در استفاده از اطلاعات ممكن‌است با مشكلات زير مواجه شود:

الف- پيدا كردن اطلاعات مرتبط
ب- بوجود آوردن دانش هاي جديد از اطلاعاتي كه از طريق وب در دسترسند
ج- شخصي سازي اطلاعات
د- يادگيري درباره مشتريان يا كاربران فردي

چنين رشد عظيمي در داده و پايگاه‌هاي داده يك نياز فوري به تكنيك ها و ابزارهايي كه بتوانند به صورت خودكار و هوشمند داده را به اطلاعات و دانش مفيد تبديل كنند، بوجود آورده است.
وب‌کاوي شامل عمليات مختلفي مي‌شود که اين عمليات به سه دستة عمده تقسيم مي‌شوند: کاوش در محتواي وب، کاوش در ساختار وب و کاوش در کاربردهاي وب. از کاربردهاي مهم وب‌کاوي در تعيين اعتبار صفحات، طبقه‌بندي خودکار صفحات و ساخت يک پايگاه اطلاعاتي چند‌ لايه از وب است. اين کاربردها زماني اهميت خود را بيشتر نشان مي‌دهند که شما کاربري کم تجربه باشيد و از هزينه‌ هاي بالاي جستجو در وبي با اين عظمت هم بي‌اطلاع باشيد و دربارة موضوع خاصي در اينترنت در حال جستجو باشيد. مسلماً شما انتظار داريد صفحاتي که بعنوان نتيجة جستجو دريافت مي‌کنيد از اعتبار کافي برخوردار باشند و کاملاً هم به موضوع مورد نظر شما مربوط باشند.
هدف از انجام اين پروژه اين است که با استفاده از روش هاي طبقه‌ بندي و بخش‌ بندي اطلاعات ، اطلاعات را به صورتي گرد آوري و طبقه‌ بندي کنيم، که امکان انجام جستجوي مفيدتر و بهينه‌ تري را براي کاربر فراهم آوريم.

تكنيك هاي يادگيري ماشين مي‌توانند در پردازش هايي در وب‌كاوي بكار برده شوند. براي مثال تحقيقات اخير نشان داده است كه بكار بردن تكنيكهاي يادگيري ماشين نسبت به استفاده از تكنيكهاي متداول IR مي‌تواند فرايند طبقه‌بندي متن را بهتر كند. به صورت خلاصه وب‌كاوي و تكنيك هاي يادگيري ماشيني كه در وب بكار مي‌ روند، يكديگر را در يك نقطه قطع مي‌كنند.

بخش‌ بندي يك مسئله يادگيري با نظارت است. ما يك مجموعه از نمونه‌ها (اسناد) داريم كه به درستي بخش‌بندي شده‌اند (معمولاً توسط فهرست‌ نويسان)، اين مجموعه براي آموزش طبقه‌بندي‌ كننده بر اساس يك الگوريتم يادگيري ماشين استفاده مي‌شود. طبقه‌ بندي‌ كننده ياد گرفته شده براي بخش‌بندي مجموعه مقصد استفاده مي‌شود.
بخش‌ بندي متن كار مهمي است كه به عنوان بخشي از اكثر سيستم هاي متن كاوي و سيستم‌ هاي بازيابي‌ اطلاعات انجام مي‌شود. بخش‌بندي مي‌تواند براي پيدا كردن مؤثر نزديكترين همسايه‌ هاي يک سند، بهبود دقت سيستم‌ هاي بازيابي‌ اطلاعات، كمك به كاوش مجموعه‌ اي از اسناد، سازماندهي نتايج موتور هاي جستجو و شخصي سازي نتايج موتورهاي جستجو استفاده شود.
با بررسي‌هاي انجام شده و مقايسة روشهاي مختلف با هم سه روش بيزي، نزديكترين k همسايه و ماشينهاي بردارهاي پشتيباني به عنوان روشهاي برتر انتخاب شدند. در نهايت به دليل فوايد مهمي‌كه ماشينهاي بردارهاي پشتيباني در بخش‌بندي متن دارند:
– هيچ احتياجي به انتخاب عبارات نيست چون ماشينهاي بردارهاي پشتيباني از جهت سايز  مشكلي ندارند و  مقياس آنها مي‌تواند تا ابعاد قابل  ملاحظه‌اي بزرگ شود.
– هيچ  احتياجي به تنظيم پارامترهاي يك مجموعه ارزيابي نيست چون يك سري تنظيمات نظري «قراردادي» براي پارامترها وجود دارد كه نشان داده شده كه بيشترين کارايي را هم دارند. براي پياده‌سازي اين پروژه روش ماشينهاي‌بردارهاي پشتيباني انتخاب شد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *