وب کاوی (web mining)

چکيده : با افزايش چشمگير حجم اطلاعات و توسعه وب، نياز بهروش ها و تکنيک هايي که بتوانند امکان دستيابي کارا به داده ها و استخراج اطلاعات از آنها را فراهم کنند، بيش از پيش احساس مي شود. وب کاوي يکي از زمينه هاي تحقيقاتي است که با به کارگيري تکنيک هاي داده کاوي به کشف و استخراج خودکار اطلاعات از اسناد و سرويس هاي وب مي پردازد. در واقع وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد.روش هاي وب کاوي بر اساس آن که چه نوع داده اي را مورد کاوش قرار مي دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسيم می شوند.  طي اين گزارش پس از معرفی وب کاوي و بررسی مراحل آن، ارتباط وب کاوي با ساير زمينه هاي تحقيقاتي بررسي شده و به چالش ها، مشکلات و کاربردهای اين زمينه تحقيقاتي اشاره مي شود. همچنين هر يک از انواع وب کاوي به تفصيل مورد بررسي قرار مي گيرند. براي اين منظور مدل ها، الگوريتم ها و کاربردهاي هر طبقه معرفي مي شوند .

 

Weka-train-film Artifical-Neural-Network-tutorial-introduction-training-film2 rapidminer-video

فهرست مطالب

1- مقدمه

2- مراحل وب کاوي

3- وب کاوي و زمينه هاي تحقيقاتي مرتبط

3-1- وب کاوي و داده کاوي

3-2- وب کاوي و بازيابي اطلاعات

3-3- وب کاوي و استخراج اطلاعات

3-4- وب کاوي و يادگيري ماشين

4- انواع وب کاوي

5- چالش هاي وب کاوي

6- کاوش محتواي وب

6-1- انواع کاوش محتوا در وب

6-1-1- طبقه بندي

6-1-2- خوشه بندي

6-1-3- ساير انواع کاوش محتوا در وب

6-2- رويکردهاي کاوش محتوا در وب

6-3- الگوريتم هاي کاوش محتوا در وب

6-3-1- درخت تصميم

6-3-2- شبکه عصبي

6-3-3- ساير الگوريتم هاي کاوش

7- کاوش ساختار وب

7-1- مدل هاي بازنمايي ساختار وب

7-1-1- مدل هاي مبتني بر گراف

7-1-2- مدل هاي مارکو

7-2- الگوريتم هاي کاوش ساختار وب

7-2-1- HITS

7-2-2- Page Rank

7-2-3- الگوريتم جريان بيشينه

7-2-4- Average Clicks

7-3- کاربردهاي کاوش ساختار وب

7-3-1- تشخيص اجتماعات وب

7-3-2- پيمايش وب

8- کاوش استفاده از وب

8-1- انواع داده هاي استفاده از وب

8-1-1- داده هاي سرورهاي وب

8-1-2- داده هاي سرورهاي پراکسي

8-1-3- داده هاي کلاينت

8-2- پيش پردازش داده هاي استفاده از وب

8-2-1- پاکسازي داده

8-2-2- تشخيص و بازسازي نشست

8-2-3- بازيابي ساختار و محتوا

8-2-4- قالب بندي داده

8-3- روش هاي کاوش استفاده از وب

8-3-1- قوانين انجمني

8-3-2- الگوهاي ترتيبي

8-3-3- خوشه بندي

8-4- کاربردهاي کاوش استفاده از وب

8-4-1- خصوصي سازي محتواي وب

8-4-2- پيش بازيابي

8-4-3- بهبود طراحي سايت هاي وب

9- کاربردهاي وب کاوي

9-1- تجارت الکترونيکي

9-2- موتورهاي جستجو

9-3- حراجي در وب

نتيجه گيري

فهرست منابع

 


 

با توسعه سيستم هاي اطلاعاتي، داده به يکي از منابع پراهميت سازمان ها مبدل گشته است. بنابراين روش ها و تکنيک هايي براي دستيابي کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از اين اطلاعات، مورد نياز مي باشد. با ايجاد و گسترش وب و افزايش چشمگير حجم اطلاعات، نياز به اين روش ها و تکنيک ها بيش از پيش احساس مي شود. وب، محيطي وسيع، متنوع و پويا است که کاربران متعدد اسناد خود را در آن منتشر مي کنند. در حال حاضر بيش از دو بيليون صفحه در وب موجود است و اين تعداد با نرخ 7.3 ميليون صفحه در روز افزايش مي يابد. با توجه به حجم وسيع اطلاعات در وب، مديريت آن با ابزارهاي سنتي تقريبا غير ممکن است و ابزارها و روش هايي نو براي مديريت آن مورد نياز است. به طور کلي کاربران وب در استفاده از آن با مشکلات زير روبرو هستند:

  1. يافتن اطلاعات مرتبط: يافتن اطلاعات مورد نياز در وب دشوار مي باشد. روش هاي سنتي بازيابي اطلاعات که براي جستجوي اطلاعات در پايگاه داده ها به کار مي روند، قابل استفاده در وب نمي باشند و کاربران معمولا از موتورهاي جستجو که مهمترين و رايج ترين ابزار براي يافتن اطلاعات در وب مي باشند، استفاده مي کنند. اين موتورها، يک پرس و جوي[1] مبتني بر کلمات کليدي از کاربر دريافت کرده و در پاسخ ليستي از اسناد مرتبط با پرس و جوي وي را که بر اساس ميزان ارتباط با اين پرس و جو مرتب شده اند، به وي ارائه مي کنند. اما موتورهاي جستجو داراي دو مشکل اصلي هستند. اولا دقت[2] موتورهاي جستجو پايين است، چراکه اين موتورها در پاسخ به يک پرس و جوي کاربر صدها يا هزاران سند را بازيابي مي کنند، در حالي که بسياري از اسناد بازيابي شده توسط آنها با نياز اطلاعاتي کاربر مرتبط نمي باشند. دوما ميزان فراخوان[3] اين موتورها کم مي باشد، به آن معني که قادر به بازيابي کليه اسناد مرتبط با نياز اطلاعاتي کاربر نيستند. چرا که حجم اسناد در وب بسيار زياد است و موتورهاي جستجو قادر به نگهداري اطلاعات کليه اسناد وب، در پايگاه داده هاي خود نمي باشند.
  2. ايجاد دانش جديد با استفاده از اطلاعات موجود در وب: اين مشکل در واقع بخشي از مشکل مطرح شده در قسمت قبل مي باشد. در حال حاضر اين سوال مطرح است که چگونه مي توان داده هاي فراوان موجود در وب را به دانشي قابل استفاده تبديل کرد، به طوري که يافتن اطلاعات مورد نياز در آن به سادگي صورت بگيرد. همچنين چگونه مي توان با استفاده از داده هاي وب به اطلاعات و دانشي جديد دست يافت.
  3. خصوصي سازي[4] اطلاعات: از آن جا که کاربران متفاوت هر يک درباره نوع و نحوه بازنمايي اطلاعات سليقه خاصي دارند، اين مسئله بايد توسط تامين کنندگان اطلاعات در وب مورد توجه قرار بگيرد. براي اين منظور با توجه به خواسته ها و تمايلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها بايد سفارشي گردد.

تکنيک هاي وب کاوي[5] قادر به حل اين مشکلات مي باشند. در [16] وب کاوي به صورت زير تعريف شده است:

وب کاوي به کارگيري تکنيک هاي داده کاوي[6] براي کشف و استخراج خودکار اطلاعات از اسناد و سرويس هاي وب مي باشد.

البته تکنيک هاي وب کاوي تنها ابزار موجود براي حل اين مشکلات نيستند. بلکه تکنيک هاي مختلفي از ساير زمينه هاي تحقيقاتي همچون پايگاه داده ها، بازيابي اطلاعات، پردازش زبان طبيعي، … قابل استفاده در اين زمينه مي باشند. همچنين تکنينک هاي وب کاوي مي توانند به صورت مستقيم يا غير مستقيم براي حل اين مشکلات به کار روند. منظور از رويکرد مستقيم آن است که کاربرد تکنيک هاي وب کاوي به صورت مستقيم مشکلات مطرح شده را حل مي نمايد. يک عامل گروه خبري که مرتبط بودن يک خبر به يک کاربر را تعيين مي کند، مثالي از اين رويکرد مي باشد. اما در رويکرد غير مستقيم، تکنيک هاي وب کاوي به عنوان بخشي از يک روش جامع تر که به حل اين مشکلات مي پردازد، مورد استفاده قرار مي گيرند.

با توجه به گسترش روز افزون حجم اطلاعات در وب و ارتباط وب کاوي با تجارت الکترونيکي، وب کاوي به يک زمينه تحقيقاتي وسيع مبدل گشته است. طي اين گزارش پس از بررسي مراحل وب کاوي، انواع آن معرفي مي شوند. سپس ارتباط وب کاوي با ساير زمينه هاي تحقيقاتي بررسي شده و به چالش ها و مشکلات اين زمينه تحقيقاتي اشاره مي شود. در ادامه هر يک از انواع وب کاوي به تفصيل مورد بررسي قرار مي گيرند. براي اين منظور مدل ها، الگوريتم ها و کاربردهاي هر طبقه معرفي مي شوند. در پايان نيز به برخي از نمونه کاربردهاي واقعي وب کاوي اشاره مي شود.

2- مراحل وب کاوي

وب کاوي شامل چهار مرحله اصلي مي باشد:

  1. پيدا کردن منبع: اين مرحله شامل بازيابي اسناد وب مورد نظر مي باشد.
  2. انتخاب اطلاعات و پيش پردازش: در اين مرحله به صورت خودکاراطلاعات خاصي از اسناد بازيابي شده، انتخاب و پيش پردازش مي شوند.
  3. تعميم[7]: در اين مرحله به صورت خودکار الگوهاي عام در يک يا چندين سايت وب کشف مي شود.
  4. تحليل: در اين مرحلهالگوهاي به دست آمده در مرحله قبل اعتبار سنجي[8]  و تفسير مي شوند.

در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه هاي الکترونيکي، گروه هاي خبري، اسناد HTML، پايگاه داده هاي متني و … بازيابي مي شوند. مرحله انتخاب و پيش پردازش شامل هر گونه فرآيند تبديل داده هاي بازيابي شده در مرحله قبل مي باشد. اين پيش پردازش مي تواند کاهش کلمات به ريشه آنها[9]، حذف کلمات زائد[10]، پيدا کردن عبارات موجود در متن و تبديل بازنمايي داده ها به قالب رابطه اي يا منطق مرتبه اول باشد. در مرحله سوم از تکنيک هاي داده کاوي و يادگيري ماشين براي تعميم استفاده مي شود. همچنين بايد توجه داشت که کاربران نقش مهمي در فرآيند استخراج اطلاعات و دانش از وب ايفا مي کنند. اين نکته به ويژه در مرحله چهارم از اهميت بسزايي برخوردار است.

به اين ترتيب وب کاوي، فرآيند کشف اطلاعات و دانش ناشناخته و مفيد از داده هاي وب مي باشد. اين فرآيند به طور ضمني شامل فرآيند کشف دانش در پايگاه داده ها (KDD [11]) نيز مي شود. در واقع وب کاوي گونه توسعه يافته KDD است که بر روي داده هاي وب عمل مي کند.

3- وب کاوي و زمينه هاي تحقيقاتي مرتبط

وب کاوي با زمينه هاي مختلف تحقيقاتي علوم کامپيوتر همچون داده کاوي، پايگاه داده، بازيابي اطلاعات، هوش مصنوعي، يادگيري ماشين، پردازش زبان طبيعي، استخراج اطلاعات، انبار داده ها[12]، طراحي واسط کاربر و … در ارتباط تنگاتنگ است.

در اين بخش ارتباط اين زمينه تحقيقاتي با برخي از زمينه هاي مرتبط بررسي مي شود.

3-1- وب کاوي و داده کاوي

وب کاوي و داده کاوي ارتباط بسيار نزديکي با يکديگر دارند. داده کاوي فرآيند ارائه پرس­وجوها و استخراج الگوها و اطلاعات مفيد و ناشناخته از داده هايي است که معمولا در پايگاه داده ها ذخيره شده اند. در واقع بسياري از تکنيک هاي داده کاوي قابل استفاده در وب کاوي هستند. اما حوزه وب کاوي وسيع تر از داده کاوي است و اين دو زمينه تحقيقاتي در جنبه هاي مختلفي از يکديگر متفاوتند که برخي از آنها عبارتند از:

  • در داده کاوي، داده ها ساخت يافته هستند و معمولا در پايگاه داده ها وجود دارند. اما در وب، داده ها عموما غير ساخت يافته هستند.
  • جمع آوري و مديريت داده ها در وب دشوار است.
  • داده ها در وب تنها شامل محتواي مستندات و صفحات وب نيستند. بلکه در وب دو نوع داده اصلي ديگر نيز براي کاوش مورد استفاده قرار مي گيرند. نوع اول، اطلاعات ساختاري وب است که منظور از آن پيوندهاي بين صفحات وب مي باشد. نوع دوم نيز، اطلاعات مربوط به نحوه استفاده کاربران از وب است. در واقع تحليل رفتار کاربر در استفاده از وب، ترجيحات و علايق وي درباره نوع و قالب اطلاعات، … بخش مهمي از وب کاوي است. در داده کاوي اين دو نوع از داده وجود ندارند.
  • مسئله ديگري که در وب کاوي مطرح است، حفظ حريم کاربران[13] است. تکنيک هاي داده کاوي معمولا در يک محيط بسته به کار مي روند. در حالي که تکنيک هاي وب کاوي در محيط باز وب انجام مي شوند. بنابراين بايد تضمين شود، اطلاعات شخصي و خصوصي کاربران مورد سوء استفاده قرار نمي گيرند.

3-2- وب کاوي و بازيابي اطلاعات

بعضي محققين معتقدند که کشف منبع يا سند (بازيابي اطلاعات) در وب، نمونه اي از وب کاوي است و برخي وب کاوي را مرتبط با بازيابي اطلاعات هوشمند مي دانند. منظور از بازيابي اطلاعات، بازيابي خودکار اسناد مرتبط و در عين حال بازيابي کمترين حد ممکن از اسناد غير مرتبط مي باشد. اهداف اصلي بازيابي اطلاعات شاخص گذاري[14] متون و جستجو براي اسناد مرتبط در يک مجموعه مي باشد. در حال حاضر تحقيقات در زمينه بازيابي اطلاعات شامل مدلسازي، طبقه بندي[15] اسناد، واسط هاي کاربري، تصوير سازي داده[16]، جداسازي[17] و … مي باشد. آنچه در اين ميان مي تواند به عنوان نمونه اي از وب کاوي در نظر گرفته شود، طبقه بندي اسناد است که در شاخص گذاري مورد استفاده قرار مي گيرد. با چنين ديدگاهي وب کاوي به بخشي از فرآيند بازيابي اطلاعات مبدل مي گردد.

3-3- وب کاوي و استخراج اطلاعات

هدف از استخراج اطلاعات تبديل مجموعه اي از اسناد به اطلاعات خلاصه شده و تحليل شده مي باشد. در حالي که تمرکز اصلي در بازيابي اطلاعات بر انتخاب اسناد مرتبط است، استخراج اطلاعات بر استخراج وقايع مرتبط از اسناد تکيه دارد. همچنين در استخراج اطلاعات، ساختار يا بازنمايي يک سند مد نظر قرار مي گيرد، در حالي که در بازيابي اطلاعات، يک سند مجموعه اي نامرتب از کلمات است.

ساخت يک سيستم استخراج اطلاعات براي محيط پويا و متنوعي چون وب امکان پذير نيست و بيشتر سيستم هاي ايجاد شده بر سايت هاي وب خاصي متمرکز مي شوند. برخي ديگر از سيستم هاي استخراج اطلاعات از تکنيک هاي يادگيري ماشين و داده کاوي براي يادگيري قوانين و الگوهاي استخراج استفاده مي کنند. با اين ديدگاه، وب کاوي بخشي از فرآيند استخراج اطلاعات مي باشد.

البته ديدگاه هاي ديگري درباره ارتباط اين دو وجود دارد. برخي معتقدند استخراج اطلاعات گونه اي از مرحله پيش پردازش (مرحله بعد از بازيابي اطلاعات و قبل از اعمال تکنيک هاي داده کاوي) در فرآيند وب کاوي مي باشد.

به طور کلي دو گونه متفاوت از استخراج اطلاعات وجود دارد. استخراج اطلاعات از متون غير ساخت يافته و استخراج اطلاعات از داده هاي نيمه ساخت يافته. براي استخراج اطلاعات از متون غير ساخت يافته معمولا نوعي پيش پردازش زباني قبل از به کارگيري تکنيک هاي داده کاوي استفاده مي شود. بنابراين اين نوع از استخراج اطلاعات ارتباط نزديکي با تکنيک هاي پردازش زبان طبيعي دارد. اما با ايجاد و گسترش وب نياز به روش هاي بازيابي اطلاعات از متون ساخت يافته مي باشد. استخراج اطلاعات ساخت يافته متفاوت از استخراج اطلاعات غير ساخت يافته است، چرا که معمولا از اطلاعاتي مانند تگ هاي HTML، جدا کننده ها، … استفاده مي کند. بيشتر روش هاي ساخت يافته اي که در وب به کار مي روند، از تکنيک هاي يادگيري ماشين براي استخراج قوانين استفاده مي کنند.

3-4- وب کاوي و يادگيري ماشين

وب کاوي معادل يادگيري از وب يا به کارگيري تکنيک هاي يادگيري ماشين در وب نيست. کاربردهايي از يادگيري ماشين در وب وجود دارد که نمونه هاي وب کاوي به شمار نمي آيند. يک مثال از اين نوع کاربردها، به کارگيري تکنيک هاي يادگيري ماشين براي يافتن بهترين مسير در پيمايش وب توسط Spider ها است.

از طرف ديگر علاوه بر تکنيک ها و روش هاي يادگيري ماشين، روش هاي ديگري هم براي وب کاوي به کار مي رود. به عنوان مثال الگوريتم هايي اختصاصي براي يافتن Hub ها وAuthority  ها در وب وجود دارد. (مفهوم Hub و Authority در بخش 7 معرفي خواهد شد. ) با اين حال ارتباط نزديکي بين يادگيري ماشين و وب کاوي وجود دارد. در واقع تکنيک هاي يادگيري ماشين از وب کاوي پشتيباني مي کنند و قابل استفاده در فرآيندهاي وب کاوي مي باشند. به عنوان مثال تحقيقات نشان مي دهد استفاده از تکنيک هاي يادگيري ماشين در طبقه بندي اسناد، مي تواند دقت طبقه بندي را در مقايسه با استفاده از روش هاي سنتي بازيابي اطلاعات افزايش دهد.

4- انواع وب کاوي

روش هاي وب کاوي بر اساس آن که چه نوع داده اي را مورد کاوش قرار مي دهند، به سه دسته تقسيم مي شوند:

  1. کاوش محتواي وب[18]: کاوش محتواي وب فرآيند استخراج اطلاعات مفيد از محتواي مستندات وب است. محتواي يک سند وب متناظر با مفاهيمي است که آن سند در صدد انتقال آن به کاربران است. اين محتوا مي تواند شامل متن، تصوير، ويدئو، صدا و يا رکوردهاي ساخت يافته مانند ليست ها و جداول باشد. در اين ميان کاوش متن بيش از ساير زمينه ها مورد تحقيق قرار گرفته است. از جمله اين تحقيقات مي توان به تشخيص موضوع[19]، استخراج الگوهاي ارتباط[20]، خوشه بندي[21] و طبق بندي اسناد وب اشاره کرد. روش ها و تکنيک هاي موجود در اين گروه، از تکنيک هاي بازيابي اطلاعات و پردازش زبان طبيعي نيز استفاده مي کنند.

هر چند در پردازش تصوير و بينايي ماشين تحقيقات زيادي در زمينه استخراج دانش از تصاوير انجام شده است، اما به کارگيري اين تکنيک ها در کاوش محتواي وب چندان چشمگير نبوده است.

  1. کاوش ساختار وب[22]: وب را مي توان به صورت گرافي که گره هاي آن اسناد و يال هاي آن پيوندهاي[23] بين اسناد است، بازنمايي کرد. کاوش ساختار وب، فرآيند استخراج اطلاعات ساختاري از وب مي باشد.
  2. کاوش استفاده از وب[24]: کاوش استفاده از وب، کاربرد تکنيک هاي داده کاوي براي کشف الگوهاي استفاده از وب، به منظور درک و برآوردن بهتر نيازهاي کاربران مي باشد. اين نوع از وب کاوي، داده هاي مربوط به استفاده کاربران از وب را مورد کاوش قرار مي دهد.

بايد توجه داشت که مرز مشخصي ميان سه گروه وب کاوي وجود ندارد. به عنوان مثال تکنيک هاي کاوش محتواي وب مي توانند علاوه بر به کارگيري متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنين مي توان از ترکيب تکنيک هاي فوق براي حاصل شدن نتايج بهتر استفاده کرد.

5- چالش هاي وب کاوي

وب کاوي با چالش ها و محدوديت هاي متنوعي روبه رو است. از يک ديدگاه مي توان اين محدوديت ها را به دو گروه تکنيکي و غير تکنيکي تقسيم کرد. از محدوديت هاي غير تکنيکي مي توان به عدم پشتيباني مديريت، کافي نبودن بودجه و عدم وجود منابع مورد نياز مانند نيروي انساني متخصص اشاره کرد. اما مشکلات تکنيکي بسيار است که به برخي از آنها در اين جا اشاره مي شود:

  1. داده هاي ناصحيح و نادقيق : براي آن که فرآيند وب کاوي با موفقيت انجام شود، لازم است داده هاي جمع آوري شده صحيح و در قالب مناسب باشند. اما معمولا مشکلات زيادي در اين زمينه وجود دارد. اولا، داده ها ممکن است دقيق نباشند. ثانيا داده ها مي توانند ناکامل بوده و برخي مقادير موجود نباشد. ثالثا تخمين ميزان اطمينان درباره صحت و دقت داده ها به سادگي امکان پذير نيست.
  2. عدم وجود ابزارها: محدوديت ديگر وب کاوي، عدم وجود ابزارهاي مناسب و کامل براي آن مي باشد. در اين راستا، متخصصان بايد تصميم بگيرند آيا براي يک کاربرد از وب کاوي، ابزار خاص آن کاربرد را توسعه دهند و يا از ابزارهاي موجود استفاده کنند.
  3. ابزارهاي سفارشي: ابزارهاي موجود تنها يکي از انواع وب کاوي مانند طبقه بندي يا خوشه بندي را پشتيباني مي کنند. اما بهتر آن است که يک ابزار قادر به انجام چندين تکنيک وب کاوي باشد تا کاربران بتوانند با توجه به نيازمندي هاي خود از تکنيک مناسب استفاده کنند.

البته در حال حاضر تحقيقات بسياري در زمينه وب کاوي در حال انجام است که هدف آن ها حل اين مشکلات مي باشد.

6- کاوش محتواي وب

کاوش محتواي وب اولين گروه از طبقه بندي ارائه شده در وب کاوي مي باشد. همان طور که در بخش هاي قبل اشاره شد، کاوش محتواي وب به کشف و استخراج اطلاعات مفيد و ناشناخته از محتواي مستندات وب مي پردازد. محتواي مستندات وب بطور کلي شامل انواع مختلف اطلاعاتاز جمله داده هاي متني، صوتي، تصويري، فرا داده و … مي باشد و کاوش محتواي وب نوعي کاوش داده هاي چندرسانه اي نيز محسوب مي شود. داده هاي وب عموماً شامل داده هاي غير ساختيافته مثل متون آزاد يا نيمه ساختيافته مثل صفحاتHTML  و تا حدي ساختيافته تر مثل جداول يا صفحات HTML توليد شده توسط پايگاه داده هاست.اما در هر صورت بيشتر اطلاعات موجود در وب را  متون غير ساختيافته تشکيل مي دهند.

کاوش محتوا در وب را مي توان از دو ديد بررسي کرد: از ديد بازيابي اطلاعات و از ديد پايگاه داده ها. هدف کاوش محتوا در وب از نقطه نظر بازيابي اطلاعات تسهيل يا بهبود فرايند جستجوي اطلاعات يا فيلتر کردن اطلاعات براي کاربران است. در حالي که از ديد پايگاه داده ها هدف کاوش محتوا، ارائه مدلي از داده هاي وب و يکپارچه سازي آنها است به طوي که پرس و جوهاي پيچيده تر از پرس و جوهاي مبتني بر کلمات کليدي قابل پردازش باشند. کاوش محتوا از ديد پايگاه داده ها سعي در بدست آوردن ساختار سايت وب و يا تبديل سايت وب به يک پايگاه داده دارد تا بتواند مديريت و پرس و جوي اطلاعات موجود در وب را کاراتر انجام دهد. اين کار با کشف شماي[25] اسناد موجود در وب يا ساخت يک پايگاه داده مجازي قابل انجام است.

در اين بخش رويکردها و تکنيک هاي کاوش محتوا در وب و نتايج حاصل از کاوش بررسي مي شوند. به طور کلي براي انجام کاوش محتوا براي يک کاربرد خاص، ابتدا بايد نوع نتيجه مورد انتظار تعيين شود. سپس بر اساس آن تکنيکي که براي کاوش و به دست آوردن آن نتيجه به کار مي رود، انتخاب مي گردد. در پايان نوع رويکرد مشخص مي شود تا تعيين گردد، فرآيند چگونه انجام شود.

سه رويکرد[26] يا متدولوژي اصلي براي کاوش محتوا وجود دارد: رويکرد بالا به پايين، پايين به بالا و يا ترکيبي از اين دو. اين متدولوژي ها مي توانند مستقيم يا غير مستقيم باشند. به متدولوژي هاي مستقيم، يادگيري بانظارت و به متدولوژي هاي غير مستقيم، يادگيري بدون نظارت نيز گفته مي شود.

تکنيک هاي کاوش محتوا، الگوريتم هايي هستند که براي کاوش به کار مي روند. به نتايج حاصل از کاوش، انواع کاوش نيز گفته مي شود. اين نتايج معمولا شامل طبقه بندي، خوشه بندي، تشخيص موضوع و … مي باشد. بيشتر اوقات براي تمايز قائل شدن بين تکنيک هاي کاوش و نتايج کاوش، ميان محققين اختلاف نظر وجود دارد.

 

 

 لينك دانلود

8 دیدگاه دربارهٔ «وب کاوی (web mining)»

  1. ببخشید از کدام فونت استفاده نموده اید داخل فایل هیچ چیز بجز یک صفحه آخر که انگلیسی است دیگه چیزی نیست؟

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.