2-5-1 مفهوم دادهکاوی
در طول دهه گذشته با پیشرفت روزافزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمان هایی موفقند که بتوانند حداقل 7% داده-هایشان را تحلیل کنند. تحقیقات انجام یافته نشان داده است که سازمان ها کمتر از یک درصد داده هایشان را برای تحلیل استفاده میکنند. بنابر اعلام دانشگاه MIT دانش نوین دادهکاوی یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را بسیار گسترده می دانند. (محمدیپور، 1388)
مفهوم دادهکاوی برای اولین بار در سال 1989 توسط دکتر گئورگی پیاتتسکی شاپیرو معرفی شد. از آن زمان تاکنون کنفرانس های سالانه منظمی در خصوص دادهکاوی و کشف دانش برگزار گردیده است. دانش دادهکاوی که نام آن نیز از استخراج معدن گرفته شده است با زدودن متعلقات غیرضروری داده ها و استخراج روابط سودمند در آنها، روابط پیچیده بین داده ها را آشکار کرده و راه را جهت تصمیمگیری هموار می نماید. پس از ورود مفهوم دادهکاوی به حیطه هایی چون مدیریت ارتباط با مشتری، اکنون دادهکاوی در بسیاری از زمینه های مختلف کاربرد دارد. (محمدیپور، 1388)
2-5-2 تعاریف دادهکاوی
تاکنون تعاریف متفاوتی از دادهکاوی ارائه شده است؛ ولیکن تعریفی که در اکثر مراجع به اشتراک ذکر شده عبارت است از “استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده-های بسیار بزرگ و پیچیده”. دادهکاوی یک متدولوژی بسیار قوی و با پتانسیل بالا می باشد که به سازمانها کمک می کند که بر مهمترین اطلاعات از مخزن داده های خود تمرکز نمایند. دادهکاوی به فرایند استخراج اطلاعات نهفته، قابل فهم، قابل تعقیب از پایگاه داده های بزرگ و استفاده از آنها در تصمیمگیری های تجاری مهم اطلاق می شود. دادهکاوی، مجموعه ای از روشها در فرایند کشف دانش است که برای تشخیص الگوها و رابطه های نامعلوم در داده ها مورد استفاده قرار می گیرد. (تقوا و همکاران، 1388)
بهعبارت دیگر، دادهکاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوش مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده می باشد. دادهکاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد؛ به طریقی که این الگوها و مدلها برای انسان ها قابل درک باشند. دادهکاوی به صورت یک محصول قابل خریداری نمیباشد، بلکه یک رشته علمی و فرآیندی است که می بایست به صورت یک پروژه تعریف گردد و در قدم های از پیش تعیین شده و برنامهریزی شده پیادهسازی شده و کنترل شود.
در تعریفی دیگر دادهکاوی شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با استفاده از پردازشهای معمول قابل دستیابی نیستند. هدف اصلی دادهکاوی؛ پیشبینی است. (محمدیپور، 1388)
دادهکاوی، عبارت است از اقتباس یا استخراج دانش از مجموعه ای از داده ها است. به بیان دیگر، داده کاوی فرایندی است که با استفاده از تکنیکهای هوشمند، دانش را از مجموعه ای از داده ها استخراج می کند. دو هدف اساسی و عمده تکنولوژی دادهکاوی؛ پیشبینی و تشریح است: (خلیلینژاد و مینایی، 1388)
1- دادهکاوی پیشگوییکننده: در این روش با استفاده از مجموعه داده ها، مدلهایی را برای توضیح سیستم تولید می کند که با استفاده از آنها می توان عملکرد متغیرهای مختلف را پیشبینی کرد. بنابراین، هدف از دادهکاوی پیشبینی کننده، تولید مدلی است که با استفاده از کد اجرایی وظایفی چون پیشبینی، رتبهبندی و تخمین را انجام دهد.
2- دادهکاوی توصیفی: اطلاعات جدید و غیربدیهی را بر اساس مجموعه های داده ای در دسترس تولید می کند که الگوهای رفتاری متغیرها را تشریح می کند. هدف دادهکاوی تشریحی دستیابی به درکی کامل از سیستم تحت بررسی با استفاده از الگوهای پنهان در آن و روابط درون مجموعه های داده ای است.
2-5-3 الگوریتمهای داده کاوی
تکنیک های داده کاوی کاربردهای خاصی از الگوریتم ها هستند و بهطور کلی شش تکنیک معمول برای کاوش داده وجود دارد: (امتیاز و همکاران، 1388)
قوانین پیوندی: قوانین پیوندی که برای تشخیص رفتار یک رویداد و یا پروسه خاص به کار می رود.
روش زنجیره ای: مانند روش پیوندی است اما در اینجا زمان را نیز در نظر می گیرند.
روش طبقه بندی: مرسوم ترین روش دادهکاوی است. این روش به رفتارها و ویژگیهای گروههایی که در حال حاضر ایجاد شده می پردازد. طبقه بندی، یادگیری با نظارت است. یعنی کلاس ها و طبقات از پیش تعیین شده ای وجود دارند که داده ها به داخل این طبقات نگاشت می شوند. سپس خصوصیات داده های هر طبقه را به دست آورده و از این خصوصیات برای پیش بینی نوع و طبقه داده های بعدی استفاده می کنند.
روش خوشه ای: می تواند برای یافتن گروه های مختلف در داده ها به کار رود. این روش شبیه روش طبقه بندی است با این تفاوت که هیچ گروهی قبلا تعریف و مشخص نشده است. این روش اغلب از شبکه های عصبی و یا روش آماری استفاده می کند. این روش اقلام را به گروههایی بر اساس شباهت هایی که ابزار کاوش داده می یابد گروه بندی می-کند. خوشه بندی، که نوعی یادگیری بدون نظارت است، هیچ عامل بیرونی طبقه بندی ها را تعیین نمی کند به همین دلیل به آن یادگیری بدون نظارت نیز می گویند.
روش بازگشت: یک روش پیش بینی است که از داده های کاملا شناخته شده، برای پیش بینی رویدادها در آینده بر اساس آمار و رویه های قبلی استفاده می کند. این کار را با به کار بردن فرمول هایی انجام می دهد.
روش سری های زمانی: یکی دیگر از روش های پیش بینی است. تفاوت این روش با روش بازگشت این است که در این جا از داده های مطلق که به زمان بستگی دارند، استفاده می شود.
2-5-4 تکنیکهای دادهکاوی
تکنیک های دادهکاوی، می تواند به تحقق اهداف مورد نظر جهت استخراج یا تشخیص رفتار و ویژگیهای مشتریان از پایگاه های داده کمک نمایند. جنبه عمومی دادهکاوی شامل ساختن مدل از دادهها میباشد. هر یک از تکنیک های دادهکاوی می تواند شامل مدلسازی های ذیل باشد: (تقوا و همکاران، 1388)
1- همبستگی
2- دستهبندی
3- خوشهبندی
4- پیشبینی
5- رگرسیون
6- کشف پیامدها
7- نمایهسازی
انتخاب تکنیک های دادهکاوی باید مبتنی بر ویژگی های داده ها و الزامات کسب و کار باشد. چند مورد از الگوریتم های دادهکاوی که بیشترین استفاده را دارند شامل، قوانین همبستگی، درخت تصمیم، الگوریتم ژنتیک، شبکه های عصبی، نزدیک ترین همسایه و رگرسیون می باشد. بواسطه کندوکاو داده های مربوط به مشتریان، به رکوردهای اطلاعاتی مشتریان ساختار داده می شود، جریان تشخیص مشتریان با اهمیت بهصورت خودکار صورت می گیرد، باعث تغییر در شیوه تشخیص مشتریان خاص و با ارزش از لیست کلیه مشتریان و در نهایت کشف مشتریان وفادار خواهد شد.