مبانی نظری داده‌کاوی

2-5-1 مفهوم داده‌کاوی
در طول دهه گذشته با پیشرفت روزافزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 ‏برابر می شود. در این میان سازمان هایی موفقند که بتوانند حداقل 7% داده-هایشان را تحلیل کنند. تحقیقات انجام یافته نشان داده است که سازمان ها کمتر از یک درصد داده هایشان را برای تحلیل استفاده میکنند. بنابر اعلام دانشگاه MIT دانش نوین داده‌کاوی یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را بسیار گسترده می دانند. (محمدی‌پور، 1388)
‏مفهوم داده‌کاوی برای اولین بار در سال 1989 ‏توسط دکتر گئورگی پیاتتسکی شاپیرو معرفی شد. از آن زمان تاکنون کنفرانس های سالانه منظمی در خصوص داده‌کاوی و کشف دانش برگزار گردیده است. دانش داده‌کاوی که نام آن نیز از استخراج معدن گرفته شده است با زدودن متعلقات غیرضروری داده ها و استخراج روابط سودمند در آنها، روابط پیچیده بین داده ها را آشکار کرده و راه را جهت تصمیم‌گیری هموار می نماید. پس از ورود مفهوم داده‌کاوی به حیطه هایی چون مدیریت ارتباط با مشتری، اکنون داده‌کاوی در بسیاری از زمینه های مختلف کاربرد دارد. (محمدی‌پور، 1388)
2-5-2 تعاریف داده‌کاوی
تاکنون تعاریف متفاوتی از داده‌کاوی ارائه شده است؛ ولیکن تعریفی که در اکثر مراجع به اشتراک ذکر شده عبارت است از “استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده-های بسیار بزرگ و پیچیده”. داده‌کاوی یک متدولوژی بسیار قوی و با پتانسیل بالا می باشد که به سازمان‌ها کمک می کند که بر مهمترین اطلاعات از مخزن داده های خود تمرکز نمایند. داده‏کاوی به فرایند استخراج اطلاعات نهفته، قابل فهم، قابل تعقیب از پایگاه داده ‏های بزرگ و استفاده ‏از آنها در تصمیم‌گیری های تجاری مهم اطلاق می شود. داده‌کاوی، مجموعه ای از روش‌ها در فرایند کشف دانش است که برای تشخیص الگوها و رابطه های نامعلوم در داده ها مورد استفاده قرار می گیرد. (تقوا و همکاران، 1388)
به‌عبارت دیگر، داده‌کاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوش مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده می باشد. داده‌کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد؛ به طریقی که این الگوها و مدل‌ها برای انسان ها قابل درک باشند. داده‌کاوی به صورت یک محصول قابل خریداری نمی‌باشد، بلکه یک رشته علمی و فرآیندی است که می بایست به صورت یک پروژه تعریف گردد و در قدم های از پیش تعیین شده و برنامه‌ریزی شده پیاده‌سازی شده و کنترل شود.
در تعریفی دیگر داده‌کاوی شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با استفاده از پردازش‌های معمول قابل دستیابی نیستند. هدف اصلی داده‌کاوی؛ پیش‌بینی است. (محمدی‌پور، 1388)
داده‌کاوی، عبارت است از اقتباس یا استخراج دانش از مجموعه ای از داده ها است. به بیان دیگر، داده کاوی فرایندی است که با استفاده از تکنیک‌های هوشمند، دانش را از مجموعه ای از داده ها استخراج می کند. دو هدف اساسی و عمده تکنولوژی داده‌کاوی؛ پیش‌بینی و تشریح است: (خلیلی‌نژاد و مینایی، 1388)
1- ‏داده‌کاوی پیشگویی‌کننده: در این روش با استفاده از مجموعه داده ها، مدل‌هایی را برای توضیح سیستم تولید می کند که با استفاده از آنها می توان عملکرد متغیرهای مختلف را پیش‌بینی کرد. بنابراین، هدف از داده‌کاوی پیش‌بینی کننده، تولید مدلی است که با استفاده از کد اجرایی وظایفی چون پیش‌بینی، رتبه‌بندی و تخمین را انجام دهد.
2- ‏داده‌کاوی توصیفی: اطلاعات جدید و غیربدیهی را بر اساس مجموعه های داده ای در دسترس تولید می کند که الگوهای رفتاری متغیرها را تشریح می کند. هدف داده‌کاوی تشریحی دستیابی به درکی کامل از سیستم تحت بررسی با استفاده از الگوهای پنهان در آن و روابط درون مجموعه های داده ای است.
2-5-3 الگوریتم‌های داده کاوی
‏تکنیک های داده کاوی کاربردهای خاصی از الگوریتم ها هستند و به‌طور کلی شش تکنیک معمول برای کاوش داده وجود دارد: (امتیاز و همکاران، 1388)
 قوانین پیوندی: قوانین پیوندی که برای تشخیص رفتار یک رویداد و یا پروسه خاص به کار می رود.
 روش زنجیره ای: مانند روش پیوندی است اما در اینجا زمان را نیز در نظر می گیرند.
 روش طبقه بندی: مرسوم ترین روش داده‌کاوی است. این روش به رفتارها و ویژگی‌های گروه‌هایی که در حال حاضر ایجاد شده می پردازد. طبقه بندی، یادگیری با نظارت است. یعنی کلاس ها و طبقات از پیش تعیین شده ای وجود دارند که داده ها به داخل این طبقات نگاشت می شوند. سپس خصوصیات داده های هر طبقه را به دست آورده و از این خصوصیات برای پیش بینی نوع و طبقه داده های بعدی استفاده می کنند.
 روش خوشه ای: می تواند برای یافتن گروه های مختلف در داده ها به کار رود. این روش شبیه روش طبقه بندی است با این تفاوت که هیچ گروهی قبلا تعریف و مشخص نشده است. این روش اغلب از شبکه های عصبی و یا روش آماری استفاده می کند. این روش اقلام را به گروه‌هایی بر اساس شباهت هایی که ابزار کاوش داده می یابد گروه بندی می-کند. خوشه بندی، که نوعی یادگیری بدون نظارت است، هیچ عامل بیرونی طبقه بندی ها را تعیین نمی کند به همین دلیل به آن یادگیری بدون نظارت نیز می گویند.
 روش بازگشت: یک روش پیش بینی است که از داده های کاملا شناخته شده، برای پیش بینی رویدادها در آینده بر اساس آمار و رویه های قبلی استفاده می کند. این کار را با به کار بردن فرمول هایی انجام می دهد.
 روش سری های زمانی: یکی دیگر از روش های پیش بینی است. تفاوت این روش با روش بازگشت این است که در این جا از داده های مطلق که به زمان بستگی دارند، استفاده می شود.
2-5-4 تکنیک‌های داده‌کاوی
تکنیک های داده‌کاوی، می تواند به تحقق اهداف مورد نظر جهت استخراج یا تشخیص رفتار و ویژگی‌های مشتریان از پایگاه های داده کمک نمایند. جنبه عمومی داده‌کاوی شامل ساختن مدل از داده‌ها می‌باشد. هر یک از تکنیک های داده‌کاوی می تواند شامل مدل‌سازی های ذیل باشد: (تقوا و همکاران، 1388)
1- همبستگی
2- دسته‌بندی
3- خوشه‌بندی
4- پیش‌بینی
5- رگرسیون
6- کشف پیامدها
7- نمایه‌سازی
‏انتخاب تکنیک های داده‌کاوی باید مبتنی بر ویژگی های داده ها و الزامات کسب و کار باشد. چند مورد از الگوریتم های داده‌کاوی که بیشترین استفاده را دارند شامل، قوانین همبستگی، درخت تصمیم، الگوریتم ژنتیک، شبکه های عصبی، نزدیک ترین همسایه و رگرسیون می باشد. بواسطه کندوکاو داده های مربوط به مشتریان، به رکوردهای اطلاعاتی مشتریان ساختار داده می شود، جریان تشخیص مشتریان با اهمیت به‌صورت خودکار صورت می گیرد، باعث تغییر در شیوه تشخیص مشتریان خاص و با ارزش از لیست کلیه مشتریان و در نهایت کشف مشتریان وفادار خواهد شد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.