فرآیند داده‌کاوی

تعدادی از متخصصین داده‌کاوی از شرکت های مختلف گرد هم آمده و یک فرایند استاندارد برای داده‌کاوی ارائه نموده اند که CRISP-DM نام دارد. این متدولوژی فرایند داده‌کاوی را در شش فاز تعریف کرده است: (غفاری و سلماسی، 1388)
1- فاز درک کسب و کار
2- فاز درک داده
3- فاز آماده‌سازی داده
4- فاز مدلسازی
5- فاز ارزیابی
6- فاز پیاده‌سازی
فرایند داده‌کاوی همچون سیستم بهبود مستمر در یک چرخه صورت می گیرد که در هر جای این چرخه که باشیم ممکن است نیاز باشد به مراحل قبل برگشته و اصلاحاتی را صورت دهیم. برای مثال در فاز مدل‌سازی، به خاطر یک سری الزامات الگوریتم مورد استفاده، ممکن است لازم شود به فاز آماده‌سازی داده برگشته و تغییراتی را بر روی مجموعه داده اعمال نماییم. یا اینکه در فاز ارزیابی پی ببریم، علیرغم ساختن مدلی با دقت بالا، این مدل کارایی لازم را ندارد و می بایست به فاز مدل‌سازی برگشته و مدلی دیگر ساخت. مثال دیگر اینکه ممکن است در فاز مدل‌سازی دریابیم که نیاز به یک سری مشخصه دیگر است که در این صورت می بایست به فاز دوم که شناخت داده است برگردیم و داده جدید جمع‌آوری نماییم. از این‌رو، در هر مرحله از فرایند داده‌کاوی امکان برگشت به هر یک از مراحل پیشین آن وجود دارد. در ادامه به بررسی اجمالی گام‌های فرآیند داده‌کاوی می‌پردازیم (غفاری و سلماسی، 1388):

شکل 2-25: متدولوژی CRISP-DM
2-5-6-1 فاز درک کسب و کار
این فاز ابتدایی روی درک اهداف پروژه ‏و نیازمندی‌های آن و سپس تبدیل این دانش به تعریف مسأله داده‌کاوی و یک برنامه طراحی شده ‏اولیه برای دستیابی به اهداف تمرکز می کند.
2-5-6-2 فاز درک داده
این فاز با جمع‌آوری داده اولیه آغاز گردیده و با فعالیت هایی که شما را قادر می‌ سازد با داده آشنا شوید، مشکلات کیفیتی داده را شناسایی نمایید، اولین شناخت در داده را کشف نمایید، و ردیابی زیر‌مجموعه‌های جالبی از داده که فرضیه هایی را در رابطه با اطلاعات نهان شکل دهد، پیش می رود.
2-5-6-3 فاز آماده سازی داده
فاز آماده‌سازی داده، تمام فعالیت های لازم برای ساختن مجموعه داده نهایی از داده های خام اولیه را دربرمی گیرد. وظایف آماده‌سازی داده احتمالا در چندین نوبت شکل می گیرد و هیچگونه ترتیب معینی ندارد. وظایفی شامل جدول‌بندی، ثبت، انتخاب مشخصه، همچنین انتقال و پاکسازی داده برای ابزار مدل‌سازی.
خروجی فاز آماده‌سازی داده مجموعه داده هایی هستند که توسط این فاز ساخته شده اند و برای مدل‌سازی یا کار آنالیز اصلی پروژه استفاده می شوند.
2-5-6-4 فاز مدلسازی
در این فاز تکنیک‌های مدل‌سازی مختلفی انتخاب و اعمال می گردند و پارامترهایشان به مقادیر بهینه مدرج شده اند. بطور نمونه چندین تکنیک برای یک مساله داده‌کاوی وجود دارند. بعضی از تکنیک‌ها نیازمندی‌های خاصی را برای فرم داده دارند بنابراین برگشت به فاز آماده‌سازی داده اغلب مورد نیاز است.
2-5-6-5 فاز پیاده سازی
در این مرحله از پروژه، ما یک مدل ساخته ایم که به نظر می رسد کیفیت بالایی از یک پرسپکتیو آنالیز داده را داشته باشد. قبل از پیاده‌سازی نهایی مدل، مهم است به منظور اطمینان از اینکه مدل بطور مناسب به اهداف دست یابد، بطور کلی ارزیابی گردد و مراحل اجرا شده برای خلق آن بازبینی شود. یک هدف کلیدی تعیین این است که آیا جنبه های مهم مساله بمیزان کافی در نظر گرفته شده اند. در انتهای این فاز یک تصمیم در رابطه با استفاده از نتایج داده‌کاوی می بایست اتخاذ گردد.
2-5-6-6 فاز پیاده سازی
بطور کلی خلق مدل انتهای پروژه نیست. حتی اگر هدف مدل افزایش دانش داده باشد، دانش بدست آمده نیاز دارد که سازماندهی شده و به صورتی که برای مشتری قابل استفاده باشد ارائه گردد. این اغلب در اعمال مدل های “زنده” درون فرآیند تصمیم گیری سازمان لازم است. بسته به نیازمندی ها، فاز پیاده سازی می تواند به سادگی ایجاد یک گزارش یا به پیچیدگی اجرای یک فرآیند داده کاوی قابل تکرار در شرکت باشد. در بسیاری از حالات این مشتری است که مراحل پیاده سازی را متحمل می شود نه تحلیلگر داده.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.