تعدادی از متخصصین دادهکاوی از شرکت های مختلف گرد هم آمده و یک فرایند استاندارد برای دادهکاوی ارائه نموده اند که CRISP-DM نام دارد. این متدولوژی فرایند دادهکاوی را در شش فاز تعریف کرده است: (غفاری و سلماسی، 1388)
1- فاز درک کسب و کار
2- فاز درک داده
3- فاز آمادهسازی داده
4- فاز مدلسازی
5- فاز ارزیابی
6- فاز پیادهسازی
فرایند دادهکاوی همچون سیستم بهبود مستمر در یک چرخه صورت می گیرد که در هر جای این چرخه که باشیم ممکن است نیاز باشد به مراحل قبل برگشته و اصلاحاتی را صورت دهیم. برای مثال در فاز مدلسازی، به خاطر یک سری الزامات الگوریتم مورد استفاده، ممکن است لازم شود به فاز آمادهسازی داده برگشته و تغییراتی را بر روی مجموعه داده اعمال نماییم. یا اینکه در فاز ارزیابی پی ببریم، علیرغم ساختن مدلی با دقت بالا، این مدل کارایی لازم را ندارد و می بایست به فاز مدلسازی برگشته و مدلی دیگر ساخت. مثال دیگر اینکه ممکن است در فاز مدلسازی دریابیم که نیاز به یک سری مشخصه دیگر است که در این صورت می بایست به فاز دوم که شناخت داده است برگردیم و داده جدید جمعآوری نماییم. از اینرو، در هر مرحله از فرایند دادهکاوی امکان برگشت به هر یک از مراحل پیشین آن وجود دارد. در ادامه به بررسی اجمالی گامهای فرآیند دادهکاوی میپردازیم (غفاری و سلماسی، 1388):
شکل 2-25: متدولوژی CRISP-DM
2-5-6-1 فاز درک کسب و کار
این فاز ابتدایی روی درک اهداف پروژه و نیازمندیهای آن و سپس تبدیل این دانش به تعریف مسأله دادهکاوی و یک برنامه طراحی شده اولیه برای دستیابی به اهداف تمرکز می کند.
2-5-6-2 فاز درک داده
این فاز با جمعآوری داده اولیه آغاز گردیده و با فعالیت هایی که شما را قادر می سازد با داده آشنا شوید، مشکلات کیفیتی داده را شناسایی نمایید، اولین شناخت در داده را کشف نمایید، و ردیابی زیرمجموعههای جالبی از داده که فرضیه هایی را در رابطه با اطلاعات نهان شکل دهد، پیش می رود.
2-5-6-3 فاز آماده سازی داده
فاز آمادهسازی داده، تمام فعالیت های لازم برای ساختن مجموعه داده نهایی از داده های خام اولیه را دربرمی گیرد. وظایف آمادهسازی داده احتمالا در چندین نوبت شکل می گیرد و هیچگونه ترتیب معینی ندارد. وظایفی شامل جدولبندی، ثبت، انتخاب مشخصه، همچنین انتقال و پاکسازی داده برای ابزار مدلسازی.
خروجی فاز آمادهسازی داده مجموعه داده هایی هستند که توسط این فاز ساخته شده اند و برای مدلسازی یا کار آنالیز اصلی پروژه استفاده می شوند.
2-5-6-4 فاز مدلسازی
در این فاز تکنیکهای مدلسازی مختلفی انتخاب و اعمال می گردند و پارامترهایشان به مقادیر بهینه مدرج شده اند. بطور نمونه چندین تکنیک برای یک مساله دادهکاوی وجود دارند. بعضی از تکنیکها نیازمندیهای خاصی را برای فرم داده دارند بنابراین برگشت به فاز آمادهسازی داده اغلب مورد نیاز است.
2-5-6-5 فاز پیاده سازی
در این مرحله از پروژه، ما یک مدل ساخته ایم که به نظر می رسد کیفیت بالایی از یک پرسپکتیو آنالیز داده را داشته باشد. قبل از پیادهسازی نهایی مدل، مهم است به منظور اطمینان از اینکه مدل بطور مناسب به اهداف دست یابد، بطور کلی ارزیابی گردد و مراحل اجرا شده برای خلق آن بازبینی شود. یک هدف کلیدی تعیین این است که آیا جنبه های مهم مساله بمیزان کافی در نظر گرفته شده اند. در انتهای این فاز یک تصمیم در رابطه با استفاده از نتایج دادهکاوی می بایست اتخاذ گردد.
2-5-6-6 فاز پیاده سازی
بطور کلی خلق مدل انتهای پروژه نیست. حتی اگر هدف مدل افزایش دانش داده باشد، دانش بدست آمده نیاز دارد که سازماندهی شده و به صورتی که برای مشتری قابل استفاده باشد ارائه گردد. این اغلب در اعمال مدل های “زنده” درون فرآیند تصمیم گیری سازمان لازم است. بسته به نیازمندی ها، فاز پیاده سازی می تواند به سادگی ایجاد یک گزارش یا به پیچیدگی اجرای یک فرآیند داده کاوی قابل تکرار در شرکت باشد. در بسیاری از حالات این مشتری است که مراحل پیاده سازی را متحمل می شود نه تحلیلگر داده.