پیش پردازش داده و معیارهای ارزیابی در MATLAB

این آموزش قسمت دوم بسته آموزش جامع یادگیری ماشین می باشد. ما در این آموزش شما با ابزارهای و تابع های متلب در پیش پردازش داده و معیارهای ارزیابی مدل های یادگیری ماشین آشنا می کنیم.

در هر کار یادگیری ماشین ما با داده (data) در ارتباط هستیم. این داده ها می توانند از منابع مختلفی گردآوری شده باشند. اکثر متخصصان یادگیری ماشین داده های ورودی به مدل یادگیری ماشین را ابتدا مورد پردازش قرار می دهند تا بتوانند هر گونه اشکال یا ایراد در داده ها را پیدا و رفع کنند.

هنگامی که حجم داده های ورودی به سیستم کم می باشد، می توان از روشهای دستی برای پیش پردازش داده استفاده کرد اما هنگامی که تعداد داده ها بیش از چند میلیون می باشد، روش دستی دیگر جوابگو نیست و لازم است ، ابزارهای اتوماتیکی برای پیش پردازش داده بکار گرفته شود. متلب ابزارهای بسیار حرفه ای و خوبی برای این کار دارد و از آنجایی که متلب خودش ماتریس مبنا می باشد یعنی تمامی متغییرها به صورت ماتریس در نظر گرفته می شوند و یک جعبه ابزار حرفه ای آمار دارد، به کاربران یادگیری ماشین می تواند در پیش پردازش داده بسیار کمک کند. بخش اول این آموزش به تابع و نمودارهای پیش پردازش داده در متلب اختصاص دارد.

بخش دوم این آموزش مخنص معیارهای ارزیابی در یادگیری ماشین می باشد. منظور از معیارهای ارزیابی ، همان معیارهای است که در بیشتر مواقع بعد از یک کار یادگیری ماشین مورد استفاده قرار می گیرد تا مدل نهایی مورد ارزیابی قرار گیرد. در یک کار یادگیری ماشین، ما مدل خود را با داده های آموزش ، آموزش می دهیم و با داده های تست ، تست می کنیم تا بفهمیم مدل آموزش یافته ما چقدر خوب آموزش یافته است و خاصیت عمومیت پذیری آن چقدر است؟ راندمان آن چقدر است؟ در هر کلاس، یک مدل دسته بندی چقدر درست عمل کرده است؟ دو مدل رگرسیون را چطور باید مقایسه کنیم؟ معیار چیست؟ و خیلی سوالات دیگر مربوط به همین مبحث معیارهای ارزیابی می شود.

 

سرفصل :

متغییرهای گروهی

تقسیم داده ها بر اساس گروه

یافتن تعداد کلاس ها

تابع splitapply

رسم گروه بندی شده داده ها

حذف یک کلاس از داده ها

محاسبه درصد و تعداد هر گروه در داده

رسم نمودار پراکندگی بر اساس گروه

مزیت droplevels

رسم نمودار ماتریس گروه

محاسبه معیارهای آماری هر گروه

چه داده هایی در متلب به عنوان missing در نظر گرفته می شوند؟

عملیات یا داده های شامل NaN

چطور داده های ما شامل NaN می شوند؟

محاسبات آماری با داده هایی که شامل مقادیر missing هستند

آشنایی با دیتاست های آماده متلب

خواندن داده از فایل اکسل excel

خواندن داده های یک sheet

خواندن داده های یک range

یافتن اتوماتیک داده های missing

حذف داده های missing از داده های ورودی

جایگزینی داده های missing

ایجاد داده های missing

یافتن outliers در داده ها

شناسایی و جایگزینی outliers

حذف outliers از داده ها

انواع روش های جایگزینی داده های missing

تعیین جهت عملگر بر روی داده های 2 بعدی

مفهوم outliers

معیار MAD یا median absolute deviation

یافتن تغییرات شدید در داده ها

یافتن مینیمم های محلی

یافتن ماکزیمم های محلی

هموار کردن داده smoothing

معیار میانگین حرکتی

معیار میانه حرکتی

پنجره در هموار کردن و معیارهای حرکتی

نرمالیزه کردن داده

روش zscore

روش norm

روش scale

روش range

روش center

تابع rescale

معیار cross validation در متلب

مفهوم k-fold

یک مثال برنامه نویسی پیچیده

تابع crossval

ماتریس confusion

چارت ماتریسی confusion

نمودار ROC

هدف از ROC چیست؟

معیار Number of true positive

معیار Number of false negative

معیار Number of false positive

معیار Number of true negative

معیار Rate of positive predictions

معیار Rate of negative predictions

معیار Accuracy

معیار True positive rate یا sensitivity یا recall

معیار False negative rate

معیار False positive rate یا fallout یا 1 – specificity

معیار True negative rate یا specificity

معیار Positive predictive value یا precision

معیار Negative predictive value

مقایسه نمودار های ROC

 

لینک سفارش

 


پیش نمایش اول

دانلود پیش نمایش اول (کیفیت بالا)

 


پیش نمایش دوم

دانلود پیش نمایش دوم (کیفیت بالا)

 


پیش نمایش سوم

دانلود پیش نمایش سوم (کیفیت بالا)

 


مدت زمان : 224 دقیقه

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *