این آموزش قسمت دوم بسته آموزش جامع یادگیری ماشین می باشد. ما در این آموزش شما با ابزارهای و تابع های متلب در پیش پردازش داده و معیارهای ارزیابی مدل های یادگیری ماشین آشنا می کنیم.
در هر کار یادگیری ماشین ما با داده (data) در ارتباط هستیم. این داده ها می توانند از منابع مختلفی گردآوری شده باشند. اکثر متخصصان یادگیری ماشین داده های ورودی به مدل یادگیری ماشین را ابتدا مورد پردازش قرار می دهند تا بتوانند هر گونه اشکال یا ایراد در داده ها را پیدا و رفع کنند.
هنگامی که حجم داده های ورودی به سیستم کم می باشد، می توان از روشهای دستی برای پیش پردازش داده استفاده کرد اما هنگامی که تعداد داده ها بیش از چند میلیون می باشد، روش دستی دیگر جوابگو نیست و لازم است ، ابزارهای اتوماتیکی برای پیش پردازش داده بکار گرفته شود. متلب ابزارهای بسیار حرفه ای و خوبی برای این کار دارد و از آنجایی که متلب خودش ماتریس مبنا می باشد یعنی تمامی متغییرها به صورت ماتریس در نظر گرفته می شوند و یک جعبه ابزار حرفه ای آمار دارد، به کاربران یادگیری ماشین می تواند در پیش پردازش داده بسیار کمک کند. بخش اول این آموزش به تابع و نمودارهای پیش پردازش داده در متلب اختصاص دارد.
بخش دوم این آموزش مخنص معیارهای ارزیابی در یادگیری ماشین می باشد. منظور از معیارهای ارزیابی ، همان معیارهای است که در بیشتر مواقع بعد از یک کار یادگیری ماشین مورد استفاده قرار می گیرد تا مدل نهایی مورد ارزیابی قرار گیرد. در یک کار یادگیری ماشین، ما مدل خود را با داده های آموزش ، آموزش می دهیم و با داده های تست ، تست می کنیم تا بفهمیم مدل آموزش یافته ما چقدر خوب آموزش یافته است و خاصیت عمومیت پذیری آن چقدر است؟ راندمان آن چقدر است؟ در هر کلاس، یک مدل دسته بندی چقدر درست عمل کرده است؟ دو مدل رگرسیون را چطور باید مقایسه کنیم؟ معیار چیست؟ و خیلی سوالات دیگر مربوط به همین مبحث معیارهای ارزیابی می شود.
سرفصل :
متغییرهای گروهی
تقسیم داده ها بر اساس گروه
یافتن تعداد کلاس ها
تابع splitapply
رسم گروه بندی شده داده ها
حذف یک کلاس از داده ها
محاسبه درصد و تعداد هر گروه در داده
رسم نمودار پراکندگی بر اساس گروه
مزیت droplevels
رسم نمودار ماتریس گروه
محاسبه معیارهای آماری هر گروه
چه داده هایی در متلب به عنوان missing در نظر گرفته می شوند؟
عملیات یا داده های شامل NaN
چطور داده های ما شامل NaN می شوند؟
محاسبات آماری با داده هایی که شامل مقادیر missing هستند
آشنایی با دیتاست های آماده متلب
خواندن داده از فایل اکسل excel
خواندن داده های یک sheet
خواندن داده های یک range
یافتن اتوماتیک داده های missing
حذف داده های missing از داده های ورودی
جایگزینی داده های missing
ایجاد داده های missing
یافتن outliers در داده ها
شناسایی و جایگزینی outliers
حذف outliers از داده ها
انواع روش های جایگزینی داده های missing
تعیین جهت عملگر بر روی داده های 2 بعدی
مفهوم outliers
معیار MAD یا median absolute deviation
یافتن تغییرات شدید در داده ها
یافتن مینیمم های محلی
یافتن ماکزیمم های محلی
هموار کردن داده smoothing
معیار میانگین حرکتی
معیار میانه حرکتی
پنجره در هموار کردن و معیارهای حرکتی
نرمالیزه کردن داده
روش zscore
روش norm
روش scale
روش range
روش center
تابع rescale
معیار cross validation در متلب
مفهوم k-fold
یک مثال برنامه نویسی پیچیده
تابع crossval
ماتریس confusion
چارت ماتریسی confusion
نمودار ROC
هدف از ROC چیست؟
معیار Number of true positive
معیار Number of false negative
معیار Number of false positive
معیار Number of true negative
معیار Rate of positive predictions
معیار Rate of negative predictions
معیار Accuracy
معیار True positive rate یا sensitivity یا recall
معیار False negative rate
معیار False positive rate یا fallout یا 1 – specificity
معیار True negative rate یا specificity
معیار Positive predictive value یا precision
معیار Negative predictive value
مقایسه نمودار های ROC
پیش نمایش اول
دانلود پیش نمایش اول (کیفیت بالا)
پیش نمایش دوم
دانلود پیش نمایش دوم (کیفیت بالا)
پیش نمایش سوم
دانلود پیش نمایش سوم (کیفیت بالا)
مدت زمان : 224 دقیقه