تعاریف در داده کاوی

داده پرت:

داده­ای که به طور قابل ملاحظه­ای از سایر داده­های دیگر (هم رده) فاصله دارد.

تحلیل توسعه:

تحلیل توسعه داده اغلب به یافتن مدل هایی برای اشیایی که در طول زمان رفتارشان را عوض می کنند گفته می شود. مثلا پیش بینی قیمت یک کالا در یک بازار بورس.

نمودار ROC :

نموداری جهت نمایش کارایی یک رده­بند دو رده­ای که با تغییر سطح پذیرش یک رده، TP=های گوناگون را در مقابل FP=های گوناگون نمایش می­دهد.

Cross Validation :

نوعی روش ارزیابی است که در آن مجموعه داده به n بخش مجزا و بدون همپوشانی افراز شده و در n مرحله پشت سر هم، هر بار یک بخش از این n بخش به عنوان مجموعه آزمایشی و بقیه به عنوان مجموعه آموزشی در نظر گرفته می­شوند.

مکعب داده :

یک روش نمایش فشرده داده­های یک انبار داده است که در آن داده­ها بر اساس یک معیار (مثلا در ساده­ترین حالت فراوانی) و یک یا جند فیلد به صورت یک آرایه یک یا چند بعدی نمایش داده می­شوند.

تراکنش:

تراکنش یک پردازش یکپارچه و هم روند روی پایگاه داده است. هدف این بود که اگر می خواهیم کاری انجام دهیم، این کار در قالبی انجام شود که یقینا یکپارچه انجام بشود و اثر جانبی روی بقیه نگذارد.

تعمیم:

به طور ساده یعنی با دیدن چندین داده که یک حقیقت را نشان می دهند، آن حقیقت را استنتاج کردن تعمیم گفته می شود. یعنی اینکه مثلا ما امروز از خانه بیرون می رویم می بینیم که خورشید هست؛ فردا هم همین طور؛ روز بعد هم همینطور؛ پس نتیجه می گیریم که هر وقت روز بود خورشید هم هست. به این فرایند از جز به کل رسیدن تعمیم می گوییم.

رده بند:

ساختن مدلی که بتواند یک الگو را در یکی از اعضای یک مجموعه از مفاهیم پیش تعیین شده به نام رده قرار دهد را رده بند گویند. این انتساب باید بگونه ای انجام پذیرد که الگوهای موجود در یک رده، بیشترین و الگوهای موجود در رده های متفاوت کمترین شباهت را به هم داشته باشند.

قانون انجمن:

یعنی ارتباط بین دو پدیده که با هم مکرر رخ می­دهند؛ مثلا هر وقت فرد خواسته پول بردارد، قبل آن یک رسید دریافت کرده است.

خوشه بندی:

به نوعی از رده بندی گوییم که از قبل دسته یا خوشه ها مشخص نیستند.

2- داده کاوی تعریف کنید؟ مراحل آن را نام ببرید و توضیح دهید.

به بیان ساده می­توان گفت داده ­کاوی استخراج دانش از حجم زیادی از داده ها و یا اطلاعات است. به عبارت دیگر، عموما داده کاوی را فقط یکی از گام های اساسی در فرآیند کشف دانش می دانند. کشف دانش شامل مراحل زیر است.

i.            پاکسازی داده (حذف نویز و داده های متناقض)

ii.            یکپارچه سازی داده (که در آن ممکن است منابع چند گانه ی داده ها با هم ترکیب شود)

iii.            انتخاب داده ها (داده ها برای تجزیه و تحلیل از پایگاه داده ها بازیابی می شود)

iv.            تبدیل داده (در آن داده ها به شکل های مناسب تبدیل و ثبت می شوند تا عملیات کاوش آسان تر انجام شود)

v.            داده کاوی (فرآیندی ضروری که روش هایی هوشمند برای الگوی استخراج داده معرفی می شود)

vi.            ارزیابی الگو (شناسایی الگوهای جالب برای کسب دانش بر پایه تعریف الگوی جالب؛)

vii.            نمایش دانش (که از تکنیک هایی برای تجسم و ارائه دانش استخراج شده به کاربر استفاده می شود)

3- انواع داده های که روی آنها داده کاوی قابل انجام است، را نام ببرید و توضیح دهید؟

1 داده های پایگاه داده رابطه ای

یک سیستم پایگاه داده، یا سیستم مدیریت پایگاه داده، از یک مجموعه ای از داده هایی که به هم مرتبط هستند، پایگاه داده، و یک سری نرم افزارهایی برای مدیریت و دسترسی به داده ها تشکیل می شود.

2 انبارهای داده

فرض کنید که شرکت AllElectronics‌ یک شرکت بین المللی موفق می باشد که شعبه هایی را در سرتاسر دنیا دارد. هر شعبه دارای پایگاه داده های خودش می باشد. رئیس  شرکت خواسته است که یک تحلیلی را در مورد فروش های هر کالا در هر شعبه برای فصل سوم سال بداند. این امر یک کار سخت برای پرس و جوهای رابطه ای می باشد؛ چرا که داده ها روی چندین پایگاه داده توزیع شده در سرتاسر دنیا قرار دارد. اگر این شرکت یک انبار داده داشت این کار آسان می بود. یک انبار داده، یک انباری از اطلاعات می باشد که از چندین منبع جمع شده اند و تحت یک شمای یکپارچه ذخیره شده اند و اغلب در یک مکان نگهداری می شوند.

3 پایگاه داده های تراکنشی

به طور کلی یک پایگاه تراکنشی از یک فایل که هر کدام از رکوردهایش یک تراکنش را نشان می دهد گفته شده است. یک تراکنش معمولا شامل یک شناسه تراکنش و لیستی از اقلامی که آن تراکنش را می سازند، می باشد؛ برای نمونه تعداد مورد های خرید شده را شامل می شود.

4 سیستم های اطلاعاتی و داده ای پیشرفته و کاربردهای پیشرفته

4-1 پایگاه داده های زمانی

اغلب پایگاه داده های رابطه ای هستند که ویژگی های مرتبط به زمان را نگهداری می کنند.

4-2 پایگاه داده های دنباله ای

رشته ای از حوادث مرتب شده و متوالی را نگهداری می کنند که هر کدام به ترتیب در بستر زمان رخ داده اند بدون معنای مستقیم زمان. برای مثال، دنباله ی کلیک کردن در یک وب سایت را می توان پایگاه داده های دنباله ای بنامیم؛ در حالی که پایگاه داده های سری زمانی پایگاه داده هایی می باشند که مقادیر یک سری حوادث یا ویژگی ها را بر روی زمان نشان دهند. مثلا داده هایی که هر چند دقیقه مقدار بازار بورس را نمایش می دهد یا نگهداری دما بر حسب زمان.

4-3 پایگاه داده های زمانی مکانی

پایگاه داده های مکانی شامل اطلاعات مرتبط به مکان می باشند. مثال های از این نوع پایگاه داده ها، پایگاه داده های جغرافیایی و مجتمع سازی در سطح بسیار بالا یا پایگاه داده های طراحی به کمک کامپیوتر و پایگاه داده های تصاویر ماهواره ای و پزشکی است.

4-4 پایگاه داده های متنی و چندرسانه ای

پایگاه داده هایی که از کلمات به منظور توصیف اشیا استفاده می کنند پایگاه داده های متنی گفته می شوند. ویژگی اصلی این پایگاه داده ها این است که به شدت بی ساختار می باشند.

4-5 پایگاه داده های متنی نیمه ساختارمند

بعضی از پایگاه داده های متنی که تا حدودی ساختارمند هستند نیمه ساختارمند به آن ها گفته می شود. برای مثال ایمیل ها و بعضی وب پیج های  HTML از این دسته هستند.

4-6 تار نمای جهانی وب

تار نمای جهانی وب و سرویس های اطلاعاتی توزیع شده مخصوص به خودش شبیه yahoo، google، America online، Alta vista و سایر موارد، سرویس های اطلاعاتی برخط بسیار غنی و جهانی را فراهم می کند که اشیا داده های ما از طریق لینک های به همدیگر متصل اند که دسترسی های درون اینترنتی را برای کاربران تسهیل کند. کاربران از یک وب پیج به وب پیج دیگر و مورد علاقه خود به وسیله لینک ها نقل مکان می کنند.

4- وظایف اصلی داده کاوی را نام ببرید و توضیح دهید؟

1 توصیف کلاس یا مفهوم

مشخص سازی خواص و تفکیک سازی داده ها می توانند به رده ها و یا مفاهیم منتسب بشوند. برای مثال در شرکت AllElectronics‌ کلاس های اقلام فروخته شده، اقلامی که برای فروش هستند، می توانند شامل کامپیوترها، پرینترها باشند در حالی که مفاهیم و یا کلاس ها در مشتری ها می توانند خرج کننده های بزرگ یا خرج کننده های کوچک تقسیم بشوند.

2 کاوش الگوهای پرتکرار، ارتباطات و همرخداد

الگوهای پرتکرار همانگونه که از اسمشان بر می آید الگوهایی هستند که به صورت فراوان در داده ها رخ می دهند. اگرچه انواع گوناگونی از این الگوها وجود دارند اما به طور معمول به مجموعه ای از اقلامی که به طور همزمان در یک مجموعه داده تراکنشی رخ می دهد، ما اصطلاحا مجموعه اقلام فراوان یا پرتکرار می گوییم.

3 رده بندی و پیش بینی

رده بندی به فرآیند یافتن مدل یا تابع توصیف کننده و تمایز دهنده ای که رده های داده ای و مفاهیم داده ای را به منظور تواناسازی ما به تعیین کلاس یا رده اشیا جدید (با کمک آن مدل) گفته می شود. آن مدل بر اساس یک تحلیل بر روی داده های آموزشی به وجود آمده است که برای آن مجموعه آموزشی، برچسب کلاس آن ها را به عنوان ورودی به آن مدل می دهیم.

4- تحلیل خوشه

تحلیل خوشه برعکس پیش بینی و رده بندی که ما تحلیلمان را بر روی یک سری اشیایی که بر چسب کلاس آن ها را می دانیم می باشد، است. خوشه بندی تحلیل اشیایی است که هیچ گونه مجموعه آموزشی برای آن ها وجود ندارد. هدف در خوشه بندی این می باشد که ما داده ها را در خوشه هایی قرار بدهیم که مشابهت بین داده های درون خوشه ای به حداکثر برسد، در حالی که مشابهت بین داده های بیرون خوشه ای به حداقل برسد.

5- تحلیل داده دور افتاده

یک پایگاه داده ممکن است شامل اشیائی یا داده هایی باشد که با رفتار عمومی و مدل داده ها همخوانی چندانی ندارد. این داده ها را به اصطلاح داده های دور افتاده می گوییم. تحلیل داده دور افتاده را اصطلاحا کاوش داده پرت یا دور افتاده می گوییم.

6 تحلیل توسعه

تحلیل توسعه داده اغلب به یافتن مدل هایی برای اشیایی که در طول زمان رفتارشان را  عوض می کنند گفته می شود.

5- مراحل پیش پردازش را نوشته و توضیح دهید؟

(الف) پاکسازی داده: می تواند برای حذف و یا تصحیح خطا و سازگار سازی داده ها به کار گرفته شود،

(ب) ادغام و یکپارچه سازی داده: داده هایی را که از چندین منبع می باشند، در یک مجموعه داده واحد منسجم می کند.

(ج) تبدیل داده ها: همانند تکنیک نرمال سازی (نرمال سازی باعث بهبود و صحت کارایی الگوریتم های داده کاوی می شود) می تواند به کار گرفته شود.

(د) کاهش داده می تواند حجم داده را با استفاده از اجتماع، ‌حذف صفات تکراری و یا خوشه بندی داده ها کاهش دهد.

6- انواع روش های اندازه گیری پراکندگی چند دسته اند؟ تعریف کنید.

الف) معیار توزیعی، معیاری است که برای یک مجموعه داده ای با تقسیم کردن آن به زیر مجموعه های کوچکتر محاسبه می شود؛ با محاسبه معیار برای هر زیر مجموعه و سپس ادغام نتایج برای رسیدن به مقدار کلی برای مجموعه داده اصلی انجام می شود. هر دو تابع Sum()‌ و Count() معیار های توزیعی هستند

ب) معیار جبری: یک معیار جبری معیاری است که با به کارگیری تابع جبری روی یک یا چند معیار توزیعی محاسبه می شود. از این رو میانگین (یا Mean()) یک معیار جبری است.

ج) معیار کلی: یک معیار کلی، معیاری است که روی کل مجموعه داده ای محاسبه می شود. این مقدار با تقسیم بندی داده به زیر مجموعه ها و ادغام مقادیر بدست آمده، حاصل نمی شود. میانه نمونه ای از یک معیار کلی است. معیارهای کلی خیلی پرهزینه تر از معیارهای توزیعی است.

7- انواع تکنیک های کاهش داده را نام ببرید؟

تکنیک های کاهش داده برای به دست آوردن نمایش مختصر مجموعه داده ای که از لحاظ حجم خیلی کوچکتر و در عین حال صحت و جامعیت داده اصلی را داراست به کار می روند. با این روش کاوش داده کاهش یافته موثر و کارآمدتر و منجر به تولید همان نتایج اصلی می شود.

استراتژی های کاهش داده در زیر ذکر شده اند:

1-اجتماع مکعب داده ای، که عملیات اجتماع روی داده ها به منظور ساخت مکعب داده ای به کار می روند.

2-انتخاب زیر مجموعه صفات: که صفات غیر مرتبط، کم مرتبط و زائد کشف و حذف شوند.

3-کاهش ابعاد، که مکانیسم های کد گذاری برای کاهش اندازه مجموعه داده ای مورد استفاده قرار می گیرند.

4-کاهش چندی، نمایش های داده ای کوچکتر همچون مدل های پارامتری ( که نیازمند ذخیره سازی فقط پارامترهای مدل و نه خود داده واقعی می باشند) و یا روش های غیر پارامتری همچون خوشه بندی، نمونه گذاری و استفاده از هیستوگرام جایگزین داده اصلی می شوند.

5-گسسته سازی و تولید سلسله مراتب مفهومی، مقادیر داده ای خام با محدوده یا سطوح مفهومی بالاتر جایگزین می شوند. گسسته سازی داده شکل دیگری از کاهش چندی است که برای تولید خودکار سلسله مراتب مفهومی مفید است. گسسته سازی و تولید سلسله مراتب مفهومی ابزارهای قدرتمندی برای کاوش داده می باشند. آنها امکان کاوش داده را در چند سطح انتزاع فراهم می کنند.

8- تکنیک های کاهش چندی را نام ببرید؟

1- مدل های رگرسیون و Log-linear

2- هیستوگرام ها

3- خوشه بندی

4- نمونه گیری

9- انبار داده را تعریف کنید و کلمات کلیدی آن را توضیح دهید؟

انبار داده یک مجموعه­­ی موضوع­گرا، ادغام شده، متغیر با زمان و غیر فرار از داده­ها است که برای پشتیبانی از فرایند اتخاذ تصمیم استفاده می­شود.

1 – موضوع­گرا: یک انبار داده بر اساس موضوع­های اساسی از قبیل مشتری، فروشنده، محصول و خرید سازماندهی می­شود. علاوه بر تمرکز بر روی عملیات روز به روز و پردازش تراکنش یک سازمان، یک انبار داده بر روی مدلسازی و تحلیل (آنالیز) داده برای تصمیم­گیرندگان نیز تمرکز می­کند. از این رو، انبار داده معمولا به موضوعاتی که در فرایند تصمیم­گیری مفید نیستند، توجه کمی دارد.

2 – ادغام شده: یک انبار داده معمولا به وسیله مجتمع کردن چندین منبع غیر متجانس از قبیل پایگاه داده رابطه­ای، فایل­های بدون قالب و رکوردهای تراکنش بر خط ساخته می­شود. تکنیک­های پاکسازی و ادغام داده برای اطمینان از ثبات قراردادها، ساختارهای رمزگشایی، میزان صفات و غیره به کار برده می­شوند.

3 – متغیر با زمان: داده­ها به منظور داشتن اطلاعات از زمان­های گذشته (5-10 سال گذشته) ذخیره می­شوند. هر ساختار اصلی در انبار داده شامل یک عنصر زمان به صورت آشکار یا ناآشکار است.

4 – غیر فرار: یک انبار داده، معمولا یک مخزن جداگانه­ی فیزیکی از داده­هایی است که از داده­های کاربردی موجود در محیط عملیاتی انتقال داده شده­اند. به خاطر این جداسازی، یک انبار داده به مکانیزم­های پردازش تراکنش، بازیافت و کنترل همزمانی نیازی ندارد. انبار داده معمولا به دو عملیات در دستیابی داده نیاز دارد: بارگیری اولیه داده و دستیابی داده

10- مکعب داده چیست؟

یک مکعب داده به داده اجازه می­دهد تا به صورت چندبعدی مدل شده و نشان داده شوند. مکعب داده­ به وسیله­ی ابعاد و حقایق تعریف می­شود.

11- عمليات OLAP در مدل داده‌ي چند بعدي را نام ببرید و توضیح دهید.

Roll-up: این عمليات، با بالا رفتن از نمودار سلسله مراتبی مفهومی در یک بعد يا با کاهش بعد، متراکم سازی مكعب داده را اجرا مي‌كند.

Drill-down: عكس عمليات Roll-up است. اين عمليات از داده‌هاي با جزییات بیشتر به سمت داده‌هاي با جزییات کمتر مي‌رود. عمليات drill-down،  با پایین آمدن از نمودار سلسله مراتبی مفهومی در یک بعد يا معرفي كردن بعد جدید انجام می­گیرد.

Slice and dice: عمليات slice، كار انتخاب يك بعد از مكعب مشخص را اجرا مي‌كند كه منجر به يك زير مكعب مي‌شود.

:pivot عمليات مجسم سازي است كه بردارهاي داده را به منظور ايجاد يك نمايش متناوب از داده‌ها مي‌چرخاند.

 

دانلود اصل فایل

data_mining

matlab_course

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.