در راستای مقایسه بازدهی الگوریتم پیشنهادی با دیگر الگوریتم های مشهور، تست های آماری مانند paired t-test، Wilcoxon و Friedman بکار گرفته شده اند. تست های آماری t-test و Wilcoxon برای مقایسه دو کلاسه بند بر روی مجموعه ای از داده ها بکار می روند، در حالیکه تست آماری Friedman با post-hoc متناظر برای مقایسه چندین کلاسه بند بر روی چندین مجموعه داده عمل می کند. از طرفی، تست های Wilcoxon و Friedman روش های غیرپارامتری هستند که روش های قابل اعتمادتری نسبت به دیگر تست های پارامتری هستند.
- تست آماری جفت شده t-test
تست paired t-test، یک روش معمول برای مقایسه دو کلاسه بند بر روی چندین مجموعه داده است. این تست بررسی می کند که آیا اختلاف میانگین در کارایی بر روی مجموعه داده ها به لحاظ معناداری از صفر متفاوت است یا خیر. در صورتی که و معیار قابل مقایسه دو کلاسه بند بر روی iام مجموعه داده باشد، و اختلاف می باشد. آماره t بصورت می شود و با توجه به توزیع Student با درجه آزادی N-1 توزیع می گردد.
- تست آماری Wilcoxon
تست آماری Wilcoxon یک روش غیر پارامتری است که در مقابل روش t-test ارائه داده شده است. این تست اختلاف، بدون توجه به علامت آن، معیار خروجی دو کلاسه بند را برای هر مجموعه داده مرتب می کند. سپس رتبه مربوط به اختلاف مثبت و منفی حاصل را مقایسه می کند.
بعنوان اختلاف معیار خروجی دو کلاسه بند بر روی iام مجموعه داده از N مجموعه داده در نظر گرفته می شود. اختلافات بدون در نظر گرفتن علامت آنها مرتب می شود. البته در جایی که اختلاف صفر است، میانگین رتبه دو کلاسه بند بعنوان rank در نظر گرفته می شود. بعنوان مجموع رتبه کلاسه بند دوم است که بهتر از کلاسه بند اول عمل می کند و بعنوان مجموع رتبه کلاسه بند مقابل است که بهتر از کلاسه بند دوم عمل می کند. رتبه در محاسبه این دو مجموع بصورت جداگانه اعمال می شود و اگر تعداد فردی از مجموعه داده ها دارای چنین شرایطی هستند، یکی را در نظر نمی گیریم تا تعداد زوجی از آنها اعمال شود.
(5-4)
(5-5)
کمترین مقدار بین مقدارهای و را بعنوان T در نظر می گیریم؛ . بیشتر منابع دارای مقدار بحرانی برای T برای مجموعه داده N است که برای تعداد زیادی از مجموعه داده ها این مقدار از رابطه ذیل پیروی می کند:
(5-6)
با آلفا 0.05، فرضیه صفر[1] رد می شود در صورتی که z کوچکتر از 1.96- باشد.
- تست آماری فردمن Friedman
تست فردمن [58]، یک تست غیر پارامتری است[2]. این تست برای مقایسه چندین الگوریتم بدون مقایسه دوتایی الگوریتم ها بکار می رود. تست فردمن قویتر از دو تست ذکر شده است و بطور جامع تری الگوریتم های مختلف را مقایسه می کند. در صورتی که الگوریتم پیشنهادی تفاوت قابل توجهی با دیگر الگوریتم ها داشته باشد، بطور قابل اعتمادی ارئه می دهد. این تست الگوریتمهای مختلف را روی هر مجموعه داده به صورت جداگانه، بر اساس معیار خاصی مانند دقت پیش بینی رتبهبندی میکند. بهترین الگوریتم رتبه یک، دومین بهترین الگوریتم، رتبه دو و به همین ترتیب. در مواردی که کلاس بندها بر روی معیار مورد نظر مقدار برابری را کسب کرده اند، میانگین رتبهها به الگوریتمها اختصاص مییابد. فرض کنیم که ، رتبه الگوریتم ام از بین الگوریتم و بر روی مجموعه داده ام از بین مجموعه داده باشد. تست فردمن میانگین رتبههای الگوریتمهای مختلف را با هم مقایسه میکند که به صورت است. تحت فرضیه صفر، همه الگوریتمها با هم برابر هستند و بنابراین رتبه آنها باید با هم یکسان باشد، آماره[3] فردمن
(4-10)
توزیعی مطابق با درجه آزادی خواهد داشت، در صورتی که و انتخاب شوند. Iman و Davenport [59] آماره جدیدی به صورت زیر ارائه داده اند که بطور کلی برای مقایسه الگوریتم ها بجای رابطه 10-4 بکار می رود:
(4-11)
که توزیعی برابر توزیع با و درجه آزادی خواهد داشت. اگر فرض صفر رد شود، اختلاف معناداری بین الگوریتمها وجود دارد. بعد از آن تست تعقیبی[4] انجام می گیرد، که برای این منظور، ما در اینجا تستBonferoni-Dunn [60] بکار گرفته ایم. در این تست، اختلاف دو الگوریتم به صورت آماری معنادار[5] است اگر اختلاف رتبه دو الگوریتم بیشتر از مقدار اختلاف بحرانی[6] ذیل باشد:
(4-12)
که در آن ، مقدار بحرانی بوده[8] که بر پایه آماره توزیع Student[9] است که بر تقسیم شده است. در این تست، یکی از روشها به عنوان الگوریتم کنترل[10]، انتخاب شده و با سایر روشها مقایسه میشود.
[1] Null hypothesis
[2] Non-parametric
[3] Statistic
[4] Post-hoc
[5] Statistically significant
[6] Critical difference
[7] برای یافتن مقادیر به جدول b5 از [58] مراجعه شود.
[8] Critical value
[9] Studentized range statistic
[10] Control method