متدهاي مختلف آموزش FAM نظير تك كراري[1]، كامل[2] و آموزش همراه با مجموعه ارزيابي[3] در [27 و 16] به تفصيل مورد بحث قرار گرفته اند. در روش تك تكراري همه الگوهاي آموزش به صورت يك دنباله و فقط يك بار به شبكه ارائه مي شوند در آموزش به روش آموزش كامل دنباله اي كه از همه الگوهاي يادگيري تشكيل شده به شبكه ارائه خواهد شد و آنقدر اين عمل تكرار مي شود تا شبكه بتواند همه داده هاي آموزش را درست طبقه بندي كند. يا اينكه در وزنهاي شبكه و تعداد نودهاي آن ديگر تغييري حاصل نشود. در آموزش همراه با مجموعه ارزيابي پس از هر تكرار آموزشي، صحت طبقه بندي با استفاده از يك مجموعه داده جداگانه، ارزيابي مي شود و اين فرآيند آنقدر تكرار مي شود تا ديگر بهبودي در درصد صحت كلاسه بندي مشاهده نشود. اين روش آموزش درمحافل علمي يادگيري ماشين، روشي معروف است كه با هدف كاهش جلوگيري از آموزش بيش از حد[4] شبكه و همچنين افزايش قابليت تعميم دهي سيستم يادگيري، بناشده است [1]. لذا بر روش آموزش كامل كه تكرار هاي غير ضروري بسيار زيادي دارد و به همين دليل شبكه را مستعد ابتلا به انطباق بيش از حد با الگوها مي كند، برتري دارد. از طرف ديگر در مقالات علمي مرتبط، روش آموزش كامل، بيشتر مدنظر و مورد علاقه محققين بوده و به كرات در آزمايشات مورد استفاده واقع شده است [27، 16، 4].
اين سه روش آموزش، روي پايگاه هاي داده[5] مصنوعي و طبيعي مورد آزمايش و مقايسه قرار گرفته اند [27، 16]. در [27] صحت كلاسه بندي پس از ارائه هر 100 نمونه داده آموزشي، با يك مجموعه داده مجزا، مورد ارزيابي قرار گرفته شده است. در پايگاه هاي داده مصنوعي، اگر همپوشاني بين كلاسها متوسط يا بسيار زياد باشد، اين روش آموزش، صحت كلاسه بندي را به شكل فزاينده اي بالا خواهد برد، (درجه همپوشاني بين كلاسي در [27] توسط نويسنده مقاله معين شده است) و شبكه ايجاد شده به طور قابل ملاحظه اي كوچكتر (به دليل ايجاد تعداد نود يا خوشه كمتر) و ساده تر خواهد بود. در پايگاه هاي داده طبيعي، تفاوت قابل ملاحظه اي در صحت كلاسه بندي و تعداد نودهاي ايجاد شده در شبكه، بين روش همراه با داده هاي ارزيابي و آموزش كامل وجود ندارد. درجه صحت طبقه بندي در روش همراه با داده هاي ارزيابي بيشتر از روش تك تكراري مي باشد اما در مقابل، پيچيدگي و اندازه شبكه (تعداد نودهاي آن) در روش اول بيشتر از روش دوم است.
يكي از روشهاي آموزشي نوين براي FAM، استفاده از الگوريتم پرندگان[6] ) [32]، است كه يك الگوريتم تصادفي بر اساس جمعيت بوده و به دسته الگوريتم هاي تكاملي تعلق دارد. هر راه حلي در فضاي جستجو، يك ذره يا همان پرنده بوده وجمعيت پرندگان دسته ناميده مي شود. هر راه حل در الگوريتم پرندگان مي تواند شامل وزنها، پارامترها (شامل و …) و تعداد خوشه ها يا نودهاي ايجاد شده در FAM باشد و درنهايت راه حلي انتخاب مي شود كه خطاي تعميم دهي شبكه را كمينه كند.
معمولاً محققين براي حل مشكل حساسيت FAM به چيدمان الگوهاي آموزش[7]، يك مجموعه از كلاسه بند هاي FAM رابه كار گرفته و هر يك را با چيدماني تصادفي آموزش مي دهند و در نهايت اثر كلي[8] طبقه بند ها را با ميانگين گيري يا با استفاده از يك سيستم راي گيري از تك تك طبقه بندها، گزارش مي كنند [27، 16، 12، 9، 4]. پژوهشگران در [24] روشي جهت كاهش وابستگي FAM به چينش الگوهاي ورودي ابداع كردند. آنها با استفاده از الگوريتم خوشه بندي “max- min” يك چيدمان ثابت از الگوهاي آموزش بدست آوردند كه صحت كلاسه بندي و قابليت تعميم دهي شبكه را بهينه كرد. با اين روش ديگر نيازي به آموزش چندين FAM و برآورد اثر كلي آنها نبود. يك شبكه منفرد FAM، با استفاده از چينش بدست آمده، نتيجه بهتري را نسبت به روش قبل، دربرداشت.
روش ديگري كه براي آموزش به كار گرفته شد در [19] به طور مفصل معرفي شده است. اين روش مبتني بر پيش آزمايش، پس از آموزش اوليه مي باشد. سپس الگوهايي را كه با قطعيت بالا، كلاسه بندي نشده اند (مثلاً با استفاده از سيستم راي گيري با اكثريت ضعيفي از آراء انتخاب شده اند). دوباره به كلاسه بند ارايه شده و شبكه بازآموزي مي شود. نويسندگان مقاله قطعيت كلاسه بندي را در FAM محاسبه كرده و قطعيت بدست آمده براي هر نمونه را با يك حد آستانه[9] مقايسه كرده اند. نمونه هايي كه در اين مقايسه حالت مبهمي دارند، مكرراً به شبكه ياد داده مي شود و دوباره نمونه هاي آموزش، مورد آزمايش قرار مي گيرند. اين عمل آنقدر ادامه مي يابد تا نمونه هاي مبهم، كاملاً درست و با قطعيت بالا طبقه بندي شوند. با استفاده از اين روش صحت كلاسه بندي FAM در مسئله طبقه بندي جوش كاري لوله ها و تجهيزات مربوط به نيروگاه هاي هسته اي، بعد از چهار بار تكرار مرحله بازآموزي، دوبرابر شد.
FAM ساده شده[10] كه محمد تقي وكيل باغميشه و همكاران در [33] معرفي كرده اند يك واريته ساده تر و سريع تر FAM مي باشد. در SFAM، ساختار دو ماژوله FAM به ساختاري تك ماژوله، با حفظ قابليت ها و كارآيي اوليه، تبديل شده و فقط پيكربندي شبكه ساده تر شده است. SFAM پيشنهادي كازوبا[11][34]، بسيار شبيه به مدل پيشنهادي باغميشه است. با اين تفاوت كه در مدل باغميشه، آموزش شبكه با سرعت بالاتري انجام مي پذيرد. مدل ديگري كه در آن پيكربندي FAM ساده تر شده است، مدل اصلاح شده[12] SFAM مي باشد (MSFAM) [35]. در اين مدل نيز مشابه دو مدل قبل ساختار پر پروبال FAM، هرس شده است.
در اين مدل همچنين قواعد و قوانين قابل فهم تري نسبت به قوانين الگوريتم FAMبه كار گرفته شده است. نتايج آزمايشات و شبيه سازي ها بر روي مدل كازوبا و MSFAM، حاكي از عملكرد يكسان اين دو، در مسايل كلاسه بندي مشابه، مي باشد [34].
يكي از رويكردهاي بسيار مهم و اساسي تحقيقات در باب FAM، تلاش جهت مهار و در صورت امكان برطرف كردن پديده تكثير بي رويه خوشه ها يا همان نودهاي شبكه مي باشد. اين مشكل دو منشاء اساسي دارد كه عبارتند از: نمايش و ارائه داده ها به شكلي نامناسب در ساختار اين نوع شبكه و حساسيت شبكه به هم پوشاني بين كلاسها.
شكل نامناسب نمايش داده ها، پيامد استفاده از عملگرهاي تئوري مجموعه هاي فازي، ( ) كمينه و ( ) بيشينه فازي، مي باشد كه منجر به ايجاد مرزهاي تصميم گيري به شكل خوشه هاي ابر مستطيلي مي شود و اين ممكن است درنظر اول براي داده هايي كه پراكندگي يكنواخت دارند مناسب به نظر برسد. اما چنانكه مي دانيم پراكندگي داده هاي طبيعي به شكل گوسين مي باشد و يك ناحيه ابر مستطيلي هيچ گاه كاملاً با ناحيه اي ابرگوسين هم پوشاني نمي كند. براي محقق شدن اين امر، مرزهاي تصميم گيري در خوشه هاي شبكه بايد به فرم ابر كروي[13] يا ابر بيضوي[14] باشد. اگر يك ابر مستطيل و ابر كره را در نظر بگيريم به شكلي كه هر دو يك خوشه مشخص در فضاي ويژگي را مدل كرده باشند و آن را در بر گرفته باشند، نسبت حجم ابر مستطيل به ابر كره با افزايش بعد مسئله طبقه بندي، افزايش مي يابد [9]. اين بدان معني است كه اگر ابعاد ابر مستطيل بزرگتر شوند فضاي اضافي بيشتري اشغال مي كند كه در آن الگوهاي مرتبط، قرار ندارند. اين فضاهاي بدون استفاده بيشتر نزديك به كنج هاي ابر مستطيل به وجودمي آيد. الگوهايي كه در اين نواحي قرار مي گيرند، عموماً به خوشه هاي اطراف تعلق دارند و به اشتباه داخل اين خوشه كلاسه بندي شده اند. در چنين مواقعي پروسه ره گيري تطابق براي يافتن يك خوشه مناسب تر فعال مي شود و اگر چنين خوشه اي يافت نشد، خوشه يا نود جديدي ايجاد مي شود و اين، خود به ايجاد خوشه هاي اضافي كمك مي كند.
دومين عاملي كه منجر به تكثير بي رويه خوشه ميشود، حساسيت FAM به هم پوشاني بين فضاهاي مربوط به مشخصه هاي آماري كلاسهاي متفاوت است. اين عامل باعث خوشه بندي نادرست حين آموزش مي شود. ايجاد هر خوشه اشتباهي به علت هم پوشاني بين كلاسي، به معني فعال شدن ره گيري تطابق و افزايش پارامتر مراقبت براي يافتن خوشه مناسب است. لذا خوشه اي كه در نهايت انتخاب مي شود بايد بردار وزن بزرگتري داشته باشد تا بتواند با توجه به پارامتر مراقبت كه افزايش يافته، آزمون مراقبت را پشت سر بگذارد. بردار وزن بزرگتر به معني كاهش ابعاد خوشه است زيرا بردار وزن با اندازه ابعاد خوشه نسبت عكس دارد [2].
هر چه اين هم پوشاني بيشتر باشد تعداد دفعاتي كه براي الگوهاي مشابه، فرآيند مذكور تكرار مي شود، افزايش يافته و از آنجا كه خوشه هاي كوچك قادر به مدل كردن فضاهاي بزرگ نيستند، تعدادشان افزايش مي يابد. بنابراين يكي از دلايل افزايش تعداد خوشه هاي كوچك، وجود فضاهاي هم پوشاني بزرگ و متعدد بين كلاسها مي باشد. علاوه بر اين، طي فرايند ره گيري تطابق، اگر خوشه مناسب پيدا نشود، خوشه جديدي ايجاد مي شود. ميزان ايجاد و تكثير بي رويه خوشه ها به اين طريق، به ميزان هم پوشاني بين كلاسها بستگي دارد.
در مسايل كاربردي واقعي، اين ميزان تكثير گاهي اوقات به صدها بلكه هزاران خوشه كوچك مي رسد كه بسياري از آنها تأثير ناچيزي در صحت كلاسه بندي دارند و در مجموع، اكثراً زائد به نظر مي رسند. نهايتاً اين نكته حائز اهميت است كه تكثير بي رويه خوشه ها مي تواند علامت آموزش بيش از حد[15] شبكه و توليد تعداد فراواني از خوشه ها براي مدل كردن دقيق تر داده ها وفضاهاي هم پوشاني بين كلاسي باشد. توليد خوشه هاي كم اهميت و كوچك، علاوه بر پيچيده كردن ساختار شبكه، قابليت تعميم دهي كلاسه بندي را نيز به طور چشم گيري كاهش مي دهد.
معرفي dARTMAP [16] را مي توان در زمره نخستين تلاشهاي محققين براي كاستن از توليد نودهاي اضافي در FAM، به حساب آورد [36]. اين شبكه قابليت هاي كدگذاري توزيع شده داده ها در MLP و يادگيري سريع در FAM، با هم برخوردار است. اگر چه تحليل و آزمايشهاي كاربردي، تفاوت محسوس و تاثيرگذاري را بين نتايج حاصله از FAM و dARTMAP، نشان نمي دهد [36 و 25].
شايد مهمترين راهكار ارائه شده براي حل مشكل تكثير خوشه، تكنيك هرس[17] باشد. در الگوريتم FAM، هر خوشه، كه به طور كلي مربوط به قاعده و معياري مي باشد، برداري از وزنها را شامل مي شود كه اين وزنها به صورت زباني، ترجمه الگوريتم وار سابقه معيار و قاعده متناظر با آن نود است. از آنجا كه پايگاههاي داده بزرگ عموماً منجر به شكل گيري قواعد و متدهاي بيش از حد زيادي مي شوند، استفاده از يك مكانيزم استخراج قواعد مناسب، سبب انتخاب يك مجموعه كوچك از خوشه هاي معنادار، كه بيشترين تاثير را در پيش بيني و نتيجه كار دارند، خواهد شد.
به عنوان مثال در اتصال سري ARTMAP [18] [18]، دستورات و قواعد نمادين با الگوريتم ARTMAP ممزوج شده است. بعلاوه، نه تنها، قواعد زباني (if-then) باعث افزايش صحت كلاسه بندي و كارآمدي شبكه مي شود، بلكه اگر اين معيارها با الگوريتم شبكه ممزوج شوند، قابل بهينه سازي و اصلاح،توسط خود شبكه هم مي باشند. بلام[19] و همكارانش در [37] به متدهاي فراواني جهت كاهش تكثير خوشه اشاره كرده اند. آنها يك روش هرس خوشه هاي زائد را پيشنهاد كرده اند كه بر اساس آن خوشه هايي كه نماينده كمترين تعداد نمونه هاي آموزش مي باشند، موقتاً حذف مي شوند. روشي ديگر بر پايه محدود كردن تعداد نودهايي است كه مي توانند ايجاد شوند. روش سومي مربوط به اصلاح و تغييرهاي بزرگتر مي باشد. فراهم كردن هر دو قابليت كوچك شدن و بزرگ شدن براي خوشه ها (برخلاف FAM كه فقط خوشه ها مي توانند رشد كنند). راه كار ديگري براي حل اين معضل مي باشد. بعلاوه بلام و همكاران روشي پيشنهاد كردند كه بر اساس آن هر خوشه مي تواند نماينده بيش از يك كلاس هم باشد. آنها تك تك اين روشها را روي پايگاه هاي داده متفاوت اعمال كرده و به اين نتيجه رسيدند كه هيچ روشي به صورت جداگانه يا تركيبي خاص از روشهاي فوق الذكر، را نمي توان يافت به طوري كه براي عموم مسايل طبقه بندي، اساساً از روشها و تركيبهاي ديگر برتر باشد.
در[38] روشهاي هرس متعددي بر اساس ضرايب اطمينان خوشه ها، ارائه شده است. اين ضرايب اطمينان، بر اساس ميزان كاربرد خوشه ها و تاثير آنها در صحت كلاسه بندي تعيين مي شود. بر اين اساس، با حذف خوشه هاي با ضرايب اطمينان پايين، شبكه ساختار ساده تري پيدا مي كند. ARTMAP كه توسط سانچز[20] و همكاران ارائه شده [10] داراي مكانيزم خاصي، جهت جلوگيري از افزايش مقدار پارامتر مراقبت ، مي باشد. چنانكه پيشتر گذشت، افزايش مقدار اين پارامتر، حين ره گيري تطابق، يكي از عوامل مهم منجر به تكثير خوشه، مي باشد.
در [26]،از اصل كوتاهترين توصيف (MDL)[21] جهت برقرار كردن تعادل بين افزايش صحت كلاسه بندي و افزايش پيچيدگي شبكه، كه به واسطه اضافه شدن نود جديد ايجادمي شود، استفاده شده است. بر اساس اصل MDL بهترين مدل انتخابي مدلي است كه كوتاهترين كدگذاري داده و با كمترين داده ممكن را شامل شود. محققين در [26] طول كدگذاري FAM را به صورت تابعي از تعداد مقادير ممكن براي هر خوشه، تعداد خوشه ها، ابعاد مسئله و تعداد الگوها، تعريف و از يك الگوريتم خاص براي يافتن مدل مطلوب از بين تعداد زيادي مدل با تعداد نودهاي متفاوت استفاده كرده اند.
[1] – One – epoch
[2] – until – completion
[3] -With Validation
[4] – overtraining
[5] – data base
[6] – Particle Swarm Optimization (PSO)
[7] – Presentation Ordering
[8] – Ensemble
[9] – Threshold
[10] – Simplified FAM (SFAM)
[11] – Kasuba
[12] – Modified and Simplified FAM
[13] – Hyper sphere
[14] – Hyper ellipsoid
[15] – Overtraining
[16] – distributed ARTMAP
[17] – Pruning
[18] – Cascade ARTMAP
[19] – Blume
[20] – Sanchez
[21] – Minimum description length