تشخیص میزان علائق کاربران نسبت به اقلام متفاوت یکی از مهمترین وظایف فیلترینگ اشتراکی میباشد. هر بار که کاربری در مورد قلمی خاص ابراز علاقه میکند مقدار جدیدی در نمایه او اضافه میشود. به دو صورت صریح و ضمنی میتوان علائق کاربر را استخراج نمود.
2-6-1- تشخیص علائق به صورت صریح
برای این منظور سیستمهای پیشنهادگر تمایلی که کاربر به صورت واضح و آشکار نسبت به محصولات نشان میدهد مثل نمرههایی که به اقلام نسبت داده است را در یک پایگاه داده جمع آوری میکند. کاربر میتواند علائق خود را به طور صریح در غالب تک بیتی باینری یک و صفر به معنای خوب و بد و یا به صورت بازهای از اعداد که نشان دهنده میزان تمایل کاربر به قلم است نشان دهد. .به عنوان مثال اگر بازه امتیازدهی، اعداد 1 تا 5 باشد نسبت دادن امتیاز 1 از سوی کاربر به معنای عدم علاقه و اختصاص دادن امتیاز 5 به معنای علاقه کاربر به قلمی خاص میباشد [7,9].
2-6-2- تشخیص علائق به صورت ضمنی
برای این منظور سیستم به صورت ضمنی بعضی رویدادها مثل حرکت اشارهگر به سمت محصولی خاص را در نظر میگیرد [24]. در این روش کاربر تمایلاتش را به طور صریح و در قالب امتیاز نشان نمیدهد بلکه از رفتارش علائقاو محاسبه میشود .[33,34,35,36]
این پایان نامه فقط بر استنباط علائق به طور صریح متمرکز شده است. یعنی تمایلات کاربران باید به صورت نسبت دادن امتیاز به اقلام مشخص شده باشد.
2-7- محاسبه شباهت
برای پیشبینی یا ارائه پیشنهاد توسط فیلترینگ اشتراکی میبایست شبیهترین کاربران به کاربر فعال را پیدا کرد و به عنوان مجموعه همسایگی کاربر فعال در نظر گرفت. برای اندازهگیری میزان شباهت بین دو کاربر راهکارهای متفاوتی ارائه شده است که در اینجا دو مورد از معیارهای شباهت رایج که در فیلترینگ اشتراکی استغاده میشوند را معرفی میکنیم.
2-7-1- معیار همبستگی پیرسون
این معیار میزان وابستگی بین الگوهای امتیازدهی دو کاربر (دو قلم) را میسنجد (فرمول شماره 4). نتیجه حاصل از این فرمول عددی بین 1 و 1- میباشد. عدد 1 نشان دهنده بیشترین شباهت، 1- نمایانگر کمترین شباهت میباشد و اگر نتیجه عدد 0 باشد یعنی دو موجودیت مورد مقایسه با هم هیچ ارتباطی ندارند.
(4)
از فرمول فوق برای اندازهگیری میزان شباهت دو کاربر u و v استفاده میشود. نشان دهنده امتیازی که کاربر u به قلم j ام اختصاص داده میباشد. میانگین کل امتیازهایی که کاربر u به اقلام نسبت داده است میباشد.
فرمول زیر با کمی تغییر شباهت بین دو قلم i و j را اندازهگیری میکند.
(5)
2-7-2- معیار اندازه گیری کسینوس
معیار شباهت کسینوسی در حوزه بازیابی اطلاعات بسیار رایج است و برای اندازه گیری شباهت بین دو سند به کار میرود [37]. این معیار میزان شباهت دو کاربر (دو قلم) را با استفاده از کسینوس زاویه بین بردارهای امتیازدهی آنها مشخص میکند (فرمول شماره 6). نتیجه حاصل عددی بین 1- و 1 میباشد. هر چه عدد حاصل شده بزرگتر باشد یعنی دو موجودیت مورد مقایسه بیشتر به هم شبیه هستند و هر چه این عدد کوچکتر باشد یعنی دو موجودیت کمتر به هم شبیه هستند.
(6)
اگرچه این معیار در حوزه بازیابی اطلاعات به خوبی کار میکند [37,38]اما برای محاسبه شباهت در فیلترینگ اشتراکی کاربر مبنا به خوبی معیار همبستگی پیرسون عمل نمیکند [12].