مقالات ترجمه شده دانشگاهی ایران

خوشه بندی ترکیبی پروفایل فیشینگ

خوشه بندی ترکیبی پروفایل فیشینگ

خوشه بندی ترکیبی پروفایل فیشینگ – ایران ترجمه – Irantarjomeh

 

مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی

مقالات

چگونگی سفارش مقاله

الف – پرداخت وجه بحساب وب سایت ایران ترجمه(شماره حساب)ب- اطلاع جزئیات به ایمیل irantarjomeh@gmail.comشامل: مبلغ پرداختی – شماره فیش / ارجاع و تاریخ پرداخت – مقاله مورد نظر --مقالات آماده سفارش داده شده پس از تایید به ایمیل شما ارسال خواهند شد.

قیمت

قیمت این مقاله: 58000 تومان (ایران ترجمه - Irantarjomeh)

توضیح

بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.

مقالات ترجمه شده کامپیوتر - ایران ترجمه - irantarjomeh

www.irantarjomeh.com

شماره      
۱۳۳
کد مقاله
COM133
مترجم
گروه مترجمین ایران ترجمه – irantarjomeh
نام فارسی
به کار گیری رویکردهای خوشه بندی و خوشه بندی ترکیبی در مبحث پروفایل سازی فیشینگ
نام انگلیسی
Applying Clustering and Ensemble Clustering Approaches to Phishing Profiling
تعداد صفحه به فارسی
۵۲
تعداد صفحه به انگلیسی
۱۰
کلمات کلیدی به فارسی
خوشه بندی, فیشینگ, تفکیک نمودار, ترکیب های خوشه, پروفایل سازی, توابع جمعی
کلمات کلیدی به انگلیسی
Clustering, Phishing, Graph Partitioning,
Cluster ensembles, Profiling, Consensus functions
مرجع به فارسی
هشتمین کنفرانس داده کاوی استرالیا
لابراتوار امنیت تجارت اینترنت
مرکز انفورماتیک و بهینه سازی کاربردی
دانشگاه بالارات، استرالیا
مرجع به انگلیسی
Proc. of the 8th Australasian Data Mining Conference; Internet Commerce Security Laboratory, Center for Informatics  and Applied Optimization. University of Ballarat, Ballarat, Australia.
کشور
استرالیا

به کار گیری رویکردهای خوشه بندی و خوشه بندی ترکیبی در مبحث پروفایل سازی فیشینگ

چکیده
این مقاله تشریح کننده یک رویکرد جدید در زمینه پروفایل سازی ایمیل های فیشینگ بر مبنای ترکیب خوشه بندی های مستقل و متعدد مستندات ایمیلی می باشد. هر خوشه بندی بر مبنای شاخص طبیعی ایمیل ها مد نظر است. یک مجموعه اطلاعاتی متشکل از ۲۰۴۸ ایمیل فیشینگ به وسیله یکی از موسسات اصلی مالی استرالیا فراهم آمد که در ابتدا تحت فرآیند پیش- پردازش قرار گرفته تا آنکه قابلیت استخراج ویژگیهایی وجود داشته باشد که تشریح کننده محتوای متنی، ابرلینکها (فراپیوندها) و ساختار املایی ایمیل ها می باشد. خوشه بندی مستقل با استفاده از تکنیکهای مختلف بر روی هر شاخص اعمال شده است و این خوشه بندی ها متعاقبا با استفاده از یک سری از توابع متنوع گردآوری گردیده است. این مقاله بر روی چندین رویکرد خوشه بندی جهت تعیین محتمل ترین گروه های فیشینگ تمرکز نموده و روشهایی را مورد بررسی قرار می دهد که در آنها نتایج منفرد و ترکیبی با یکدیگر در ارتباط هستند. این رویکرد تعدادی از گروههای فیشینگ را پیشنهاد می نماید. ساختار چنین دیدگاهی می تواند به ما در زمینه توسعه پروفایلهای مربوطه بر مبنای خوشه های منفرد کمک نماید. البته، پروفایل سازی حقیقی در این مبحث اعمال نخواهد شد.

کلمات کلیدی: خوشه بندی، فیشینگ، تفکیک نمودار، ترکیب های خوشه، پروفایل سازی، توابع جمعی

 

خوشه بندی ترکیبی پروفایل فیشینگ

 

۱- مقدمه
فیشینگ را می توان به عنوان نوعی کلاهبرداری تعریف نمود که با کاربرد آن قابلیت گمراه نمودن کاربران ایمیل وجود داشته و این گمراهی سبب افشای اطلاعات شخصی یا داده های محرمانه کاربران شده و در این راستا فرد کلاهبردار یا اصطلاحا اسکمر[۱] می تواند از این اطالاعات به صورت غیر قانونی استفاده نماید. برای انجام حملات فیشینگ از تکنیکهای مهندسی اجتماعی و فن آوری های اختفایی فنی جهت ربودن اطلاعات مربوط به هویت اشخاص و حسابهای محرمانه مالی آنها استفاده می شود. فیشینگ یکی از سریع ترین اسکمهای  رو به رشد فضای اینترنت می باشد. انگیزه منحصر بفرد فعالیت های فیشینگ در حقیقت دسترسی به منابع مالی می باشد.  فیشرها[۲]  (افراد کلاهبردار در فضای مجازی) به منظور اغفال کاربران ساده و در نتیجه افشای اطلاعات شخصی آنها در  این عرصه از تکنیکهای متنوع و مختلفی شامل محدوده ای از موارد ذیل استفاده می نمایند: از لینکهای جعلی تا بدافزارها (برنامه های کلید خوان)، آلوده کننده های کش [۳]DNS (Stewart، ۲۰۰۳) (تحت عنوان فارمینگ[۴] نیز خوانده می شوند). (Emigh، ۲۰۰۵).
هدف یک ایمیل جعلی غالبا گروه بزرگی از اشخاص می باشد. برای این کار اسکمرها اقدام به ارسال ایمیلهای جعلی با استفاده از آدرسی می نمایند که ظاهرا متعلق به بانک های کاربران یا برخی از موسسات قانونی طرف قرارداد با آنها می باشد. ایمیل های فیشینگ به گونه ای نوشته می شوند که نوعی حس اضطرار را بصورت تدریجی در کاربران تداعی نموده و بنابر این آنها را وا می دارند تا این احساس را  داشته باشند که الزاما می بایست سریعا به چنین ایمیلی جواب داده و به طور مثال بر روی چنین لینکی کلیک نمایند (جزئیات حساب خود را تصدیق نمایید، در غیر اینصورت حساب شما بسته خواهد شد). ایمیل اسکم همچنین ممکن است حاوی لینکی به یک فرم آنلاین باشد که دقیقا از نظر ظاهری مشابه با لینک وب سایت معتبر و اصلی است. این فرم در بردارنده اطلاعات حساسی نظیر اسم رمز، جزئیات حساب کاربری و کارت اعتباری بوده و از قربانیان درخواست می شود تا نسبت به پر کردن آن اقدام کنند. تا همین ایام، غالب فیشرها از نامهای موسسات مالی جهت گمراه نمودن اشخاص به منظور کسب اطلاعات حسابهای آنها استفاده می نمودند. آنها هم اکنون از نامهای موسسات دیگری مانند eBay، PayPal و حتی دفتر مالیاتی استرالیا بهره می جویند.

ادامه این مقاله به شرح ذیل سازماندهی شده است: بخش ۲ سابقه ای از پروفایل سازی را ارائه می نماید. بخش ۳ جزئیات ۳ گروه خوشه بندی بر مبنای انواع مختلف ویژگی های را تشریح می نماید. بخش ۴ انواع مختلف توابع جمعی را عرضه می دارد. بخش ۶ نشان دهنده روشهای ارزیابی می باشد و نتایج تجربی در بخش ۷ مورد بحث قرار می گیرند. در نهایت بخش ۸ نتیجه گیری تحقیق را عرضه داشته و نوعی دستورالعمل را برای تحقیق آتی ارائه می نماید.

[۱] scammer
[۲] Phisher
[۳] DNS Cache Poisoning
[۴] Pharming
[۵] Domain names
[۶] Tab

خوشه بندی ترکیبی پروفایل فیشینگ

 

۲- پروفایل سازی
پروفایل سازی یک تکنیک نظارتی بر داده ها به شمار می آید که درک مناسبی از آن وجود نداشته و علاوه بر این مستند سازی ضعیفی نیز در این ارتباط وجود دارد، اما در عین حال این رویه به طور فزاینده ای استفاده می شود. این خصیصه به معنای دستیابی به موارد مضنون یا مستعد فشینگ از بین گروه زیادی از جمعیت وابسته می باشد و در بردارنده استنباط مجموعه ای از ویژگی های یک کلاس خاص مرتبط با اشخاص از حاصل آمده و تجارب قبلی آنها است (Roger، ۱۹۹۳). در مقاله (Roger، ۱۹۹۳)، تکنیکهای نظارتی مختلف داده ها مورد بررسی قرار گرفته است، همانند تصدیق ابتدا – به انتها و تطبیق داده ها. علاوه بر لزوم برخورد با مشکلات مختلفی که در این مبحث وجود دارند، این مورد نشان داده می شود که داده های پروفایل سازی نیازمند مجموعه های مختلفی از برآوردها و سنجش ها می باشند. با توجه به تعریف ارائه شده در زمینه پروفایل سازی همانند تعریف مطرح شده در مبحث (Roger، ۱۹۹۳) می توان اذعان داشت که: ” پروفایلینگ / پروفایل سازی به عنوان تکنیکی مطرح است که در آن مجموعه ای از ویژگی های کلاس خاصی از هر شخص، استنباط شده از تجارب گذشته وی، گردآوری شده و پس از آن داده های مربوطه برای هر یک از اشخاص جهت یافتن تناسب نزدیک با مجموعه ویژگی های مرتبط مورد جستجو قرار می گیرند”. به علاوه نواحی بالقوه بی شماری در ارتباط با کاربرد پروفایل سازی مورد شناسایی قرار گرفته است. این موارد به طور مثال شامل بیمارانی است که احتمالا از نوعی بیماری خاص رنج می برند، یا شامل دانش آموزانی است که استعدادهای هنری بالقوه ای برخوردار هستند، و یا شناسایی آن دسته از مشتریانی که دارای الگوهای خرید خاصی می باشند. در این راستا، موارد بسیار متنوع دیگری را می توان خاطر نشان نمود.
در این مقاله، ما مجموعه روشهای مشابه که در این مطالعات به کار گرفته شده اند، جهت پروفایل سازی ایمیل های فیشینگ بر مبنای ویژگی های ساختاری، محتویات و اطلاعات مربوطه در خصوص مبداء احتمالی آنها، را دنبال می نماییم. این رویکرد در ابتدا می بایست سعی در مشخص نمودن آشکار آن دسته از ایمیل هایی نماید که در کلیه انواع ویژگی های مطرح شده دارای مشابهت های خاصی می باشند. متعاقبا این فرض مطرح می گردد که چنین مواردی در ارتباط با گروه های فیشینگ مختلف با طرز عمل خاصی مد نظر هستند. مرحله بعدی کار (که در این مبحث گزارش نشده است) ایجاد پروفایل های مربوط به این گروه ها از طریق مشخص نمودن ساختار لینک، ساختار املائی و ویژگی محتوایی هر گروه می باشد.

خوشه بندی ترکیبی پروفایل فیشینگ

 

۳- تکنیکهای خوشه بندی
تعداد ۲۰۴۸ ایمیل، از یکی از بانک های اصلی استرالیا، در آزمایشات ما به عنوان مجموعه های فرعی بخش بسیار بزرگتری از اطلاعات مورد استفاده قرار گرفت. این ایمیل ها به وسیله گروه امنیت اطلاعات در یک بازه زمانی ۵ ماهه در سال ۲۰۰۶ جمع آوری شده و به عنوان ایمیل های فیشینگ مشخص شدند. غالب این ایمیل ها ۱۰۲۶ کاراکتر طول داشته و همچنین از متن و محتوای فراپیوند در آنها استفاده شده است. برخی از آنها دارای اسکریپت HTML میباشند که شامل جداول، تصاویر، لینک ها و دیگر ساختارهایی هستند که در زمینه مشخص نمودن تمایزات بین این ایمیل ها مفید می باشند. بنابراین، تعریف طرز عمل گروه یا فعالیت هر یک از موارد فیشینگ جزء ویژگی های مهم در این عرصه به شمار می آید.
 
۳-۱٫ خوشه بندی متنی
شاید آشکارترین ویژگی استفاده شده در ایمیل های پروفایلینگ محتوای متنی نشان داده شده به خوانندگان باشد. برای ایمیل های قرار گرفته در این مجموعه های اطلاعاتی، ویژگیهای مرتبط با محتوای بافتی به طرق مختلف کدگذاری و مشخص می شود. آنها در بردارنده متن ساده، همانند متن دارای فرمت HTML، یا تصویر جاسازی شده می باشند. بنابراین فرآیند پیش پردازش جهت استخراج  محتویات  متنی  از  هر  ایمیل لازم می باشد و برای این کار  می بایست اقدام به زدودن تگ ها یا برچسب های مربوطه و دیگر اطلاعات ساختاری از طریق بکارگیری فرآیند تشخیص نوری کاراکترها جهت تصاویر درج شده نمود.
۳-۲٫ خوشه بندی فراپیوند
ما ایمیل ها را بر مبنای ویژگی های مشابه آنها که در ساختار فراپیوند جعلی آنها مشاهده شده است گروه بندی نمودیم. بسیاری از این فراپیوندها / ابرپیوندها حاوی نامهای مشابهی هستند و این مورد مخصوصا برای تبادلات نامگذاری دایرکتوری آنها مشهود است. ما نگاه خود را معطوف به دایرکتوری یا نامهای فایلی نموده ایم که به صورت مجهول / نامشخص بوده و غالبا تکرار  می شوند و یا آن دسته از نامهایی که در ارتباط با بانکداری می باشند. ما از این موضوع اطمینان می یابیم که هیچگونه دایرکتوری یا نام فایل معتبری در این لیست جای نگیرد و بنابراین ابرپیوندهای بانک های معتبر قبل از انجام فرآیند خوشه بندی حذف می شوند. کلیه اسامی بانکها یا نشانه های غیر قانونی و مقرر تکرار شده به عنوان یک مولفه خاص برای هر خوشه به کار گرفته می شوند. هر ایمیلی که حاوی لینک های غایبی باشد، یعنی لینک هایی که دارای هیچگونه دیرکتوری مشخصی نمی باشند و یا لینکهای صرفا مبتنی بر IP یا هگز / شانزده تایی و یا آندسته از لینکهایی که حاوی هیچکدام از این نشانه های کلیدی نمی باشند مجموعا در داخل یک کلاستر / خوشه یا تحت عنوان “دیگر موارد” خوشه بندی می شوند. جدول ۱ نشان دهنده دیرکتوری و نامهای فایل استفاده شده جهت ایجاد هر خوشه می باشد. مورد ذیل توصیف کننده جزئیات بیشتری در ارتباط با پروسه خوشه بندی ابرپیوند می باشد.
۳-۲-۱٫ استخراج لینک ها
  1. در ابتدا، ما کلیه لینک ها را از ۲۰۴۸ ایمیل استخراج نمودیم.
  2. متعاقبا اقدام به پیش پردازش لینک ها از طریق حذف کلیه برچسبهای اطراف آنها و اطلاعات اسکریپت و هرگونه موارد جنبی که به طور مستقیم در ارتباط با فایل یا ساختار نام فایل نمی باشد و ربطی به خود لینک ندارد نمودیم.
  3. سپس کلیه لینک های معتبر متعلق به هر یک از بانک ها را حذف کردیم.
۳-۲- ۲٫ ایجاد خوشه ها
این مورد به عنوان یک فرآیند نسبتا دستی به حساب می آید که در آن می بایست نگاه خود را معطوف به نشانه های ذخیره شده نموده، و نامهای استفاده شده، فراوانی کلیه آنها و تعداد ایمیل هایی که پدیدار شده اند را به حساب آوریم. با توجه به احتمال وجود تعداد کلمات بسیار، ما کلیه کلماتی که دارای فراوانی ۱% از بین کل مجموع ایمیل ها بوده اند و ارتباطی با بانک نداشته اند را نادیده انگاشتیم. با این وجود مورد استثنا شامل نامهای “moreinfo.html” و “wumoreinfo.html” بوده اند. کلماتی که به دفعات استفاده شده اند، اما در ایمیل های اندکی به کار گرفته شده بودند نیز به عنوان گروهی که قابلیت فرم دهی از این نظر نداشتند مستثنی گردیدند. کلماتی که دارای فراوانی زیاد بوده اند نظیر “index” و “netbank” نیز مستثنی گردیدند چرا که از حالت انحصاری کافی جهت تعلق صرف به یک گروه برخوردار نبوده اند. با این وجود نامهایی نظیر “index2_files“، “nabib” و “verify“، بواسطه ابهام بالاتر و تعداد ایمیل های یافته شده حفظ گردیدند. برخی از این موارد عبارتند از:

 

۳-۳٫ خوشه بندی املایی
ایمیل های فیشینگ غالبا دارای اطلاعات چند رسانه ای می باشند تا قابلیت فائق آمدن بر فیلترهای فیشینگ و فریفتن کاربران ساده را داشته باشند. این مورد شامل تصاویر و متن نیز می باشد، که در آن اطلاعات متنی ممکن است حاوی متن ساده، زبان های نشانه گذاری و سبک ها، اسکریپت ها، URLها و غیره باشد. این پیامها ممکن است حاوی لوگوها یا مدل های مشابهی از تصاویر بانکی یا صفحه وبی یک موسسه باشند اما در عین حال متن آنها تغییر یافته است. با این وجود، این اطلاعات را نمی توان به وسیله یک سیستم به طور مستقیم شناسایی نمود، بلکه می بایست آن را بر مبنای نیازهای سیستمی توصیف کرد.
ایمیل های فیشینگ به میزان زیادی از نظر محتوا مشابه می باشند. بنابراین، ما عقیده داریم که ویژگی های املایی در چنین کاربردی مهم می باشند. این ویژگی ها غالبا حاوی مشخصه های سبکی هستند که جهت القای نقش کلمات، جملات یا بخشهایی که در محتوای ایمیل توصیف شده اند به کار گرفته می شوند. از آنجاییکه یک مجموعه ایمیلی قبلا از نظر ساختار از استحکام بالایی برخوردار نمی باشد، تجزیه نمودن محتوای ایمیل بسیار مشکل تر از تجزیه بخش فرآیند ایمیل خواهد بود. در حال حاضر ما نسبت به تعریف ویژگی های مربوطه به صورت دستی بر مبنای مشاهدات خود اقدام نموده ایم. ویژگی های املایی که در سیستم ما جمع آوری شده اند به شرح ذیل توصیف می گردند:
  1. اندازه متن و بدنه html یک ایمیل.
  2. آیا ایمیل دارای محتوای متنی است یا خیر.
  3. تعداد لینک های مشهود در یک ایمیل.
  4. آیا لینک مشهود به یک ابرلینک مشخص شده در یک ایمیل هدایت می شود.
  5. آیا ایمیل حاوی یک خط خوش آمد گویی است.

 

توصیف سطح بالای فرآیند استخراج ویژگی ها و خوشه بندی را می توان در شکل ۳ ملاحظه کرد. این ویژگی ها بر حسب صفات مشخص شده فوق تعریف می شوند، اما کلیه ویژگی ها حاوی اطلاعات مفیدی نیستند. بنابراین، آموزنده ترین ویژگی ها با  استفاده از یک روش فراگیری انتخاب گردیده و فرآیند خوشه بندی انجام می شود. هر دوی این وظایف به صورت تکراری با استفاده از الگوریتمی تحت عنوان “Global  k-means Modified” انجام می گردد (Bagirov و Mardaneh، ۲۰۰۶، Bagirov، ۲۰۰۸). فرآیند انتخاب اقدام به انجام یک جستجو برای مشخص نمودن بهترین ویژگی زیرمجموعه نموده و سپس از الگوریم فوق (MGkm) برای ارزیابی ویژگی های جاری این مجموعه استفاده می نماید. چنین فرآیندی بر روی ایمیل های فیشینگ به صورت مکرر با استفاده از زیرمجموعه های مختلف ویژگی ها و مقادیر مختلف تلرانس برای MGkm انجام می پذیرد. عملکرد مربوطه نیز به وسیله مقادیر تابع هدف MGkm بر روی ویژگی های متفاوت این مجموعه اعمال شده که در آن زیرمجموعه ای که دارای پایین ترین مقدار تابع هدف است به عنوان مجموعه فرعی ویژگی تکراری، که الگوریتم اندوکسیون (القا) بر روی آن اجرا می شود، انتخاب می شود.

خوشه بندی ترکیبی پروفایل فیشینگ

 

۴- توابع اجماع
چندین تابع اجماع برای تشکیل خوشه بندی های جامع از یک مجموعه گردآوری شده خوشه بندی های مستقل پیشنهاد شده اند (Strehl و Ghosh 2002، Topchy و همکاران ۲۰۰۳، Fern و Brodley 2004). با توجه به یک مجموعه اطلاعاتی ، که در آن n تعداد کل نمونه های  می باشد، X نیز به عنوان مجموعه خوشه بندی در X است که در آن T تعداد کل خوشه بندی ها می باشد و عبارت  نیز معتبر است، که در آن  مترادف با خوشه j در خوشه بندی  بوده و  نیز تعداد کل خوشه های تشکیل شده در خوشه بندی  می باشد. برای هر  ما دارای  می باشیم.
خوشه بندی های جامع غالبا بر روی یک مجموعه اطلاعاتی واحد، با خوشه بندی های مختلف، با توجه به ویژگیهای ذیل به کار گرفته می شوند:
  • زیرمجموعه های مختلف کل مجموعه ویژگی، یا
  • پارامترهای اولیه مختلف در برخی از الگوریتم های خوشه بندی
در این تحقیق، ما از توابع اجماع بر روی خوشه بندی های مختلف، حاصل آمده با استفاده از ویژگی های مختلفی که قبلا در بخش ۳ بحث شد، استفاده می نماییم. بر این مبنا ما چهار تابع اجماع تشریح شده به وسیله Fern و Brodley (2004) را به کار می گیریم.
  • فرمولاسیون نمودار نمونه – مبنا (IBGF): این روش از یک نموداری استفاده می نماید که در آن نمونه ها به وسیله گره ها مشخص شده و ارتباطات آنها به عنوان لبه های وزن داری مدل سازی می شوند که مشخص کننده ارتباط بین نمونه ها خواهند بود. وزن قرار گرفته بر روی لبه بین نمونه های xl و xm در IBGF با استفاده از فرمول معادله (۲) محاسبه می شود.

خوشه بندی ترکیبی پروفایل فیشینگ

 

۵- سوابق آزمایشات
در بخش ۳ متن، لینک ها و ساختارهای املایی تکنیک های خوشه بندی ارائه شد. هر تکنیک به صورت منحصر بفرد قابلیت تخصیص هر نمونه مرتبط با یک ایمیل به یک خوشه یا پروفایل بر حسب معیارهای خوشه بندی و مجموعه ویژگی ها را خواهد داشت. بنابراین، حصول ویژگی های خاص و در عین حال متفاوت داده ها، که در آن یک تکنیک خوشه بندی واحد، مدنظر است در چنین مبحثی محتمل نخواهد بود. بنابراین هدف ما ترکیب این خوشه بندی ها با یکدیگر جهت حصول موارد ذیل می باشد:
  • تقویت اطلاعات متقاطع
  • شامل نمودن اطلاعاتی که بین سه تکنیک به اشتراک گذاشته نشده است
  • یافتن بهترین تناسب بین پروفایل ها
در بخش ۴ توضیحی در ارتباط با ۴ تابع اجماع CBGF، HBGF، IBGF و KMCF ارائه شد. بر حسب کاربرد آنها غالب تحقیقات انجام شده تاکنون بر روی ویژگی های ترکیبی خوشه متعلق به مجموعه های بزرگ اطلاعاتی تمرکز داشته اند. تمرکز اصلی در اینجا قسمت نمودن مجموعه های بزرگ اطلاعاتی به زیرمجموعه های کوچکتر با استفاده از تکنیکهایی همانند طرح های تصادفی یا زیرنمونه برداری تصادفی می باشد. الگوریتم های خوشه بندی قابلیت کار بر روی زیرمجموعه های کوچکتر و قابلیت مدیریت مجموعه داده های اصلی را خواهند داشت.

خوشه بندی ترکیبی پروفایل فیشینگ

 

۶- معیارهای ارزیابی
ارزیابی بهترین خوشه بندی کلی اجماع از ۵ الی ۱۵ به عنوان یک فرآیند غیر بدیهی مدنظر بوده است. جهت مشخص نمودن “صحیح ترین” خوشه بندی نهایی ما از سه برآورد استفاده نمودیم که عبارتند از: اطلاعات دو سویه نرمالیده (NMI)، اطلاعات خالص و همچنین تعداد برش های لبه ای. ما نسبت به مقایسه هر یک از این ۵ الی ۱۵ خوشه بندی نهایی با هر یک از تکنیکهای منحصر بفرد خوشه بندی اقدام نمودیم و برای این کار اطلاعات تقاطع ها و اطلاعات نسبی آنها را با استفاده از برآوردهای NMI و برآوردهای خالص را مورد مقایسه قرار دادیم. علاوه بر این تعداد برشهای لبه ای که به وسیله توابع اجماع از هر خوشه بندی نهایی حاصل شده اند را نیز مقایسه کردیم. ما حدس می زنیم که بهترین خوشه بندی نهایی به شرح ذیل خواهد بود:
  1. یک مقدار NMI نسبتا سازگار نزدیک به ۱ به هنگام مقایسه سه مورد از تکنیکهای منحصر بفرد خوشه بندی در برابر کلیه خوشه بندی های اجماع نهایی.
  2. مقدار خلوص سطح بالا و در عین حال سازگار این مقدار مشابه با مقداری می باشد که به هنگام مقایسه بین تکنیک واحد برای خوشه بندی نهایی و مورد متضاد آن  حاصل  می شود. ما مجددا انتظار داریم که دارای مقداری نزدیک به ۱ باشیم تا آنکه نشان دهیم که نوعی اشتراک قوی بین هر دوی خوشه بندی های منحصر بفرد و خوشه بندی های اجماع کلی وجود دارد.
  3. تعداد نسبتا پایین برشهای لبه ای مشخص کننده تعداد خوشه ها می باشد. این مقدار با کلیه خوشه بندی ها در تابع اجماع متبوع آن و همچنین در دیگر توابع مرتبط مقایسه شده است.
۶-۱٫ خلوص
برآوردهای خلوص کیفیت راه حل خوشه بندی از طریق مشخص نمودن تعداد نقطه ها در محل تقاطع خوشه های تخصیص یافته و کلاسهای برچسب دار از قبل تعیین شده مشخص می شوند.
۶-۲٫ اطلاعات دو سویه نرمالیده
اطلاعات جفتی یا دو سویه به عنوان یک برآورد متقارن به شمار می آید که بحساب آورنده هر دو تقاطع دو مجموعه از خوشه بندی ها و همچنین مشخص کننده چند و چون اطلاعات آماری یافت شده در هر دو مورد توزیع خواهد بود، به (Cover و Thomas، ۱۹۹۱) رجوع شود. با وجود آنکه چنین موردی فراهم آورنده یک شاخص مناسب اطلاعات به اشتراک گذاشته شده بین یک جفت از خوشه بندی ها می باشد، این مورد همانند ویژگی خلوص به عنوان یک مورد مطلوب مطرح می باشد تا از نگارش نرمالیده اطلاعات دو سویه با مقادیر بین [۱ – ۰] استفاده شود.
۶-۳٫ تعداد برشهای لبه ای
همانگونه که در بخش چهار نشان داده شده است، نرم افزار پارتیشنینگ Metis Graph جهت ایجاد پارتیشن هایی برای توابع اجماع به کار گرفته شد. الگوریتم استفاده شده که در (Karypis و Kumar، ۱۹۹۸) ارائه شده است، اقدام به محاسبه یک پارتیشن k-way مرتبط با یک نمودار از طریق به حداقل رسانی تعداد سابجک برش های لبه ای به تعداد قیدهای تراز راس می نماید. مقدار برش لبه ای به عنوان مجموع کل لبه های بریده شده به منظور حصول تعداد نهایی خوشه بندی ها محسوب می شود.

خوشه بندی ترکیبی پروفایل فیشینگ

 

۷- نتایج
۷-۱٫ مقایسه تکنیکهای واحد
ما نسبت به مقایسه هر خوشه بندی واحد در برابر خوشه بندی دیگر اقدام می نماییم تا آنکه قابلیت یافتن NMI، خلوص و آنتروپی واحد آنها را داشته باشیم. همانگونه که در جدول ۲ مشخص شده است، این سه تکنیک تقریبا حاوی مقادیر مشابه اطلاعاتی می باشند چرا که همگی نشان دهنده یک آنتروپی بین ۷۴/۰–۶۲/۰ هستند.
 
۷-۲٫ مقایسه توابع اجماع
شکلهای ۴، ۵، ۶ و ۷ نشان دهنده نتایج NMI و مقادیر خلوص برای هر خوشه اجماع نهایی ۵ الی ۱۵ در مقایسه با هر یک از سه تکنیک مشخص شده برای چهار تابع اجماع می باشند. به هنگام مقایسه نتایج نشان داده شده در این نمودار ها، می توان گوناگونی بسیاری را در هر کدام از توابع مختلف اجماع مشاهده نمود. تابع اجماع CBGF نشان داده شده در شکل ۴ و تابع اجماع KMCF نشان داده شده در شکل ۷ معرف بهترین نتایج می باشند. آنها معرف مقادیر پایدار بالاتر NMI و مقادیر خلوص بالاتر به هنگام مقایسه با تابع اجماع IBGF نشان داده شده در شکل ۵ و تابع اجماع HBGF نشان داده شده در شکل ۶ می باشند. تفاوت قابل توجه دیگر آن است که گوناگونی بسیار کمتری در زمینه تفاوت در مقادیر خلوص نمودار های CBGF و KMCF در مقایسه با نمودارهای IBGF  و HBGF وجود دارد.
۷-۳٫ ارزیابی بهترین خوشه بندی نهایی
ما می توانیم از هر دوی برآوردهای NMI و  برآوردهای خلوص جهت ارزیابی بهترین خوشه بندی واحد استفاده نماییم. یک نتیجه ایده آل برای خوشه بندی نهایی معرف مقدار NMI نزدیک به ۱ می باشد، هر دو مقادیر خلوص نیز می بایست نزدیک به ۱، اما با مقدار مشابهی، باشند. خلوص متوازن یا تراز شده نشان داده شده در معادله (۷) در بردارنده این معیارها خواهد بود. این مورد عرضه کننده یک مقدار خروجی در محدوده ۰ الی ۳ برای تکنیک خوشه بندی واحد می باشد که در آن ۳ بهترین مقطع به شمار آمده و ۰ به عنوان بدترین مورد محسوب می شود. بنابراین هدف ما، بزرگترین مقدار خلوص متوازن ارائه شده برای سه تکنیک خوشه بندی جهت هر یک از خوشه بندی های اجماع نهایی ۵ الی ۱۵ برای هر تابع اجماع می باشد.

خوشه بندی ترکیبی پروفایل فیشینگ

 

۸- نتیجه گیری
فرآیند فیشینگ به وسیله اشخاص مختلفی در اینترنت بکار گرفته می شود. در این بررسی ما ویژگی های حملات فیشینگ بر روی موسسات مالی در استرالیا، یک بانک عمده استرالیا، را خاطر نشان می سازیم. این ویژگی های فیشینگ در حقیقت ایمیل هایی محسوب می شوند که تحت عناوین ایمیل های فیشینگ شناسایی و دسته بندی شده اند. تحقیق جاری از تکنیکهای خوشه بندی مختلف جهت مشخص نمودن گروه های فیشینگ استفاده نموده است. مشکل اصلی در ارتباط با ایمیل ها چگونگی معرفی آنها به عنوان آبجکتهایی می باشد که قابلیت خوشه بندی آنها وجود داشته باشد. رویکرد ما، همانگونه که به وسیله ویژگی های مطرح شده در بخش ۳-۳ مشخص می باشد، از سه شاخص مختلف مرتبط با ایمیل، شامل مضامین متنی (نظیر کلمات)، لینکها (نظیر لینکهای مخفی در ایمیل) و ساختارهای املایی دیگر استفاده نموده است. کلیه این موارد به عنوان شاخص های طبیعی ایمیل ها به شمار می آیند، با این وجود یک حقیقت چهارم نیز در خصوص ایمیل های فیشینگ وجود دارد که تحت عنوان اسکریپتینگ[۱] خوانده می شود، اما چنین مضمونی به عنوان بخشی از تحقیقات آتی ما تلقی می گردد.
مولفه های حاصله از هر یک از سه ویژگی فوق الذکر در ابتدا انتخاب شده و متعاقبا جهت تعیین خوشه بندی های مرتبط بر مبنای هر یک از این شاخص ها از الگوریتم های خوشه بندی واحد استفاده شد. هر یک از این خوشه بندی ها فراهم آورنده اطلاعات مختلفی هستند، اما در عین حال کلیه آنها شامل گروه های فیشینگ نخواهند شد. با این وجود رویکرد املایی با استفاده از الگوریتم “Modified Global k-means” و برخی از تحلیل های تابع هدف (تابع خوشه بندی) معرف وجود ۹ گروه در این محبث می باشند.
[۱] scripting

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Irantarjomeh
لطفا به جای کپی مقالات با خرید آنها به قیمتی بسیار متناسب مشخص شده ما را در ارانه هر چه بیشتر مقالات و مضامین ترجمه شده علمی و بهبود محتویات سایت ایران ترجمه یاری دهید.