مقالات ترجمه شده دانشگاهی ایران

مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ

مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ

مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ – ایران ترجمه – Irantarjomeh

 

مقالات ترجمه شده آماده گروه کامپیوتر
مقالات ترجمه شده آماده کل گروه های دانشگاهی

مقالات رایگان

مطالعه 20 الی 100% رایگان مقالات ترجمه شده

1- قابلیت مطالعه رایگان 20 الی 100 درصدی مقالات 2- قابلیت سفارش فایل های این ترجمه با قیمتی مناسب مشتمل بر 3 فایل: pdf انگیسی و فارسی مقاله همراه با msword فارسی -- تذکر: برای استفاده گسترده تر کاربران گرامی از مقالات آماده ترجمه شده، قیمت خرید این مقالات بسیار کمتر از قیمت سفارش ترجمه می باشد.  

چگونگی سفارش

الف – پرداخت وجه بحساب وب سایت ایران ترجمه (شماره حساب) ب- اطلاع جزئیات به ایمیل irantarjomeh@gmail.com شامل: مبلغ پرداختی – شماره فیش / ارجاع و تاریخ پرداخت – مقاله مورد نظر -- مقالات آماده سفارش داده شده عرفا در زمان اندک یا حداکثر ظرف مدت چند ساعت به ایمیل شما ارسال خواهند شد. در صورت نیاز فوری از طریق اس ام اس اطلاع دهید.

قیمت

قیمت این مقاله: 32000 تومان (ایران ترجمه - Irantarjomeh)

توضیح

بخش زیادی از این مقاله بصورت رایگان ذیلا قابل مطالعه می باشد.

مقالات ترجمه شده کامپیوتر - ایران ترجمه - irantarjomeh

www.irantarjomeh.com

مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ

شماره      
141
کد مقاله
COM141
مترجم
گروه مترجمین ایران ترجمه – irantarjomeh
نام فارسی
مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ
نام انگلیسی
A Comparison of Machine Learning Techniques for Phishing Detection
تعداد صفحه به فارسی
48
تعداد صفحه به انگلیسی
10
کلمات کلیدی به فارسی
دسته بندی, رگرسیون لجستیک, فراگیری ماشینی, فیشینگ, جنگل های تصادفی
کلمات کلیدی به انگلیسی
BART, CART, classi cation, logistic regression, machine
learning, NNet, phishing, random forests, SVM
مرجع به فارسی
دانشگاه ساترن متودیست، تگزاس، ایالات متحده
نشست تحقیقاتی جرایم الکترونیک APWG، ایالات متحده
مرجع به انگلیسی
APWG eCrime Researchers Summit, Pittsburgh, PA, USA
سال
2007
کشور
ایالات متحده

 

مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ
چکیده
سیستم های کاربردی بسیاری برای تشخیص فیشینگ وجود دارند. با این وجود، بر خلاف بررسی های مرتبط با پیش بینی اسپم، مطالعات اندکی وجود دارند که اقدام به مقایسه تکنیک های فراگیری ماشینی در خصوص پیش بینی فیشینگ نموده باشند. مطالعه کنونی اقدام به مقایسه دقت پیش بینی چندین روش فراگیری ماشینی، شامل رگرسیون لجستیک (LR)، درختان دسته بندی و رگرسیون (CART)، درختان رگرسیون افزدونی بیزی (BART)، ماشین بردار حامی (SVM)، جنگل های تصادفی (RF)، و شبکه های عصبی (NNet) برای پیش بینی ایمیل های فیشینگ نموده است. یک مجموعه اطلاعاتی متشکل از 2889 ایمیل فیشینگ و ایمیل مشروع در مطالعه مقایسه ای شرکت داده شده و بعلاوه 43 ویژگی نیز جهت آموزش و تست کلاسیفایرها بکار گرفته شده است.
 
کلمات کلیدی: BART، CART، دسته بندی، رگرسیون لجستیک، فراگیری ماشینی، NNet، فیشینگ، جنگل های تصادفی، SVM
 
 
 
1- مقدمه                                      
هیچگونه توافقی در خصوص تعریف مرتبط با فیشینگ وجود ندارد. با این حال، غالب تعاریف بر این نکته توافق دارند که هدف یک کلاه برداری / اسکم فیشینگ دزدیدن اطلاعات محرمانه پرسنلی شخصی می باشد [3، 11، 17]. رسانه مورد استفاده برای حمله ممکن است برحسب ویژگی های تهاجمی متفاوت باشد. بطور مثال، فرآیند فارمینگ بعنوان نوعی فیشینگ تلقی می گردد که در آن فرد مهاجم اقدام به هدایت نادرست کاربران به سمت سایت های متقلب یا سرورهای پراکسی نموده و برای انجام اینکار غالبا از سیستم نام دومین / دامنه (DNS) و تکنیک های هایجکینگ یا آلوده نمودن کش سامانه نام دامنه استفاده می کند [3]. فرد مهاجم در این ارتباط قابلیت ربودن اطلاعات قربانی خود از طریق حاصل آوردن نام دامنه یا دومین یک وب سایت خاص و متعاقبا تغییر جهت ترافیک آن وب سایت به سمت وب سایت فیشینگ، بدون ارسال ایمیل های جعلی، را خواهد داشت. با این وجود، ایمیل همچنان بعنوان مطلوب ترین ابزار برای فیشینگ مدنظر است. وجود ابزارهای گسترده سخت افزاری و نرم افزاری در ارتباط با میل های انبوه (تحت عنوان میلرها یا نامه رسان ها) موجب تسهیل کار فیشرها شده و سبب می شود تا قابلیت ارسال مقادیر زیادی از ایمیل ها به تعداد بالایی از قربانیان فراهم شود.
مطالعات نشان دهنده یک افزایش یکنواخت در فعالیت های فیشینگ همراه با هزینه های مرتبط با آن می باشد. در سال 2003، زیان های مستقیم مرتبط با فیشینگ به بانک های ایالات متحده و صادر کنندگان کارت های اعتباری در حدود 2/1 بیلیون دلار تخمین زده شده است که شاهد رشد آن به 2 بیلیون دلار در سال 2005 بوده ایم. در ژانویه 2007، مجموع کل گزارشات منحصربفرد فیشینگ ارائه شده بوسیله گروه های کاری ضد فیشینگ (APWG) 29930 مورد بوده است. این تعداد بعنوان بالاترین میزان گزارشات ثبت شده بوسیله APWG می باشد [3]. در مقایسه با پیک قبلی در ژوئن 2006، تعداد گزارشات جایگزین به میزان 5% افزایش یافته است. با وجود آنکه راه حل های مختلفی برای شناسایی و ممانعت از حمله های فیشینگ پیشنهاد و اجرا شده اند، غالب آنها از سطوح غیر قابل پذیرش مثبت های منفی و تشخیص نادرست در رنج می باشند.  
موردی که در این بررسی مقایسه می گردد دقت پیش بینی شش کلاسیفایر در ارتباط با مجموعه ای از اطلاعات فیشینگ می باشد. این کلاسیفایرها عبارتند از: رگرسیون لجستیک (LR)،  درختان دسته بندی و رگرسیون (CART)، درختان رگرسیون افزدونی بیزی (BART)، ماشین بردار حامی (SVM)، جنگل های تصادفی (RF)، و شبکه های عصبی (NNet). بر این مبنا، یک مجموعه اطلاعاتی از 1171 ایمیل فیشینگ خام و 1718 ایمیل مشروع حاصل آمده است. به علاوه، 43 ویژگی (متغیر) در آموزش و تست این کلاسیفایرها استفاده شده اند.
ادامه این مقاله به شرح ذیل سازمان دهی شده است: در بخش 2 تحقیقات مرتبط را مورد بحث قرار می دهیم. در بخش 3 روش های دسته بندی به کار گرفته شده در این مطالعه را نشان می دهیم. در بخش 4 مجموعه های اطلاعاتی ساختاری، اوزان مورد ارزیابی و رویه های اولیه را ارائه می نماییم. در بخش 5 مطالعات تجربی را عرضه می نماییم. نتایج در بخش 6 ارائه گردیده و در بخش 7 مورد بحث و بررسی قرار می گیرند. در نهایت نتیجه گیری و انگیزه های مرتبط با تحقیقلت آتی نیز در بخش 8 ارائه خواهد شد.
2- تحقیقات مرتبط
بر حسب گزارش APWG به طور کلی سه دسته بندی اصلی در ارتباط با مکانیسم های دفاع در برابر فیشینگ و کلاه برداری وجود دارد: مکانسیم های تشخیصی، پیشگیرانه و اصلاحی [3]. این موارد در جدول 1 خلاصه شده اند [1].
ذیلاً به اختصار توصیفی از چندین فناوری قابل دسترس در خصوص تشخیص فیشینگ را ارائه می نماییم. در ابتدا، تولبارها یا نوارهای ابزار ضد فیشینگ را ارائه می نماییم. متعاقباً، دو مطالعه تحقیقاتی را عرضه می نماییم که در آنها از فراگیری ماشینی در خصوص تشخیص فیشینگ استفاده شده است.
2-1. تولبار / نوار ابزار ضد فیشینگ
نوارهای ابزار ضد فیشینگ به صورت فراگیر و شایعی در دسترس بوده و به وسیله کاربران ابتدایی و غیر فنی کامپیوتر جهت کاهش مشکل فیشینگ از آنها استفاده می شود. با وجود آن که این ابزار ها در خصوص تسکین این مشکل کمک کننده هستند، بسیاری از مطالعات تحقیقاتی معرف عدم کارآمدی مطلوب چنین تکنیک هایی می باشند. یکی از مشکلات عمده در بسیاری از موارد آن است که لینک های جعلی بدون ملاحظه محتوایی که بر حسب آن چنین لینکی در دسترس کاربر قرار گرفته است مورد آزمایش قرار گرفته و از این طریق سبب از دست رفتن دقت می گردد. مشکل دیگر آن است که به هنگامی که کاربری وارد آدرس سایت فیشینگ در نوار آدرس مرورگر خود شد، به سرعت در معرض حمله سایت قرار خواهد گرفت.
2-2. تکنیک های فراگیری ماشینی
غالب الگوریتم های فراگیری ماشینی بحث شده در اینجا بعنوان فراگیری ماشینی کنترل شده دسته بندی شده اند. این مورد غالباً به هنگامی مد نظر خواهد بود که یک الگوریتم (کلاسیفایر) سعی در نگاشت ورودی ها به خروجی های مطلوب با استفاده از یک تابع خاص می نماید. در ارتباط با مشکلات دسته بندی، یک کلاسیفایر سعی در فراگیری چندین خصیصه (شامل متغیر ها یا ورودی ها) می نماید تا از این طریق قابلیت پیش بینی یک خروجی (پاسخ) را داشته باشد. در مورد دسته بندی فیشینگ، یک کلاسیفایر سعی در دسته بندی ایمیل به ایمیل فیشینگ یا ایمیل مشروع (پاسخ) از طریق فراگیری ویژگی های خاص (خصیصه ها) در ایمیل می نماید. ذیلاً ما نسبت به خلاصه سازی مطالعات تحقیقاتی که شامل فراگیری ماشینی در دسته بندی فیشینگ می باشد اقدام می نماییم.
Chandrasekaran و همکاران [7] تکنیکی را جهت دسته بندی فیشینگ بر مبنای خواص ساختاری ایمیل های فیشینگ عرضه داشتند. آنها از مجموع 25 ویژگی ترکیبی، بین مارکر ها یا علایم مرتبط با سبک، (یعنی کلمات تعلیقی، حساب ها و ویژگی های امنیتی) و خصیصه های ساختاری، نظیر ساختار خط موضوعی ایمیل و ساختار بخش خوش آمدگویی در بدنه ایمیل استفاده نمودند.
آنها 200 ایمیل (100 ایمیل فیشینگ و 100 ایمیل مشروع) را مورد آزمایش قرار دادند. آنها از سیستم آنیلینگ / تبرید شبیه سازی شده به عنوان الگوریتمی برای تشخیص ویژگی ها استفاده نمودند. پس از آن که مجموعه ای از ویژگی ها مشخص شدند، آنها از بهره اطلاعات (IG) جهت مشخص نمودن رتبه این ویژگی ها بر مبنای ارتباط آنها استفاده کردند. آنها از SVM تک – کلاسی جهت رده بندی ایمیل های فیشینگ بر مبنای خواص انتخابی استفاده نمودند. نتایج معرف یک نرخ تشخیص 95% ایمیل های فیشینگ با یک نرخ پایین مثبت کاذب می باشد.
3- روش های مطالعه شده برای تشخیص فیشینگ
در زیر بخش های متعاقب، به طور خلاصه روش های دسته بندی استفاده شده در مطالعه تطبیقی خود را ارائه می نماییم.
3-1. رگرسیون لجستیک
رگرسیون لجستیک به عنوان شایع ترین روش آماری استفاده شده در بسیاری از رشته ها برای پیش بینی داده های باینری / دودویی (پاسخ 1/.) به شمار می آید. این الگوریتم به صورت گسترده ای به واسطه سادگی و قابلیت تفسیر بالای آن استفاده می شود. با توجه به تعدادی از مدل های خطی کلی، این روش نوعاً از تابع لاجیت استفاده می نماید، بدان صورت که:
3-2. درختان دسته بندی و رگرسیون
CART یا درختان دسته بندی و رگرسیون [6] به عنوان مدلی مطرح است که تشریح کننده توزیع شرطی y با توجه به x می باشد. این مدل حاوی دو مولفه است. یک درخت T با گره های ترمینال b، و یک بردار پارامتر ، که در آن  qtدر ارتباط با  iامین گره ترمینال می باشد. این مدل را می توان در صورتی که پاسخ y به صورت گسسته باشد به عنوان یک درخت دسته بندی تلقی نمود یا در صورتی که y به صورت پیوسته باشد آن را به صورت درخت رگرسیون در نظر داشت. یک درخت باینری جهت پارتیشن سازی یا منفک نمودن فضای پیش بینی کننده به صورت بازگشتی به نواحی همگن متمایز بکار گرفته می شود، که در آن گره های ترمینال درخت منطبق با نواحی متمایز می باشند. ساختار درخت باینری قابلیت تقریب مناسب ارتباطات غیر استاندارد را خواهد داشت (یعنی موارد غیر خطی و غیر یکنواخت). به علاوه، این پارتیشن به وسیله قواعد جدا سازی مرتبط با گره های داخلی درخت باینری مشخص می شود. در صورتی که متغیر جدا سازی می بایست به صورت پیوسته باشد، یک قاعده جدا سازی در قالب  و  به بخش های چپ و راست گره جدا کننده به ترتیب تخصیص می یابد. با این وجود، در صورتی که متغیر جدا کننده می بایست به صورت گسسته باشد، یک قاعده جدا کننده در قالب  و  به بخش سمت راست و چپ گره جدا کننده به ترتیب تخصیص داده می شود [8].
3-3. جنگل های تصادفی
جنگل های تصادفی جزء آن دسته از کلاسیفایرهایی به شمار می آیند که بسیاری از پیش بینی کننده های درخت را با هم ترکیب می نمایند و در آنها هر درخت متکی به مقادیر بردار تصادفی می باشد که به صورت مستقل نمونه برداری شده اند. به علاوه، کلیه درختان در جنگل دارای توزیع یکسانی هستند [5]. به منظور ایجاد یک درخت، ما در نظر می گیریم که n تعداد مشاهدات آموزشی و p تعداد متغیر ها (ویژگی ها) در یک مجموعه آموزشی می باشند. به منظور تعیین گره تصمیم در یک درخت، ما  به عنوان تعداد متغیر هایی که می بایست آنها را انتخاب کرد مد نظر قرار می دهیم. ما یک نمونه خود راه انداز را از مشاهدات n در یک نمونه آموزشی انتخاب نموده و بقیه مشاهدات را جهت ارزیابی خطای این درخت در فاز آزمایشی مورد استفاده قرار می دهیم. بنابراین، به صورت تصادفی اقدام به انتخاب k متغیر به عنوان یک تصمیم در گره خاص در درخت نموده و بهترین مورد مجزا را بر مبنای متغیر های k در مجموعه آموزشی محاسبه می کنیم. درختان در مقایسه با دیگر الگوریتم های درختی غالباً رشد نموده و هرگز هرس نمی شوند.
3-4. شبکه های عصبی
یک شبکه عصبی به صورت مجموعه ای از واحد های یکسان به هم متصل شده (نورون ها) ساخته می شوند. این مولفه های به هم متصل شده جهت ارسال سیگنال ها از یک نورون به نورون دیگر مورد استفاده قرار می گیرند. به علاوه، آنها دارای اوزان خاصی جهت ارتقای فرآیند تحویل بین نورون ها می باشند [18]. نورون ها به خودی خود قدرتمند نیستند، با این وجود، به هنگام اتصال با نورون های دیگر آنها قابلیت انجام محاسبات پیچیده را خواهند داشت. اوزان مرتبط با این اتصالات بینابینی به هنگامی که شبکه آموزش می بیند به روز رسانی شده و از اینرو در طی فاز آزمایشی رابطه بینابینی معنی دار نقش مهمی را ایفا می کند. شکل 1 نشان دهنده مثالی برای شبکه عصبی می باشد. شبکه عصبی در این شکل حاوی یک لایه ورودی، یک لایه مخفی و یک لایه خروجی است. از آن جایی که این اتصالات داخلی سبب لوپ بک یا رد دیگر نورون ها نمی شوند، این شبکه تحت عنوان پیش خورد خوانده می شود. توان شبکه های عصبی نشات گرفته از عدم خطیت نورون های مخفی می باشد. در نتیجه، به منظور فراگیری نگاشت های پیچیده لازم است تا قابلیت ارائه ویژگی عدم خطیت در شبکه را داشته باشیم. تابعی که به صورت شایع در تحقیقات شبکه عصبی مورد استفاده قرار می گیرد تحت عنوان تابع سیگموید خوانده می شود که به صورت ذیل است [19]:
 
3-5. ماشین های بردار حامی
ماشین های بردار حامی (SVM) یکی از مشهورترین کلاسیفایرهای امروزی می باشند. ایده مطرح شده در این مورد یافتن یک ابر صفحه مجزا کننده بهینه بین دو کلاس از طریق به حداکثر رسانی حاشیه بین نزدیکترین نقاط کلاس ها می باشد. در نظر بگیرید که دارای یک تابع متمایز خطی و دو کلاس مجزای خطی با ارزش های هدف 1+ و 1- می باشیم. بر این مبنا یک ابر صفحه متمایز قابلیت ارضای معادله ذیل را خواهد داشت:
 
3-6. درختان رگرسیون افزدونی بیزی
درختان رگرسیون افزدونی بیزی (BART) به عنوان یک فناوری جدید مطرح می باشند که به وسیله [9] توسعه یافته اند. این روش جهت کشف ارتباط ناشناخته f بین یک خروجی پیوسته Y و یک بردار ابعادیp  مرتبط با ورودی های  بکار گرفته می شود. با در نظر گیری  که در آن  به عنوان خطای تصادفی شناخته می شود. ایده اصلی BART با حصول انگیزش کلی از روش های مختلف و نوعی انگیزه خاص از الگوریتم های بوستینگ، مدل سازی یا حداقل ارائه نوعی تقریب f(x) به وسیله مجموع درخت های رگرسیون می باشد:
 
4- رویکرد ارزیابی
در این بخش ما نسبت به تشریح این موضوع اقدام می نماییم که چگونه قابلیت ایجاد مجموعه های اطلاعاتی آزمایشی از ایمیل های فیشینگ خام را خواهیم داشت. به علاوه، رویه های سنجشی مورد ارزیابی که در مقایسه های مختلف بکار گرفتیم را تشریح نموده و در نهایت ویژگی های مرتبط با رویه های تجربی اولیه را نیز توصیف خواهیم نمود.
4-1. توصیف مجموعه اطلاعاتی
مشابه با “بانک اطلاعات ایمیل اسپم” که به وسیله Forman ارائه گردیده و به وسیله Hopkins و همکاران ایجاد شد [22]، ما نیز مجموعه ای از داده های مربوط به فیشینگ، از طریق پردازش مجموعه ای از ایمیل های فیشینگ خام مشتمل بر 1171 ایمیل که بین 15 نوامبر 2005 و 7 آگوست 2006 جمع آوری شده بودند، را مورد بررسی قرار دادیم [21]. این مجموعه از ایمیل های فیشینگ در بردارنده بسیاری از خط مشی های جدیدتر در زمینه فیشینگ می باشند. برای بخش داده های مشروع، ما 1718 پیام جمع آوری شده از صندوق پستی خود را بکار گرفتیم. بنابراین، به طور کلی مجموعه اطلاعاتی ما حاوی 2889 ایمیل می باشد که 5/59% آنها ایمیل های مشروع تلقی می شوند. درصد ایمیل های مشروع تقریباً همانند مورد بکار گرفته شده در مرجع [22] می باشد.
4-2. اوزان  های ارزیابی
در پی تحقیقات دسته بندی اسپم قبلی، ما از برآورد های اسپمrecall(r) ، اسپمprecision(p)  و اسپم spam f1  استفاده نمودیم. بر حسب مرجع [2]، فرآیند فراخوانی اسپم اقدام به برآورد درصد پیام های اسپمی می نماید که فیلتر مربوطه سعی در بلوکه سازی آن نموده است (کارآیی فیلتر). دقت اسپم نیز قابلیت برآورد میزانی را دارد که برحسب آن مشخص کننده این موضوع هست که پیام های بلوکه شده حقیقتاً جزء پیام های اسپم هستند (ایمنی فیلتر). برآورد – F میانگین هارمونی وزن دار دقت و فراخوانی می باشد. در این جا ما از f1 استفاده می نماییم، چرا که دو پارامتر فراخوانی و دقت دارای وزن یکنواختی هستند.
 
4-3. محیط تجربی
در آزمایشات ما، از کلیه 43 متغیر در مجموعه اطلاعاتی خود استفاده نمودیم. متعاقباً، ما از اعتبار سنجی متقابل 10 برابری استفاده نمودیم. این اعتبار سنجی به عنوان روشی جهت ارزیابی نرخ خطا بصورت کارآمد با استفاده از یک روش غیر سودار می باشد. رویه مرتبط به شرح ذیل است: مجموعه اطلاعاتی به k زیر نمونه تقسیم می شود (در آزمایشات ما k = 10). یک زیر نمونه واحد به عنوان داده های تستی انتخاب گردیده و زیر نمونه های k – 1 باقی مانده به عنوان داده های آموزشی بکار گرفته می شوند. این راهکار به تعداد k بار تکرار می گردد، که در آن هر کدام از k زیر نمونه ها دقیقاً برای یک بار به عنوان داده های آزمایشی مورد استفاده قرار می گیرند. کلیه نتایج میانگیری شده و ارزیابی هر کدام از آنها به صورت واحد انجام می گردد [20].
5- مطالعات تجربی
در این بخش ما جهت بررسی دقت پیش بینی NNet، LR، RF، BART، CART و SVM مطالعات تجربی را مورد بررسی قرار می دهیم.
به منظور یافتن میانگین حداقلی نرخ خطا برای NNet، ما با استفاده از تعداد مختلف واحدها در لایه مخفی (اندازه های مختلف)، یعنی 5، 10، 15 و 20 مورد، اقدام به انجام آزمایش مربوطه می نماییم. به علاوه، ما از رویکردهای کاهش  وزن  مختلف  در  اتصالات  بینابینی استفاده  می کنیم که عمدتاً شامل کاهش های 1/0، 2/0، 3/0، 4/0، 5/0، 1، 5/1، 2 و 5/2 می باشند. این آزمایشات نشان دهنده آن هستند که یک NNet با اندازه 10 و کاهش وزن 1/0 فراهم آورنده پایین ترین نرخ خطا می باشد که به میزان 1161/0 است. متعاقباً، ما از این NNet در ارزیابی خود در برابر مدل های دیگر استفاده می نماییم. شکل 4 نشان دهنده کاهش های مختلف وزن و نرخ خطا با استفاده از اندازه های مختلف NNet می باشد.
6- نتایج آزمایشی
همانگونه که در بخش قبل ذکر نمودیم، جهت یافتن نرخ خطا برای هر کلاسیفایر ما میانگین نرخ خطا را در کلیه زیر نمونه ها در طی رویه اعتبار سنجی متقابل محاسبه می نماییم. شکل 9، به هنگامی که   صادق است، نشان دهنده میانگین نرخ خطا برای کلیه کلاسیفایرها می باشد.
7- مباحث
این مطالعه دقت پیش بینانه چندین کلاسیفایر جهت پیش بینی ایمیل های فیشینگ را مورد مقایسه قرار می دهد. یک مجموعه اطلاعاتی متشکل از 2889 ایمیل فیشینگ و مشروع یا مجاز در این رابطه مورد بررسی قرار می گیرد. این آزمایشات معرف آن هستند که RF دارای پایین ترین WETT 72/07% می باشد، آن هم به هنگامی که ایمیل های مشروع و فیشینگ به صورت مساوی وزن دار می شوند ()، و متعاقب آن CART با 13/08%، LR با 58/08%، BART با 69/09%، SVM با 90/09% و نهایتاً NNet 73/10% جای می گیرند (شکل 9).
8- نتیجه گیری و تحقیقات آتی
در مطالعه جاری ما دقت پیش بینانه شش کلاسیفایر بر روی یک مجموعه اطلاعاتی فیشینگ را مورد بررسی قرار می دهیم. این کلاسیفایرها شامل رگرسیون لجستیک (LR)، درختان دسته بندی و رگرسیون (CART)، درختان رگرسیون افزایشی بیزی (BART)، ماشین بردار حامی (SVM)، جنگل های تصادفی (RF)، و شبکه های عصبی (NNet) می باشند. ما از 1171 مورد ایمیل فیشینگ خام و 1718 مورد ایمیل مشروع / مجاز استفاده نموده و مجموعه بانک اطلاعاتی خود را ایجاد نمودیم که در آن 43 ویژگی مورد آموزش و تست قرار گرفته تا قابلیت پیش بینی ایمیل های فیشینگ به وجود آید. در طی آموزش و تست ما از رویه اعتبار سنجی متقابل 10 تایی استفاده نموده و میانگین ارزیابی های کلیه این 10 مورد (نمونه های فرعی) جهت برآورد میانگین نرخ خطا برای کلیه کلاسیفایرها را بدست آوردیم.
نتایج معرف آن هستند که به هنگامی که ایمیل های مشروع و فیشینگ به صورت برابر وزن دار گردند، RF دارای عملکرد بهتری در مقایسه با کلیه دیگر کلاسیفایرها، با یک نرخ خطای 72/07% می باشد، متعاقب آن CART، LR، BART، SVM و NNet به ترتیب قرار می گیرند. NNet دارای بدترین نرخ خطای 73/10% می باشد. با وجود آن که RF دارای عملکرد بهتری در مقایسه با کلیه کلاسیفایرها می باشد، این سیستم بدترین نرخ مثبت کاذب 29/08 RF را حاصل آورده است. LR دارای حداقل نرخ مثبت کاذب 89/4% می باشد. به هنگام بکارگیری برآورد های حساس در برابر هزینه، همانند جریمه نمودن مثبت های کاذب به میزان 9 برابر منفی های کاذب، LR از عملکرد بهتری در مقایسه با کلیه کلاسیفایرها برخوردار بوده و حاصل آورنده حداقل نرخ خطای وزن دار 82/03% می باشد، و پس از آن به ترتیب BART، NNet، CART، SVM و RF قرار می گیرند. با این حال، RF دارای بدترین نرخ خطای وزن دار 78/05% خواهد بود، آن هم به هنگامی که  صادق باشد. به علاوه، ما نسبت به مقایسه مساحت زیر منحنی راک (AUC) برای کلیه کلاسیفایرها اقدام نمودیم. NNet دارای بالاترین AUC به میزان 9448/0 می باشد و پس از آن به ترتیب RF، SVM، LR، BART و CART قرار می گیرند. به علاوه، ما منفی کاذب، دقت، فراخوانی و نرخ f-1  را برای کلیه کلاسیفایرها مقایسه نمودیم.
ما این بحث را مطرح نمودیم که نرخ خطا به تنهایی (همانند جریمه نمودن ایمیل های فیشینگ و مشروع به صورت مساوی) قابلیت فراهم آوردن بینش لازم در ارتباط با مثبت های کاذب را نخواهد داشت. به علاوه، با بکارگیری AUC به عنوان یک برآورد صرف قابلیت بررسی مکفی دقت پیش بینانه یک کلاسیفایر وجود نخواهد داشت. بر این مبنا ما کاربرد برآورد های حساس به هزینه جهت فراهم ساختن نتایج آشکار بیشتر در خصوص دقت پیش بینانه کلاسیفایرها را پیشنهاد نمودیم.
نتایج حاصله را می توان به عنوان انگیزه ای جهت تحقیقات آتی  مد نظر قرار داد تا بدینوسیله قابلیت بررسی مشمولیت متغیر های اضافه در مجموعه های اطلاعاتی، که قابلیت ارتقای دقت پیش بینانه کلاسیفایرها را دارند، فراهم شود. به طور مثال، تحلیل سر آیند های ایمیل به نظر قابلیت ارتقای ظرفیت پیش بینی و کاهش نرخ دسته بندی نادرست کلاسیفایرها را خواهد داشت {24}. به علاوه، ما اضافه نمودن ویژگی های بکار گرفته شده در مراجع {7} و {13} به مجموعه اطلاعاتی خود را مد نظر قرار داده و تاثیرات آنها بر روی عملکرد کلاسیفایرها را مورد بررسی قرار خواهیم داد. به علاوه، ما مکانیزم توسعه و اتوماسیون سازی ویژگی های مربوطه، جهت حاصل آوردن ویژگی های جدید از ایمیل های فیشینگ خام به منظور تعامل با خط مشی های جدید در حملات فیشینگ، را مورد مطالعه و بررسی قرار خواهیم داد.

مقایسه تکنیک فراگیری ماشینی برای تشخیص فیشینگ

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

لطفا به جای کپی مقالات با خرید آنها به قیمتی بسیار متناسب مشخص شده ما را در ارانه هر چه بیشتر مقالات و مضامین ترجمه شده علمی و بهبود محتویات سایت ایران ترجمه یاری دهید.
تماس با ما

اکنون آفلاین هستیم، اما امکان ارسال ایمیل وجود دارد.

به سیستم پشتیبانی سایت ایران ترجمه خوش آمدید.