Using Machine Learning Models To Classify URL Phishing With Recursive Feature Elimination

عبدالهادي البصير, مروة2023-01-082023-01-082022-01-08https://repository.sebhau.edu.ly/handle/1/2807مع التطور السريع في الإنترنت، ازداد خطر إيقاف المهاجمين مثل مجرمي الإنترنت أو القراصنة أو البرامج الضارة من البيانات الحساسة مثل كلمات المرور وتسجيلات الدخول ومعلومات بطاقة الائتمان الحساسة؛ هذا بسبب الكم الهائل من المعاملات التي تتم عبر الأنترنت يوميا. الهدف هذه الدراسة هو الكشف عن مواقع التصيد الاحتيالي استنادا على عناوين الـ URL مع تقنية RFE على ثمانية خوارزميات: شجرة القرار، الجار الأقرب، خوارزميات المتجهات، غابة الأشجار، والانحدار اللوجستي. استخدمنا مجموعتي بيانات. من خلال النتائج سجلت خوارزمية الأشجار أعلى دقة في المجموعتين، 96.7% و 96.6% على التوالي. قمنا ايضا بإستخدام تقنية الRFE والتي تقوم بإزالة الميزات الغير مهمة. في التجربة الأولى، لم نحدد عدد الميزات التي يتم اختيارها من قبل ال RFE، لذلك تم اختيار 50% تلقائيا. حددنا ايضا عدد البيانات التي يتم اختيارها من قبل ال RFE بنسبة 25% و 10% . في مجموعة البيانات الأولى انخفض أداء معظم المصنفات من 1-2%، ولكن في مجموعة البيانات الثانية أظهرت النتائج أن عندما يتم تحديد 25% فقط من الميزات، يزداد أداء مصنفين. آخر تجربة قمنا بتحديد فقط 10% من الميزات، تمتعت المجموعة الأولى بأداء أفضل من المجموعة الثانية. حددنا أيضا الميزات الأساسية التي تظهر في المجموعة الأولى والمجموعة الثانية والتي من خلالها نستطيع أن نقول بأنها الميزات الأساسية في تحديد إن كان الموقع احتيال ام لا.مع التطور السريع في الإنترنت، ازداد خطر إيقاف المهاجمين مثل مجرمي الإنترنت أو القراصنة أو البرامج الضارة من البيانات الحساسة مثل كلمات المرور وتسجيلات الدخول ومعلومات بطاقة الائتمان الحساسة؛ هذا بسبب الكم الهائل من المعاملات التي تتم عبر الأنترنت يوميا. الهدف هذه الدراسة هو الكشف عن مواقع التصيد الاحتيالي استنادا على عناوين الـ URL مع تقنية RFE على ثمانية خوارزميات: شجرة القرار، الجار الأقرب، خوارزميات المتجهات، غابة الأشجار، والانحدار اللوجستي. استخدمنا مجموعتي بيانات. من خلال النتائج سجلت خوارزمية الأشجار أعلى دقة في المجموعتين، 96.7% و 96.6% على التوالي. قمنا ايضا بإستخدام تقنية الRFE والتي تقوم بإزالة الميزات الغير مهمة. في التجربة الأولى، لم نحدد عدد الميزات التي يتم اختيارها من قبل ال RFE، لذلك تم اختيار 50% تلقائيا. حددنا ايضا عدد البيانات التي يتم اختيارها من قبل ال RFE بنسبة 25% و 10% . في مجموعة البيانات الأولى انخفض أداء معظم المصنفات من 1-2%، ولكن في مجموعة البيانات الثانية أظهرت النتائج أن عندما يتم تحديد 25% فقط من الميزات، يزداد أداء مصنفين. آخر تجربة قمنا بتحديد فقط 10% من الميزات، تمتعت المجموعة الأولى بأداء أفضل من المجموعة الثانية. حددنا أيضا الميزات الأساسية التي تظهر في المجموعة الأولى والمجموعة الثانية والتي من خلالها نستطيع أن نقول بأنها الميزات الأساسية في تحديد إن كان الموقع احتيال ام لا.Using Machine Learning Models To Classify URL Phishing With Recursive Feature Elimination