기계학습 방법에 기반 한 불균형 침입탐지 데이터 분류법의 성능평가에 관한 연구
A Study on the Performance Evaluation of Unbalanced Intrusion Detection Dataset Classification based on Machine Learning
서재현(원광대학교)
27권 5호, 466~474쪽
초록
본 논문에서는 침입탐지 데이터셋을 사용하여 이상 행위를 탐지하고 데이터 전처리 과정의 효율성을 높이기 위해 훈련데이터의 클래스 비율을 조절한다. 제안 방법의 성능을 입증하기 위해 머신러닝 알고리즘들을 사용하여 비교 실험을 한다. 일반적으로 머신러닝을 기반으로 한 분류 알고리즘을 적용할 때 클래스의 크기는 분류에 많은 영향을 끼친다. 주요 클래스크기가 희소 클래스에 비해 많이 큰 경우에는 주요 클래스로만 분류되는 경향이 있다. 희소 클래스의 비율이 최소 0.5% 이상되도록 유지하고, 희소 클래스의 분류 효율을 높일 수 있는 적절한 비율을 찾고자 한다. 기존 데이터에 랜덤성을 부여하여희소 클래스들의 수를 증가시키는 SMOTE (Synthetic Miniority Over-sampling TEchnique) 기법을 사용한다. 실험에 사용한KDD CUP 1999 데이터셋은 R2L과 U2R 공격 유형에 해당하는 클래스의 수가 매우 적어서 높은 분류 효율을 내기 어려운 점이있다. 본 연구에서는 여러 클래스들 간의 관계 및 분포를 분석한 후, 주요 클래스와 희소 클래스의 비중을 조절하는 방법을사용하여 분류 효율을 개선하였다. 특히, 희소 클래스의 탐지 여부에 높은 비중을 두면서 전체적인 분류 성능을 개선하고자하였다. 훈련 데이터셋의 희소 클래스인 U2R, R2L 및 Probe를 각각 120배, 9배, 1.5배 증가시킨 recall 실험 결과에서, k-NN 실험에 대해 U2R 클래스의 경우 0.11, R2L 클래스의 경우 0.02의 성능 향상을 보였다. SVM 실험에서 U2R 클래스의 경우 0.02, R2L 클래스의 경우 0.08의 성능 향상을 보였으며, 의사결정트리 실험에서는 U2R 클래스의 경우에 0.25의성 능 향상을 보였다.
Abstract
In this paper, we adjusted the class distribution of train data to increase efficiency in data pre-processing and detect anomalies in an intrusion detection dataset. We conduct an experiment with machine learning algorithms to prove the efficiency of our proposed methods. In general, when using machine learning algorithms, volume of class influences on the results of classification. When the volume of majority classes is larger than that of minority classes, most of samples tend to vote the majority class. We hold the proportion of each rare class to be 0.5% at least, and try to find the proper proportion of rare classes. SMOTE (Synthetic Minority Over-sampling TEchnique) was used to increase the number of instances of rare class. It is difficult to improve the efficiency of classification because KDD CUP 1999 dataset, which are used to our tests, have rare classes such as R2L and U2R. In our research, we analyze various classes and enhance the efficiency of clasfsiciation by adjusting the volume of rare classes. We attempt tiomprove the performance of classification focusing on the rare classes such as U2R, R2L and Probe. The number of instances of U2R, R2L and Probe class in the train data was increased by 12-fold, 9-fol da,nd 1.5 fold, respectively. Recall metrics okf -NN tests went up to 0.11 in U2R class and 0.02 in R2L class. Recall metrics of SVM tests went up to 0.02 in U2R class and 0.08 in R2L class, and those of decision tree tests went up to 0.25.
- 발행기관:
- 한국지능시스템학회
- 분류:
- 전기공학