클래스 불균형 문제가 있는 특허분류 데이터의 자동분류 성능 개선을 위한 모델 재귀적 오버샘플링 방법
Recursive Oversampling Method for Improving Classification Performance of Class Unbalanced Data in Patent Document Automatic Classification
김성훈(한성대학교 스마트융합컨설팅); 김승천(한성대학교)
58권 4호, 43~49쪽
초록
클래스 불균형이란 정의된 클래스 간 샘플 개수의 차이가 매우 커서 샘플의 대부분을 샘플의 수가 적은 소수 클래스(minority class) 보다 샘플의 수가 많은 다수 클래스(majority class)로 예측하게 되는 경우를 말한다. 본 논문에서는 클래스 불균형 상태의 특허데이터로 부터 생성된 분류기의 문제점을 해결하기 위하여 모델 재귀적 오버샘플링이라는 기법을 제안한다. 클래스 불균형인 데이터로 훈련시킨 분류기 생성 후, 특허문서를 기반으로 랜덤 데이터를 생성하고 생성된 랜덤데이터를 앞서 정의된 분류기로 분류한다. 분류기에 의해 예측된 랜덤 데이터 중 소수 클래스로 예측된 데이터를 샘플링 하는 방식이 모델 재귀적 오버샘플링 기법이다. 모델 재귀적 오버샘플링을 통해 만들어진 분류기를 최초 분류기와 비교했을 때 소수 클래스의 precision, recall, f-score가 증가하였다. 특히 SMOTE 오버샘플링 기법을 이용한 분류기와 비교했을 때도 소수 클래스의 정확도가 증가함을 확인하였다.
Abstract
Class imbalance refers to a case in which the difference in the number of samples between the defined classes is very large, so that most of the samples are predicted as a majority class with a larger number of samples than a minority class with a small number of samples. In this study, we propose a technique called recursive oversampling to solve the problem of classifiers generated from patent data in class imbalance. After generating a classifier trained with class imbalanced data, random data is generated based on the patent document, and the generated random data is classified with the previously defined classifier. The recursive oversampling is a method of sampling data predicted by a minority class among random data predicted by a classifier. When comparing the classifier made through recursive oversampling with the original classifier, the precision, recall, and f-score of the minority class were increased. In particular, it was confirmed that the accuracy of the minority class increased even when compared to the classifier using the SMOTE oversampling technique.
- 발행기관:
- 대한전자공학회
- 분류:
- 전자/정보통신공학