기업부실 예측모형의 성과개선을 위한 기하평균 최적화 기반의 부스팅 학습
Geometric Mean Optimization-based Boosting for Bankruptcy Prediction
김명종; 조성임; 유경민
32권 4호, 346~358쪽
초록
범주 불균형 문제는 분류 모형의 예측성과에 부정적인 영향을 미치는 문제로 이를 해결하기위한 다양한 접근 방법이 제안되어 왔다. 본 연구는 기업부실 예측문제에서 범주 불균형 문제에 적용된 AdaBoost 앙상블의 성과를 개선하기 위한 기하평균 최적화 기반의 부스팅 알고리즘인 GMOPTBoost를 제안한다. GMOPTBoost는 가우시안 경사하강법을 적용하여 기저 분류기에 할당된 최적의 가중치 집합을 탐색하여 예측 모형의 성과를 최적화한다. 범주불균형이 AdaBoost 앙상블 학습의 예측성과에 미치는 효과와 GMOPTBoost의 성과 개선효과를 검증하기 위하여 불균형 비율이 상이한 4개의 표본 군을 구성하여 10-fold 교차타당성 검증을 3회 수행한 결과는 다음과 같다. 첫째, 범주 불균형 문제는 예측성과에 부정적인영향을 미친다. 불균형 비율이 증가할수록 모형의 예측 성과가 감소한다. 둘째, GMOPTBoost는 불균형 데이터에 적용된 AdaBoost의 성과를 1% 유의수준에서 개선시키는 긍정적인 효과를 제공한다. 셋째, AdaBoost의 성과와 비교하여 GMOPTBoost는 보다 안정적인 예측 성과를 보여주었다
Abstract
The class imbalance problem is one of data quality issues that affect theperformance of classification models. This problem has drawn the attention ofresearchers and many approaches have been developed to address this issue. Thispaper proposed GMOPTBoost(Geometric Mean Optimization-based boostingalgorithm) to improve the performance of AdaBoost ensembles applied to solve theclass imbalance problem in bankruptcy prediction. GMOPTBoost derived the bestprediction by applying Gaussian gradient descent method to find the set of weightsassigned to base classifiers to optimize GM. The original dataset was collected fromKorean commercial bank. The original dataset was split into four datasets withdifferent IR values to determine whether GMOPTBoost contribute to theperformance improvement of AdaBoost ensembles. Three times of 10-fold crossvalidations are performed on each of imbalanced datasets. The performance of allclassification models were evaluated in terms of accuracy, GM, AUC. The mainfindings are as follows. First, the class imbalance problem has a negative effect onthe performance. As IR values increase, the performances of AdaBoost andGMOPTBoost ensembles decrease. Second, GMOPTBoost makes a significantcontribution to performance improvements of AdaBoost ensembles trained onimbalanced datasets at 1% significance level. Finally, GMOPTBoost ensemblesprovide more stable classification performance than AdaBoost ensembles.
- 발행기관:
- 한국지능시스템학회
- 분류:
- 전기공학