합성 패널 데이터를 활용한 소비 기반 중소기업 신용위험 예측
Consumption-Based SME Credit Risk Prediction Using Synthetic Panel Data
임창민(성균관대학교); 임병화(성균관대학교)
43권 1호, 17~54쪽
초록
본 연구는 2018년부터 2022년까지 국내 A은행의 중소기업 대출 정보와 기업카드 결제정보를 활용하여, 419,663개 중소기업의 소비․재무 데이터, 그리고 거시경제 변수를 기반으로 채무불이행을 예측하였다. 소비 데이터의 시계열 특성을 반영하고 심각한 클래스 불균형 문제를 완화하기 위해 CT-GAN을 통해 기업-시점 단위의 패널 구조를 생성하고, 시계열 특화 GAN(Generative Adversarial Network)인 TIME-GAN과 Quant-GAN을 활용하여 시계열 소비 데이터를 합성하는 하이브리드 패널데이터 생성 방법을 제안하였다. 머신러닝 기법을 이용한 채무불이행 예측 분석 결과, 합성 데이터를 학습에 활용할 경우 예측 성능이 전반적으로 유의미하게 향상되는 것으로 나타났으며, 특히 재무, 소비, 거시경제 변수를 통합한 패널 합성 데이터를 멀티모달(multimodal) 모형으로 분석했을 때 가장 우수한 성능을 보였다. 이는 데이터 증강과 멀티모달 접근법이 중소기업 신용평가의 예측력을 제고하고 금융기관의 리스크 관리 고도화에 기여할 수 있음을 시사한다.
Abstract
This study predicts small and medium-sized enterprise (SME) default risk using firm-level consumption, financial, and macroeconomic data from a major domestic bank in Korea over the period 2018-2022, covering 419,663 SMEs. To capture the time-series characteristics of consumption data and to mitigate severe class imbalance, we propose a hybrid synthetic panel data generation framework that constructs firm-time panel structures using Conditional Tabular GAN (CT-GAN) and synthesizes consumption time-series data using time-series-specific generative adversarial networks (GANs), namely TIME-GAN and Quant-GAN. Using machine learning-based default prediction models, we find that incorporating synthetic data into model training leads to significant improvements in predictive performance. In particular, the best performance is achieved when synthetic panel data integrating financial, consumption, and macroeconomic variables are analyzed within a multimodal learning framework. These results suggest that data augmentation through synthetic panel data generation and multimodal modeling can substantially enhance the accuracy of SME credit risk assessment and contribute to the advancement of risk management practices in financial institutions.
- 발행기관:
- 한국재무관리학회
- 분류:
- 경영학