BERT를 활용한 멀티모달 기반 기업 부도 예측에 관한 연구
BERT-based Multimodal Approaches to Corporate Default Prediction
윤태선(성균관대학교); 임병화(성균관대학교)
24권 4호, 1~24쪽
초록
본 연구는 미국 상장기업의 MD&A(Management’s Discussion and Analysis) 데이터를 활용하여 기업의 부도 예측 연구를 하였다. 1993년부터 2023년까지의 분기데이터를 이용하여 데이터 표본을 구축하였고, 텍스트 임베딩에는 문맥을 이해하는 언어모델인 BERT(Bidirectional Encoder Representations from Transformers) 모델을 활용하였다. 부도 예측 모델로는 LSTM, GRU, Transformer, TCN 등 시계열 기반 딥러닝 모델을 활용하였으며, 부도 표본의 희소성을 완화하기 위해 Focal loss를 손실 함수로 도입하였다. 분석 결과, MD&A 데이터만으로도 일정 수준의 부도 예측 성능을 확보할 수 있음을 보였다. 그리고 BERT-base 모델에 비해 FinBERT 임베딩이 전반적으로 우월했으며, Focal loss 적용 시 불균형 환경에서 AUC와 재현율이 유의하게 개선되었다. 또한, 재무 데이터와의 멀티모달 모델을 통해 글로벌 금융위기 및 COVID19 전후의 시기별, 그리고 기업 규모별 분석을 통해 MD&A 데이터의 대안 데이터의 활용이 기존의 금융 데이터 기반의 기업의 부도 예측 모델에 비해 안정적인 학습 안정성을 확보하고 성능 개선에 효과적임을 확인하였다. 이러한 결과는 금융 데이터에 텍스트 기반의 정성 정보를 결합하는 멀티모달 모델과 불균형 학습을 위한 손실함수 선택이 기업 부도예측의 실무적 정밀도와 안정성을 동시에 제고할 수 있음을 의미한다.
Abstract
This study investigates corporate default prediction using the Management’s Discussion and Analysis (MD&A) sections of U.S. publicly listed firms. We construct a dataset covering the 1993-2023 period and employ BERT (Bidirectional Encoder Representations from Transformers) models for text embedding, combined with time-series architectures such as LSTM, GRU, Transformer, and TCN to build default prediction models. To address the scarcity of default observations, Focal loss is introduced as the loss function. Our results show that MD&A text alone provides a meaningful level of predictive power for default risk. Moreover, FinBERT embeddings consistently outperform the baseline BERT model, and the application of Focal loss significantly improves AUC and recall under imbalanced conditions. In addition, multimodal models that integrate textual and financial data demonstrate enhanced predictive performance and robustness, particularly in subperiod analyses around the Global Financial Crisis and the COVID-19 pandemic, as well as across different firm sizes. These findings suggest that incorporating qualitative, text-based information from into financial data through multimodal learning, together with tailored loss functions for imbalanced classification, can substantially improve both the precision and stability of corporate default prediction models in practice.
- 발행기관:
- 한국금융공학회
- 분류:
- 경영학