인공지능방법을 활용하여 기업부도예측에 관한 연구
A Study on Predicting Corporate Bankruptcy using Artificial Intelligence Methods
장민(중부대학교); 신연수(중부대학교)
26권 9호, 247~252쪽
초록
본 연구는 중국 A주 상장 건설기업의 뉴스 데이터를 활용하여, TF-IDF(Term Frequency-Inverse Document Frequency) 기법을 통해 주요 특성을 추출하고, 로지스틱 회귀, 랜덤 포레스트, XGBoost(eXtreme Gradient Boosting) 머신러닝 모델을 적용하여 기업의 부도를 예측하였다. 모델의 성능은 정확도, AUC(Area Under Curve), 정밀도 등의 지표를 통해 평가되었으며, 그 결과 XGBoost 모델이 평가 지표에서 로지스틱 회귀와 랜덤 포레스트 모델보다 우수한 성능을 보였다. 본 연구의 혁신성은 기존의 재무 지표가 아닌 뉴스 데이터를 활용하여 기업 부도를 예측하였다는 점이며, 텍스트 분석과 머신러닝을 결합한 새로운 접근 방식을 통해 기업 리스크 평가에 대한 새로운 관점을 제시하고 있다. 또한, 본 연구는 비정형 텍스트 데이터를 정량화하여 예측 모델에 성공적으로 통합한 사례로서의 의의도 지닌다. 분류 성능 외에도 변수 중요도 분석을 통해 각 특성의 영향력을 해석할 수 있어 실무적 활용 가능성도 높다. 향후 연구에서는 보다 다양한 데이터 출처를 활용하고, 고급 자연어 처리 기법을 통합하여 예측 정확도를 더 개선할 수 있을 것이다.
Abstract
This study utilizes news data of Class-A-share construction companies listed in China, employing TF-IDF to extract key features and then applying logistic regression, random forest, and XGBoost machine learning models to predict corporate bankruptcy. The models were evaluated in terms of accuracy, AUC, and precision. The results indicate that XGBoost outperformed both the logistic regression and the random forest models across all evaluation metrics. The innovation of this study lies in using news data instead of traditional financial indicators for corporate bankruptcy prediction, exploring a novel approach that integrates text analysis with machine learning, providing a new perspective for corporate risk assessment. This study also holds significance from quantifying unstructured textual data and integrating them into predictive models. In addition to classification performance, variable importance analysis enables interpretation of the influence of a feature, enhancing its practical applicability. Future research could incorporate diverse data sources and could integrate advanced natural language processing techniques to further enhance predictive accuracy.
- 발행기관:
- 한국산학기술학회
- 분류:
- 공학일반