창업기업 생존 예측을 위한 인공지능 모델의 변수 체계 검증 : 창업실태조사 기반 시뮬레이션 분석
A Simulation-Based Validation of Variable Frameworks for AI Models Predicting Startup Survival Using Startup Survey Data
이경현(한국공학대학교 IT반도체융합공학과); 백락준(CANKO Society for AI and Social Value); 이현미(가톨릭관동대학교); 장혜정(서경대학교)
11권 5호, 405~421쪽
초록
본 연구는 창업기업의 생존 여부를 예측하기 위한 인공지능 모델을 개발하고, 창업실태조사 기반 변수 체계의 타당성을 시뮬레이션 분석을 통해 검증하였다. 창업자 특성, 기업 일반 특성, 창업 실행, 경영성과, 기술혁신 등 5개 영역에서 총 50개 변수를 설계하고, 조건부 확률 및 통계 규칙에 기반한 시뮬레이션 데이터를 2,000개 생성하였다. 예측 모델로는 XGBoost와 Random Forest를 적용하였으며, 데이터 불균형 해소를 위해 SMOTE, 성능 향상을 위해 RandomizedSearchCV를 활용하였다. 그 결과, Random Forest 모델이 AUC 0.704, Recall 0.897, F1 Score 0.733으로 가장 우수한 성능을 보였다. 변수 중요도 분석에서는 기술개발 수행 여부, 자금 조달 방식, 고용 규모, 학력 수준, 직전 직업군 등이 공통적으로 높은 예측 기여도를 나타냈다. 본 연구는 실제 마이크로데이터 없이도 변수 체계의 예측력을 검증할 수 있는 시뮬레이션 기반 접근법의 실용성을 입증하였으며, 창업정책 설계 및 조기경보 시스템 개발을 위한 기초 자료로 활용될 수 있다.
Abstract
This study aims to develop an artificial intelligence model for predicting the survival of startup companies and to validate the variable framework derived from the national Startup Survey through simulation-based analysis. A total of 50 variables were constructed across five domains—founder characteristics, general business features, entrepreneurial execution, managerial performance, and technological innovation. Using conditional probability-based statistical rules, a synthetic dataset of 2,000 startup cases was generated. XGBoost and Random Forest algorithms were employed as prediction models, with Synthetic Minority Over-sampling Technique (SMOTE) applied to address data imbalance, and RandomizedSearchCV used for hyperparameter optimization. As a result, the Random Forest model achieved the best performance, with an AUC of 0.704, Recall of 0.897, and F1 Score of 0.733. Feature importance analysis revealed that variables such as technology development, funding type, employment size, education level, and previous occupation had consistently high predictive power. The findings demonstrate the practical utility of a simulation-based approach to validate variable frameworks in the absence of microdata, and offer a methodological basis for policy design and early warning systems in startup support and risk management.
- 발행기관:
- 국제문화기술진흥원
- 분류:
- 기타과학기술학