LLM 기반 인공지능 판정자의 평가구조 분석: Feasibility-Viability 기반 스타트업 사업계획서의 정량적 심사 가능성
Evaluation Structure of an LLM-Based AI Judge: Quantitative Assessment of Startup Business Plans Using the Feasibility-Viability Framework
박범서(국민대학교)
21권 1호, 1~18쪽
초록
본 연구는 기술기반 혁신기업의 사업계획서 평가과정에 대규모 언어모델(LLM, Large Language Model)을 적용하여, 인공지능 판정자 모형의 작동 방식과 평가적 유의성을 탐색적으로 검증한 실증 연구이다. 기술창업 지원 프로그램 TIPS의 실제 사업계획서를 대상으로, 기술 요인(3문항)과 비즈니스 요인(3문항)을 자동 판독·정량화하는 LLM 평가자를 제안하고 적용하였다. 사업계획서는 서술·표·이미지 등으로 구성된 비정형 문서이므로, 이를 LLM이 이해 가능한 평가 단위로 변환하는 정형화(structuring) 절차를 핵심 단계로 포함하였다. Few-shot prompting을 적용해 LLM이 평가 기준을 내재화하도록 하였으며, 인간 심사자의 판단 형식을 모사한 비지도형(in-context) 평가를 수행하였다. 평가는 2단계로 진행되었다. 1단계에서는 문항별 동등 가중으로 기본 예측력을 분석하였고, 2단계에서는 예측 기여도에 따라 가중치를 재산정한 평가 결과를 비교하였다. LLM 점수와 TIPS 선정 결과를 비교한 분석 결과, 로지스틱 회귀 모델에서 1단계 대비 2단계의 ROC-AUC는 0.6889→0.7833로 상승하였고, Brier score는 0.1361→0.1302으로 감소, PR-AUC는 0.8932→0.9446으로 나타나, 불균형 표본 조건에서도 판별 정보가 확인되었다. 이러한 결과는 LLM 기반 평가자가 Feasibility-Viability 프레임에 따라 기술성과 사업성을 구조적으로 판별하며, 요인별 가중치 조정이 평가 결과의 정합성을 강화하는 방향으로 작동할 수 있음을 시사한다. 특히 문항별 가중치 분석은 LLM 평가가 인간 심사자의 판단 구조와 통계적으로 정렬될 수 있는 가능성을 보여주며, 인공지능 판정자의 보조 심사자(co-judge)로서의 활용 가능성을 실증적으로 제시한다. 결론적으로 본 연구는 비정형 사업계획서를 구조화하여 few-shot 기반 LLM 평가모형을 적용한 초기 실증 사례로서, AI 평가자의 신뢰성·평가 일관성에 대한 학문적 논의와 기술창업 평가체계에서 문서 기반 심사 과정을 보조·정교화할 수 있는 정책적 함의를 제시한다.
Abstract
This study presents an empirical and exploratory investigation of an AI-based judge model applying a Large Language Model (LLM) to the evaluation of business plans for technology-based innovative firms. Using actual business proposals submitted to TIPS, we apply an LLM-based evaluator that scores six assessment items, consisting of three technological feasibility factors and three business viability factors. Because business plans are inherently unstructured documents composed of narratives, tables, and images, a core structuring process was introduced to transform proposal contents into evaluation units interpretable by the LLM. Few-shot prompting was employed to anchor evaluation criteria, and an in-context (unsupervised) assessment was conducted to emulate the judgment format used by human reviewers. The evaluation was conducted in two stages. In Stage 1, baseline predictive performance was examined using equal weights across items. In Stage 2, evaluation scores were recalculated using contribution-based weights derived from item-level associations with selection outcomes. When compared with TIPS results, predictive performance improved from Stage 1 to Stage 2, with the ROC-AUC increasing from 0.6889 to 0.7833, the Brier score decreasing from 0.1361 to 0.1302, and the PR-AUC improving from 0.8932 to 0.9446, indicating enhanced discrimination under class imbalance. These findings suggest that an LLM-based evaluator can differentiate technological feasibility and business viability in a document-based evaluation setting, and that contribution-based weighting improves alignment with observed decision outcomes. As an initial applied study, this research provides empirical support for using LLMs as complementary co-judges to enhance consistency and reliability in startup evaluation systems.
- 발행기관:
- 한국벤처창업학회
- 분류:
- 창업/벤처기업