텍스트 감성분석과 해석가능한 기계학습 기반의 포렌식 기법을 활용한 회계부정탐지 : 내부회계관리제도를 중심으로
Accounting Fraud Detection Using Forensic Techniques Based on Sentiment Analysis and Interpretable Machine Learning : Focused on Internal Control over Financial Reporting
정우준(홍익대학교); 윤재원(홍익대학교); 김경호(홍익대학교)
46권 6호, 181~218쪽
초록
본 연구는 기계학습을 기반으로 회계부정탐지모형을 개발하는 데 있어 내부회계관리제도 운영보고서의 텍스트 감성지수가 추가적 예측기여도를 갖는지 탐색적으로 검증한 후 개발된 모형의 해석을 시도하였다. 회계부정의 대용변수로는 금융감독원의 감리지적사례를 사용하였고, 기계학습에 사용될 데이터는 재무비율과 내부회계관리제도 변수 등 총 183개 의 포괄적 입력변수로 구성한 데이터세트(Non-SA Set)와 구글의 자연어처리 API를 이용한 감성지수를 추가한 데이터세트(SA Set)로 구성하였다. 2개의 데이터세트에 4가지 모형을 학습시켜 총 8개의 예측모형을 개발한 결과는 다음과 같다. 첫째, SA Set에서는 로지스틱 모형 기반의 예측모형(LGST-SA)이 가장 높은 예측성과를 보였다. 둘째, Non-SA Set에서는 랜덤포레스트 모형 기반의 예측모형(RF-NSA)이 가장 높은 예측성과를 보였다. 셋째, LGST-SA의 예측성과는 RF-NSA보다 유의하게 높은 것으로 나타나, 감성지수의 예측기여도를 검증하였다. 추가적으로 해석가능한 기계학습 방법 중 하나인 SHAP을 통해 감성지수가 회계부정과 양(+)의 관계를 가지는 것을 사례적으로 확인하였다. 본 연구는 회계부정탐지모형의 개발에 있어 내부회계관리제도 운영보고서 감성분석의 유용성을 검증한 최초의 논문이며, 기계학습의 한계를 극복하기 위한 방안을 제시하였다는 점에서 의의가 있다.
Abstract
This study tried to verify exploratorily whether the sentiment index of operation report of Internal Control over Financial Reporting (ICFR) has an additional contribution for developing accounting fraud detection models based on machine learning and to interpret the results. The sanction cases of Financial Supervisory Service (FSS) was used as a proxy for accounting fraud. Non-SA Set consists of comprehensive input variables, such as financial ratio and ICFR related variables (183) and SA Set is addition of the sentiment index of operation report of ICFR using Google's natural language process (NLP) API to Non-SA Set. The results of developing a total of 8 models by training 4 models on 2 each data sets are as follows. First, the logistic model based prediction model (LGST-SA) showed the highest predictive performance on SA Set. Second, the random forest model based prediction model (RF-NSA) showed the highest predictive performance on Non-SA Set. Third, the predictive performance of LGST-SA was significantly higher than that of RF-NSA, so the predictive contribution of the sentiment index was verified. Additionally, through SHAP, one of the interpretable machine learning (IML) methods, it was anecdotally confirmed that the sentiment index had a positive relationship on accounting fraud. This study has importance in that the first paper to verify the usefulness of the sentiment analysis of operation report of ICFR for developing an accounting fraud detection model and to suggest a way to overcome the limitations of the machine learning.
- 발행기관:
- 한국회계학회
- 분류:
- 회계학