딥 러닝 기법을 이용한 오피니언 마이닝 분석과 성과에 관한 실증연구: 합성곱 신경망 모델과 머신러닝 모델간 성과비교를 중심으로
Exploring the Performance of Deep Learning-driven Opinion Mining Analyses: Emphasis on Comparing Convolutional Neural Network Model and Machine Learning Classifiers
이건창(성균관대학교); 어균선(성균관대학교)
6권 2호, 37~78쪽
초록
본 연구는 딥 러닝 기법인 합성곱 신경망 (CNN: Convolutional Neural Network)을 이용하여 금융자료에 관한 사용자의 오피니언을 추정하는 오피니언 마이닝 (Opinion mining) 방법과 그 결과를 설명한다. 본 연구에서는 다음과 같이 합성곱 신경망의 효과성을 검증하였다. 첫째, 스터디1은 주식관련 온라인 리뷰 데이터를 분석하였다. 즉, 형태소 분석단계를 거쳐 속성벡터를 만들어 리뷰 문장의 감성점수를 산출하였다. 해당 문장의 감성점수에 따라 오피니언을 3-클라스, 5-클라스 문제로 구분하여 실증분석을 하였다. 둘째, 스터디2에서는 청와대 국민청원에 게시된 금융관련 국민청원 텍스트 문장을 분석하여 청원인원을 추정하였다. 청원게시판에 등재된 청원 인원을 분위 수에 따라 분류하여 2-클라스 문제 (50%이상, 50% 미만) 4-클라스 문제 (75%이상, 50%이상, 25%이상, 25%미만)로 분류하였다. 스터디1, 2의 실증분석결과 정확도, 정밀도, 재현율, F1 점수 등 모든 성과지표에서 벤치마킹용 분류기와 비교할 때 합성곱 신경망이 더 우수한 성과를 보였다. 따라서, 합성곱 신경망을 이용함으로써 금융감독 관련 정책 및 활동을 효과적으로 수행할 수 있음을 실증적으로 확인하였다.
Abstract
This study proposes a deep learning approach called CNN (convolutional neural network) to investigate opinion mining analysis with financial information dataset. For the sake of conducting required analysis, this study collected two types of financial information dataset-(1) stock investment information dataset, and (2) financial products-related complaints dataset posted at the public petition of the Presidential Office. To implement the proposed CNN model, we used tensorflow algorithm and coded in Python. Korean sentiment words corpus used for this study was based on KNUSL. The opinion mining procedures were composed of preprocessing, vectorization feature set, and polarity score calculation. The performance metrics used for this study are accuracy, precision, recall, and F1-score. The performance of the proposed CNN model showed outstanding results compared with the machine learning benchmarking classifiers. Our empirical results turned out to be very meaningful from the perspective of financial supervisory policy-making and activities as well.
- 발행기관:
- 금융감독원
- 분류:
- 경제학