기계학습 기술을 이용한 부동산 감성지수 개발 모형 연구
A Study on the Development of the Real Estate Sentiment Index Model Using the Machine Learning Techniques
박재수(강원대학교); 이재수(강원대학교)
27권 2호, 47~62쪽
초록
감성분석은 비정형 텍스트 데이터에서 사람의 의견, 태도나 성향 등과 같은 정보를 추출하는 기법으로 부동산 시장에 참여자의 심리를 파악하는데 유용하다. 이 연구의 목적은 온라인 신문기사 중 부동산 관련 뉴스기사를 이용하여 부동산 시장의 변화를 설명 또는 예측할 수 있는 감성지수 모형을 개발하는 것이다. 주요 일간지와 경제지 웹사이트에서 부동산 관련 기사를 웹 크롤링하여 수집하고, 전처리 절차와 토픽분석을 통해 8개 토픽과 단어를 추출하였다. 토픽분석에서 추출한 단어가 포함된 문장을 선정하고 텍스트랭크를 이용하여 감성사전을 만든다. 이후 TF-IDF와 나이브 베이즈 분류 모델을 이용하여 문장에 극성을 부여하고 가중치 값을 산출하고, 월별 부동산 감성지수를 산출한다. 분석 결과, 나이브 베이즈는 정확도 88%의 양호한 성능을 나타냈다. 이 모형은 부동산 부문에서 이용된 기존 방법들보다 진일보한 감성지수 개발 모형이며, 비정형 빅데이터 분석 연구에 새로운 분석틀과 체계를 제시하였다. 부동산시장 참여자들의 심리를 즉각적이고 유연하게 지수화하고, 이를 이용하여 아파트가격 등 부동산시장의 변동을 설명하거나 예측하는 토대를 마련한 점에서 의의가 있다.
Abstract
The market sentiment analysis is a useful way to understand the participants’ sentiment in the real estate market by extracting their opinion, attitude and tendency from the irregular text data. This study aims to develop the sentiment index model, using real estate-related online newspaper articles. The procedures are as follows: First, online news articles are web-crawled from major daily and economic news websites. Second, topics and words are extracted through the Latent Dirichlet Allocation (LDA) topic analysis. Third, the sentiment dictionary is established using the TextRank algorithm with sentences which contain the words extracted by the topic analysis in the second step. Finally, using the Term Frequency - Inverse Document Frequency (TF-IDF) and the Naive Bayes classification model, we assign polarity to the sentences and calculate the weights, producing the monthly real estate sentiment index. The result shows a good performance of the proposed method with an accuracy of 88%. The model is more advanced than existing methods which have been used in the real estate studies, proposing a novel analytical framework and model for the unstructured big data analysis. It also provides an index which reflects participants‘ sentiment immediately and flexibly, therefore helps to explain and predict changes in the real estate market.
- 발행기관:
- 한국부동산분석학회
- 분류:
- 경제학