전자공시시스템(DART)을 활용한 국내 텍스트 분석(Textual Analysis) 환경에 관한 연구
A Study on the Textual Analysis Research Environment using the DART System in Korea
김형준(한국과학기술원); 박종원(한국과학기술원); 이재원(한국과학기술원)
24권 4호, 199~221쪽
초록
본 연구는 금융감독원의 전자공시시스템(DART)을 통해 공시된 대량의 보고서들을활용한 국내 텍스트 분석 연구 환경을 평가한다. 먼저 저자들은 대량의 공시서류를 내려받기 어려운 국내 전자공시 환경을 고려하여, 웹 크롤링 등을 활용한 우회적인 방법을 통해 1999년부터 2013년까지 공시된 총 111,497 건의 분기, 반기 및 사업보고서들을 내려받는다. 이후, Li(2008)의 연구방법을 응용하여 이들 보고서에서 “임원의 현황”표를 추출하는 비정형 데이터 마이닝 프로그램을 개발하고, 이를 바탕으로 전체 표본에 대한 텍스트분석 가능여부를 점검한다. 연구 결과, 전자공시시스템에 공시된 모든 분기, 반기, 및 사업보고서들 중 약 40%가 기계판독 불가능한 것으로 나타났다. 또한 기계판독이 가능한 보고서들의 경우에도, 문서가 PDF 형식으로 제공되고 있어 효과적인 텍스트 분석을 위해서는TXT 혹은 HTML 형식으로의 추가적인 변환작업이 필요한 것으로 나타났다. 최근 미국을중심으로 각종 기업 공시자료들을 활용한 다양한 텍스트 분석이 진행되는 등 그 중요성이 점차 대두되고 있는 상황을 고려할 때, 본 연구의 결과는 국내 텍스트 분석 연구를 보다 활성화시키기 위해 DART 시스템의 개선이 선행되어야 한다는 점을 시사한다.
Abstract
In the United States, there is an increasing interest in the application of computer-based textual analysis and a large body of prior accounting literature has analyzed the textual contents of corporate filings such as annual reports. However, due to the lack of institutional supports and relevant experiences, neither practitioners nor researchers in Korea have used textual analysis. Given the circumstances, this study examines whether the Korea Financial Supervisory Service(FSS)'s on-line Data Analysis Retrieval and Transfer(DART) system offers adequate research environment for the textual analysis on corporate filings. By replicating a textual analysis procedure used in prior study, we point out some flaws and limitations of current DART system and suggest potential solutions to encourage the textual analysis in Korea.
- 발행기관:
- 한국회계학회
- 분류:
- 회계학