CART 기법을 이용한 개인신용정보 재현자료 생성 기법
Synthetic Data Generation for Individual Credit Data Using CART
유성준(세종대학교); 박나리(세종대학교)
25권 1호, 1~30쪽
초록
정부의 데이터 경제 활성화 사업이 시작된 2013년 이후부터 현재까지 정부와 민간의 데이터 개방은 일자리 및 창업 기회 생성 등 경제적 파급효과와 열린 정부 및 시민 참여 증대와 같은 사회적 가치를 창출하고 있다. 특히, 개인정보를 포함하는 빅데이터는 수요자 맞춤형 서비스 제공과 같은 경제적 가치를 창출하면서, 기존 또는 새로운 비즈니스의 수익 확보를 위한 활용 사례가 증가하고 있다. 그러나 개인정보의 가치가 증가할수록 개인정보 노출의 위험도는 높아지는 문제가 발생한다. 이에 대한 대안으로 원자료(Raw Data)의 통계적 특성은 살리되, 실제 데이터는 포함하지 않는 재현자료(Synthetic Data) 생성 기법에 대한 다수의 연구가 진행되고 있으며, 입력데이터 셋을 분석하여 재현자료를 생성해 주는 응용 프로그램도 다수 개발되었다. 본 논문에서는 R 패키지 synthpop의 CART 기법을 사용하여 금융분야 빅데이터의 시계열과 신용정보주체 특성이 반영된 개인신용정보에 대한 재현자료 생성 기법을 제안한다. 또한, 제안된 기법을 통해 금융분야 빅데이터 분석을 위한 교육용 DB를 생성하여 금융분야 재현자료의 활용가능성을 보여준다.
Abstract
Ever since central-local governments and public agencies claimed that they would have their databases available and publicly open in 2013, not only has it led to economic ripple effects such as creating jobs and start-up opportunities, but to social values making government more open and enhancing civic participation. In particular, consumer credit data is expected to have economic value more than ever, especially, when analyzed along with upstream and downstream sector information. However, such personal information has relatively high risk of exposure of privacy. As an alternative to releasing real credit data, synthetic data generation, which preserves the statistical characteristics of raw data but does not include actual data, or includes only the insensitive data, has been suggested and practiced. In this study, we use R package synthpop to investigate the possibility of generating credit data reflecting the characteristics of time series and individual financial activities.
- 발행기관:
- 국가데이터연구원
- 분류:
- 경제학