생성형AI 시대의 한국어 데이터를 위한 개인정보 보호: KcBERT와 Chain-of-Thought 프롬프팅 기반 하이브리드 접근을 중심으로
Privacy Protection for Korean Language Data in the Era of Generative AI: A Hybrid Approach Combining KcBERT and Chain-of-Thought Prompting
이태규(서울시립대학교); 이익희(서울시립대학교); 이제민(서울시립대학교); 정수민(서울시립대학교); 조혜민(서울시립대학교); 김형진(명지대학교)
27권 1호, 247~268쪽
초록
대규모 언어 모델(Large Language Model, LLM)의 활용이 확산되면서 개인정보 보호 문제가 중요한기술적 도전 과제로 부상했다. 특히 한국어 데이터셋은 초성, 중성, 종성 결합 구조와 비정형적 표현으로인해 개인정보 탐지와 마스킹이 더욱 어렵다. 본 연구는 한국어 데이터셋의 특성을 반영하여 KcBERT에조건부 랜덤 필드(Conditional Random Field)를 결합한 모델과 Chain-of-Thought(CoT) 프롬프팅을 통합한딥러닝 기반 탐지 모델을 설계하고, 여기에 정규 표현식 및 키워드 기반 탐지를 결합한 하이브리드모델을 제안한다. 이를 통해 개인정보 탐지 정확도와 효율성을 동시에 개선했다. 하이브리드 모델은평균 정확도 0.99, 매크로 평균 정확도 0.96, 재현율 0.91, F-1 점수 0.94를 기록하여 그 효과성을 증명하였다. 본 연구는 한국어 특화 개인정보 보호 기술의 새로운 표준을 제시하며, 글로벌 개인정보 보호 규제준수의 기술적 토대를 마련할 것으로 기대된다.
Abstract
The widespread adoption of Large Language Models (LLMs) has elevated privacy protection as a critical technical challenge. Particularly, Korean datasets pose additional difficulties for privacy detection and masking due to their combination of initial, medial, and final consonants, as well as unstructured expressions. This study a hybrid model that reflects the characteristics of Korean datasets by integrating a deep learning-based detection approach, combining KcBERT with Conditional Random Fields (CRF) and Chain-of-Thought (CoT) prompting. In addition, it incorporates regular expression-based and keyword- based detection to enhance accuracy and efficiency. The hybrid model demonstrated strong performance, achieving an average accuracy of 0.99, macro-average precision of 0.96, recall of 0.91, and an F1-score of 0.94, confirming its effectiveness. This research establishes a new benchmark for Korean-specific privacy protection technologies and provides a solid technical foundation for complying with global privacy regulations.
- 발행기관:
- 한국경영정보학회
- 분류:
- 경영학