개인정보 비식별화에 따른 인공지능 모델 성능 영향 분석 연구
Analyzing the Impact of Data Anonymization on Artificial Intelligence Model Performance
박소연(성균관대학교 대학원 컴퓨터교육학과); 안성진(성균관대학교)
26권 4호, 69~78쪽
초록
개인정보 데이터로 학습한 인공지능 모델은 실생활에 밀접하고 유용한 기능을 제공하여 다양한 분야에 활용되고 있지만, 개인정보 유출 문제는 인공지능 서비스가 해결해야 할 중요한 과제로 대두되고 있다. 이에 따라, 각국에서는 개인정보 데이터의 인공지능 활용 시 비식별화 적용을 의무화하도록 법과 가이드라인을 마련하고 있다. 비식별화는 개인정보의 안전성을 확보하지만, 비식별화 데이터를 인공지능에 활용했을 때 해당 모델의 성능에 중대한 영향을 미칠 수 있다. 본 연구는 이러한 개인정보 보호와 인공지능 모델 성능 간 균형 문제를 해결하기 위해 데이터 비식별화 강도를 선택할 수 있는 최적의 비식별화 수준 결정 방법을 제안한다. k-익명성 프라이버시 모델을 만족하는 다양한 수준의 비식별화 데이터로 학습된 로지스틱 회귀 모델 실험에서, k=2 수준에서 모델의 정확도 지표는 원본 데이터와 유사한 약 82.1%를 보였으나, k=5로 비식별화 수준이 강화되면 약 74.9%로 급격히 감소하고 이후 일정 수준(약 74–76%)으로 유지됨을 확인하였다. 특히, 소수 클래스의 recall은 급격히 저하되었으나, 클래스 가중치 조정 및 SMOTE기법 적용 시 성능 개선이 가능하여, 불균형 데이터 상황에서 추가 보정이나 익명화 수준 조정을 통해 보완할 수 있음을 보여준다.
Abstract
Artificial intelligence models trained on personal data provide useful and practical functions closely related to real-life applications across various fields. However, the issue of personal data breaches has emerged as a critical challenge that AI services must address. Consequently, many countries have established laws and guidelines mandating the application of de-identification when using personal data in AI systems. While de-identification ensures the safety of personal information, it can significantly impact AI model performance when utilizing de-identified data. This study proposes an optimal de-identification level determination method balancing privacy protection and model performance. In experiments using logistic regression models trained on de-identified data satisfying various levels of the k-anonymity privacy model, the model’s accuracy at the k = 2 level was approximately 82.1%, comparable to that of the original data. However, when the de-identification level was increased to k = 5, the accuracy sharply dropped to approximately 74.9% and then stabilized within the range of 74–76%. Notably, the recall for the minority class declined drastically, but applying class weighting and the SMOTE technique effectively improved performance, demonstrating that imbalanced data conditions can be addressed through additional adjustments or de-identification level tuning.
- 발행기관:
- 한국인터넷정보학회
- 분류:
- 컴퓨터학