애스크로AIPublic Preview
← 학술논문 검색
학술논문한국콘텐츠학회 논문지2024.11 발행

한국어 일반 개체명과 개인정보 특화 개체명 비교 연구

Comparative Study of General Named Entities and Privacy-Specific Named Entities in Korean

최혜지(연세대학교 언어정보학협동과정); 강채안(연세대학교 언어정보학협동과정); 김민선(연세대학교 언어정보학협동과정); 안수빈(연세대학교 언어정보학협동과정); 비립(숙명여자대학교 글로벌융합대학); 이종규(㈜티사이언티픽); 김한샘(연세대학교)

24권 11호, 174~192쪽

초록

정보 시스템이 고도화되고 인공지능 기술이 발전하면서 대규모 데이터 수집, 처리되는 과정에서 발생하는 개인정보 유출의 우려가 커지고 있다. 방대한 양의 데이터에서 개인정보를 식별하기 위해서는 일반 개체명과 구별되는 개인정보 개체명을 정확히 인식하고 분류하는 것이 중요하다. 본 연구에서는 실제 대화 환경에서 일반 개체명과 개인정보 개체명이 나타나는 양상을 분석하고자 두 종류의 개체명이 동시에 주석된 대화문 데이터셋을 구축하고 각 태그별 출현 양상을 기반으로 두 체계를 비교 분석했다. 그 결과 '장소', '기관', '학문' 관련 개체명은 개인정보를 구분하기 위해서는 맥락 정보를 필수적으로 활용해야 함을 통계적으로 확인했다. 또한 '날짜', '용어', '문명/문화' 관련 개체명의 사례를 통해 기존의 일반 개체명 및 개인정보 개체명 체계로는 분류에 한계가 있으며 지속적으로 보완, 개정되어야 함을 밝혔다. 이러한 연구 결과는 개인정보 탐지를 위한 데이터 처리 기법과 인공지능 학습 알고리즘 개발이 필요함을 시사한다.

Abstract

As information technology and artificial intelligence (AI) methods develop, apprehensions over the leaking of personal information during extensive data processing are increasing. To differentiate Personally Identifiable Information (PII) throughout extensive datasets, it is essential to precisely identify and categorize PII, distinct from General Named Entities (GNE). This study examines the prevalence of both categories in authentic interactions by creating a conversation-based dataset annotated with GNE and PII. The analysis indicates that contextual information is crucial for recognizing things associated with 'place,' 'organization,' and 'academic field.' Furthermore, constraints in categorizing things such as 'date' and 'culture' underline the necessity for continual enhancements of currently functioning systems. It also emphasizes the importance for proactive innovations in personal information detection technologies.

발행기관:
한국콘텐츠학회
DOI:
http://dx.doi.org/10.5392/JKCA.2024.24.11.174
분류:
학제간연구

AI 법률 상담

이 논문의 주제에 대해 더 알고 싶으신가요?

460만+ 법률 자료에서 관련 판례·법령·해석례를 찾아 답변합니다

AI 상담 시작
한국어 일반 개체명과 개인정보 특화 개체명 비교 연구 | 한국콘텐츠학회 논문지 2024 | AskLaw | 애스크로 AI