한국어 학습자 말뭉치의 개인 정보 처리 분석 - 국립국어원 한국어 학습자 말뭉치를 중심으로 -
Analysis of the Personal Information Processing of Korean Learner Corpus
임태운
91권, 589~616쪽
초록
이 연구는 한국어 학습자 말뭉치에 나타난 개인 정보 노출 양상에 대해 분석한 것이다. 한국어 학습자 말뭉치의 개인 정보 노출 현황을 파악하고, 앞으로 구축될 말뭉치의 전사방향을 제시하였다. 선행 연구에서는 다루지 않았던 학습자의 인권과 사생활 보호를 다루었다는 점에서 의의가 있다. 먼저 학습자 말뭉치의 기능과 역할에 대해 알아보았다. 학습자 말뭉치를 효율적으로 활용하기 위해서는 학습자의 기본 정보가 필요하다. 이 정보는 학습자가 동의한 범위 내에서제공되어야 하며 말뭉치 제공자의 익명성이 보장되어야 한다. 그러나 대규모의 데이터에포함된 개인 정보를 일관성 있는 기준으로 처리한다는 것은 쉽지 않다. 다음으로 한국어 학습자 말뭉치에서 학습자의 개인 정보 처리를 어떻게 하고 있는지를실제 말뭉치 자료로 예를 들어 확인하였다. 전사 지침에 ‘<name>’으로 처리할 개인 정보의 범위를 명확히 제시하여야 하며, 이름의 종류에 따른 형식의 세분화도 필요함을 알 수있었다. 한국어 학습자 말뭉치의 개인 정보 노출 유형에는 두 가지가 있었다. 첫 번째는 전사지침을 따르지 않아 생긴 예이다. 노출된 개인 정보에는 학습자 이름, 동료 학습자 이름, 학습 기관, 전화번호, 이메일 등이 있었다. 두 번째는 전사 지침을 위반하지 않았음에도 말뭉치 내용 안에 있는 정보와 정보 간의 결합으로 생기는 개인 정보 노출이다. 이를 잠재적개인 정보 노출로 보고 예를 제시하여 분석하였다. 끝으로 구축될 한국어 학습자 말뭉치의 개인 정보 처리 방향에 대해 제안하였다. 첫째, 전사자를 충분히 교육하여 전사 지침 위반으로 생기는 개인 정보 노출이 없어야 한다. 둘째, 개인 정보 처리할 항목 범위와 세부 항목을 명시적으로 규정해야 한다. 셋째, 텍스트내에 있는 정보나 정보 간의 결합으로 개인 식별이 가능하므로 전체 내용을 고려하면서개인 정보를 처리해야 한다.
Abstract
This study analyzed the pattern of personal information exposure in the corpus of Korean learners. The current status of personal information exposure of the corpus of Korean learners was identified, and the transcription direction for the corpus to be built was presented. This study is noteworthy because it dealt with the protection of learners’ human rights and privacy, which was not covered in previous studies. First, this study examined the function and role of the learner corpus. In order to efficiently utilize the learner corpus, basic information regarding the learners is required. This information should be provided to the extent agreed by the learner, and the anonymity of the corpus provider should be guaranteed. However, it is not easy to process large-scale personal information data on a consistent basis. Second, how the Korean language learner corpus processes the learners’ personal information was confirmed as actual corpus data. It was found that the extent of personal information to be processed as “<name>” should be clarified in the transcription guidelines, and it is also necessary to subdivide the form according to the type of name. There are two types of personal information exposure in the corpus of Korean learners. The first is an example of failure to follow transcription guidelines. The personal information presented includes learner names, peer names, learning institutions, phone numbers, and e-mail IDs. The second is the exposure of personal information, caused by the combination of information in the corpus content even though there is no violation of transcription guidelines. Finally, the direction for the personal information processing of the Korean language learner corpus to be built was divided into three categories. First, there should be sufficient education to prevent personal information exposure caused by violations of transcription guidelines. Second, the scope of items to be processed for personal information should be explicitly defined. Third, since personal identification is possible by combining information in the text, personal information should be processed while considering the entire content.
- 발행기관:
- 중앙어문학회
- 분류:
- 한국어와문학