애스크로AIPublic Preview
← 학술논문 검색
학술논문중어중문학2023.06 발행KCI 피인용 3

법률 특화 기계번역을 위한 중국 법률 텍스트의 어휘적 특징 분석 ― 중화인민공화국 민법전을 예로

Lexical feature analysis of Chinese legal texts for legal domain-specific machine translation

최승혁(서강대학교)

92호, 349~380쪽

초록

본고는 법률 특화 기계번역을 통해 중한 법률 기계번역의 성능 개선이라는 궁극적인 목표 아래 그 첫걸음으로 중화인민공화국 민법전의 조문과 문장에 대한 기초적 통계 및 어휘적 특징을 분석해 보았다. 개별 조문과 개별 문장에 대한 길이와 문장 부호 사용 통계 결과, 개별 조문이나 개별 문장에 상관없이 문중 부호의 휴지 기능에 따라 민법전 조문이 다양한 방식으로 분절되었고, 이를 통해 기계번역 과정에서 법률 해석과 번역 결과에 영향을 줄 수 있음을 알 수 있었다. 어휘 사용 빈도의 경우, 고빈도 어휘를 추출해 특징을 분석한 결과, 민법전에는 허사(的), 양태동사(应当, 可以, 不得), 모호한 어휘(或者, 等, 其他)의 사용 빈도가 높았다. 그리고 코퍼스 분석 도구인 AntConc의 키워드(key words)와 리스트(list) 기능을 활용해 법률 전문용어 후보를 추출하여 전체 법률 어휘에서 전문용어의 높은 사용 빈도를 확인했고, 이를 통해 법률 특화 기계번역을 위한 법률 전문용어의 병렬 데이터 구축 필요성을 확인할 수 있었다. 기계번역을 특정 도메인에 특화하기 위한 연구는 대부분 공학적 측면에서 시스템 내부 구조를 최적화하는 방향으로만 이루어졌다. 반면, 특정 도메인의 텍스트를 언어학적으로 분석하고 이를 토대로 기계번역에 적용하는 기초작업은 찾기 어려웠다. 본 연구는 법률이라는 특정 도메인에 맞춘 기계번역의 성능 향상을 위한 언어학적 접근이란 점에서 의의를 찾아볼 수 있다.

Abstract

This paper analyzes the basic statistics and lexical characteristics of the articles and sentences in the Civil Code of the People's Republic of China, as a first step toward the ultimate goal of improving the performance of Chinese legal machine translation through specialized legal machine translation. The statistical analysis shows that, regardless of individual articles or sentences, the clauses in the Civil Code are segmented in different ways due to the pause function of punctuation, which may affect the legal interpretation and translation results in the machine translation process. In terms of lexical frequency, the analysis of the extracted high-frequency vocabulary features shows that the Civil Code has a high frequency of the use of particles (的), modal verbs (应当, 可以, 不得), and ambiguous vocabulary (或者, 等, 其他). In addition, by using the keyword and list functions of the corpus analysis tool AntConc, we extracted candidate legal terms and confirmed their high frequency of use in the overall legal vocabulary, demonstrating the need for parallel data construction of legal terms for specialized legal machine translation. Most research on domain-specific machine translation has focused on optimizing the internal structure of systems from an engineering perspective. However, the fundamental work of analyzing the linguistic features of the text of a specific domain and applying them to machine translation has been challenging. Therefore, this study finds significance in taking a linguistic approach to improving machine translation performance for the specific domain of law.

발행기관:
한국중어중문학회
DOI:
http://dx.doi.org/10.46612/kjcll.2023.06.92.349
분류:
중국어와문학

AI 법률 상담

이 논문의 주제에 대해 더 알고 싶으신가요?

460만+ 법률 자료에서 관련 판례·법령·해석례를 찾아 답변합니다

AI 상담 시작
법률 특화 기계번역을 위한 중국 법률 텍스트의 어휘적 특징 분석 ― 중화인민공화국 민법전을 예로 | 중어중문학 2023 | AskLaw | 애스크로 AI