N-gram을 활용한 중국 법률 텍스트의 정형 표현 분석 – 중국 민법전을 중심으로
Analyzing the formulaic expressions in Chinese Legal Texts using N-grams : With a focus on the Chinese Civil Code
최승혁(서강대학교); 강병규(서강대학교)
84호, 437~465쪽
초록
본 연구는 고정된 형태의 단어 조합인 정형 표현(formulaic expression)이 어휘와 같이 하나의 언어 단위로 인식할 수 있다는 점에 착안하여 AntConc의 N-gram, Cluster 기능을 활용해 중국 민법전의 N-gram 유형과 연어 관계를 고찰하였다. N-gram 유형은 자유 결합과 표현 문형으로 나누어 살펴보았다. 2-gram은 자유 결합의 비중이 높게 나타났고, 3-gram부터는 공기나 결합 관계에 제약에 있는 연어(collocation) 형태가 보이기 시작했다. 4-gram은 하나의 덩어리(chunk)로써 단독으로 쓸 수 있는 표현 문형이 다수 출현했다. 5-gram, 6-gram에서는 표현 문형이 절대적으로 큰 비중을 나타냈으며, 자유 결합은 거의 나타나지 않았다. 연어 관계는 명사성 연어 관계, 동사성 연어 관계로 나누어 고빈도 연어 관계를 분석하였다. 명사성 연어 관계에서는 일반 텍스트에서 관찰되지 않는 법률 관련 명사구가 많이 출현했다. 동사성 연어 관계에서는 3-gram 유형의 자유 결합에서 나타난 연어의 구체적인 실례를 살펴볼 수 있었다. 이 밖에도 법률 텍스트의 정형 표현을 기계번역에 학습시켜 특화할 때 얻을 수 있는 효과와 활용 방안에 있어서, 번역의 일관성 제고와 의미의 모호성 감소에 대한 효과, 번역 교육과 포스트에디팅에서의 활용 가치를 살펴보았다. 비록 분석 대상인 민법전의 코퍼스 규모가 크지 않은 한계가 있지만, N-gram을 활용해 중국 민법전의 정형 표현을 분석하고 중한 법률 도메인 특화 기계번역에의 활용 가능성을 고찰하였다는 점에서 의미가 크다.
Abstract
This study investigates the N-gram patterns and collocational relationships within the Chinese Civil Code, using the N-gram and Cluster features of AntConc, based on the perception of formulaic expressions as fixed combinations of words that can be recognized as single linguistic units alongside vocabulary. The study examines N-gram patterns in terms of free combinations and syntactic structures. 2-grams predominantly exhibit a high prevalence of free combinations, while from 3-grams onward, collocational constraints within lexical or syntactic relationships begin to emerge. 4-grams frequently manifest as self-contained units that can stand alone as expressions. In the case of 5-grams and 6-grams, expression patterns dominate significantly, with minimal occurrences of free combinations. To analyze high-frequency collocations, collocational relationships can be categorized as either noun-based or verb-based. The noun-based collocational relationships contain many legal-related noun phrases that are not commonly seen in general texts. Verb-based collocational relationships examine specific instances of collocations that originate from the free combinations of 3-gram patterns. This study also investigates the possible effects and applications of training machine translation with formulaic expressions in legal texts. This study investigates the enhancement of translation consistency, reduction of semantic ambiguity, and the value of utilization in translation education and post-editing. Although the corpus drawn from the Chinese Civil Code was relatively modest in scale, this research still made a significant contribution by analyzing formulaic expressions using N-grams and exploring possibilities for domain-specific machine translation within the realm of Chinese legal discourse.
- 발행기관:
- 중국어문학회
- 분류:
- 중국어와문학