독일어 구문 분석 코퍼스 구축과 통계적 해석 – 독일 기본법, 형법, 민법을 중심으로
Erstellung eines syntaktisch annotierten Korpus und seine statistische Analyse
권민재(한국교원대학교)
60권 4호, 179~205쪽
초록
본 논문에서는 독일의 기본3법인 기본법, 형법, 민법을 대상으로 구문 분석 코퍼스를 구축하고, 추출한 자료에 대하여 통계적 해석을 적용하는 과정 및 방법론에 대하여 논의한다. 코퍼스 구축 단계에서는 Berkeley Neural Parser를 이용하여 원시자료에 대하여 구문분석을 실행하였고 Stanford Tregex와 Tsurgeon을 이용하여 검색 및 수정, 보완하였다. 법률 문서에 출현하는 어휘와 특정 구조 사이의 공기관계를 공연강도의 관점에서 논의하기 위하여 슈테판 그리스의 Coll.analysis 3.2a 분석도구를 이용하여 공연구조 분석을 실행하였다. 구문 분석 코퍼스에서 추출한 자료를 분석한 구문 층위의 기초 통계 자료를 살펴본 결과, 관계문의 비율은 세 법률에서 차이가 없지만, 복합문의 길이는 형법이 상대적으로 길고, 부사어 문장이나 외치문장 등의 비율은 민법에서 훨씬 더 높게 나타나 민법>형법>기본법의 순으로 텍스트의 복잡도가 높아지는 것을 확인하였다. 공연구조 분석을 위해 선택한 구문은 2격 부가어 또는 von+3격 명사구가 부착된 명사구, sein동사를 이용한 계사구문, 형용사+명사 구문, sein+zu-Infinitiv, haben+zu-Infinitiv 등인데, 이들을 대상으로 공연구조 분석을 실행한 결과 문서마다 각 구문에서 선호되는 어휘와 배척되는 어휘가 있음을 확인하였고 통계치와 함께 제시하였다. 이 방법론을 일상어 텍스트로 확대적용하면 보다 유의미한 결과를 얻을 수 있을 것으로 기대한다.
Abstract
Bei dieser Arbeit handelt es sich um die Erstellung eines syntaktisch annotierten Korpus und seine statistische Analyse, d.h. um eine Kollostruktionsanalyse. Als Basismaterial zur Korpuserstellung wurden drei deutsche Gesetztexte, das Grundgesetz (GG), das Strafgesetzbuch (StGB) und das Bürgerliche Gesetzbuch (BGB) ausgewählt. Um diese Texte syntaktisch zu annotieren, wird der Berkeley Neural Parser verwendet, der in einem Artikel von Kitaev und Klein (2018) beschrieben worden ist. Dieser Parser wurde nicht nur auf einer deutschen Baumbank, sondern auch auf einer koreanischen Baumbank evaluiert und erzielte die besten Ergebnisse. Aus dem erstellten Korpus wurden bestimmte Konstruktionen anhand von Stanford Tregex extrahiert und im Hinblick auf die Kollostruktion statistisch analysiert. Die behandelten Konstruktionen sind Nominalphrasen mit Genitivattributen bzw. von+Dativ-Konstruktion, Nominalphrasen mit Adjektivattributen, Kopulakonstruktion mit dem Kopulaverb sein und dem prädikativen Adjektiv, und sein/haben+zu-Infinitiv-Konstruktionen. Bei der statistischen Analyse wird die Wahrscheinlichkeit des gemeinsamen Auftretens von abstrakter Konstruktion und spezifischem lexikalischem Element berechnet. Dabei spielt die Kollostruktionsstärke eine wichtige Rolle. Mithilfe der Analyse konnte festgestellt werden, welche Lexeme von jeder Konstruktion bevorzugt oder zurückgewiesen werden, welche Lexeme für welche Konstruktion distinktiv sind, und welche Wortpaare in einer bestimmten Konstruktion bevorzugt sind.
- 발행기관:
- 한국독어독문학회
- 분류:
- 독일어와문학