코퍼스를 활용한 핵심어 및 핵심 표현 추출 - 독일 형법에 사용된 핵심어와 공기어 추출을 예로 들어
Über die Herstellung von Schlüsselwörtern und Schlüsselwortpaaren mithilfe eines Gesetzeskorpus - anhand der Erstellung von Schlüsselwörtern und Kollokationen im deutschen StGB
구명철(서울대학교); 권민재(한국교원대학교)
43호, 1~30쪽
초록
문서의 특성은 그 문서의 주제를 찾거나 주요 내용을 요약함으로써 파악할 수 있다. 그러나 규모가크거나 다양한 하위 문서로 구성되어 있는 문서의 경우에는 그 주제나 핵심 내용을 보여줄 수 있는 방법을 찾기가 쉽지 않다. 특히 독특한 형태의 문서 구조와 수많은 독립된 조항들을 포함하고 있는 법률의 경우에는 더욱 그러하다. 그런데 코퍼스를 활용하여 텍스트에 사용된 어휘나 어휘쌍들을 그 빈도와 함께 검색하여 적절한 통계 기법을 적용하면 핵심어 및 긴밀도가 높은 어휘쌍을 추출해 내는 것이가능하다. 이 논문에서는 독일 기본 3법을 대상으로 구축한 법률 코퍼스를 활용하여 형법(StGB)을 예로 들어그 핵심어 및 핵심 표현을 추출해 보고자 하였다. 핵심어를 추출하는 데에는 로그-가능도와 상대빈도비율(RFR) 등을 계산하여 상위값을 보여주는 것들을 선별하는 방법을 사용하였는데, 특히 상대빈도비율에 의해 추출된 핵심어들의 경우 StGB라는 문서의 특징을 잘 반영하는 것으로 파악되었다. 한편, 핵심 표현의 예로서 명사-동사 공기어 어휘쌍을 추출하는 데에는 어휘쌍 구성 어휘들의 공기값을 계산해 봄으로써 t-스코어와 같은 공기값이 StGB에 사용된 핵심 표현을 추출하는 데 매우 유용하게 사용될 수 있음을 확인할 수 있었다. 앞으로의 연구에서는 더 많은 법률문서들을 확보하여 참조 코퍼스로 활용하면 핵심어 및 핵심 표현을 추출하는 데 객관성을 더 높일 수 있을 것으로 기대된다.
Abstract
Die Charakteristika von Texten können durch die Zusammenfassung des Themas bzw. des Hauptinhalts erfasst werden. Bei umfangreichen Texten oder solchen, die aus mehreren Subtexten bestehen, ist die Erfassung des Themas bzw. des Hauptinhalts aber nicht immer leicht. Insbesondere bei Gesetzestexten, die über eine eigentümliche Struktur verfügen, erhöht sich die Schwierigkeit. Mithilfe eines Korpus, das hochfrequente Wörter bzw. Wortpaare und ihre Häufigkeit mit adäquaten statistischen Methoden erfasst, ist die Erstellung von Schlüsselwörtern bzw. Schlüsselwortpaaren ein simpler Vorgang. In diesem Zusammenhang haben wir versucht, mithilfe eines Gesetzeskorpus die Schlüsselwörter bzw. Schlüsselwortpaare des StGB als Beispieltext herauszuarbeiten. Für die Erstellung der Schlüsselwörter wurden die sogenannte ‘Log-Likelihood’, ‘Relative Frequency Ratio’ (= RFR) u.a. angewandt; die RFR hat sich bei der Auswahl der Schlüsselwörter des StGB als nützlich herausgestellt. Zur Erstellung der Wortpaare wurden sogenannte Kollokationswerte herangezogen. Der t-Score war in diesem Fall adäquat genug, um die Schlüsselwortpaare des StGB zu erstellen.
- 발행기관:
- 한국독어학회
- 분류:
- 독일어와문학