BERT를 활용한 기술 특허 분류 성능 평가
Classification of Technology Patents Using BERT
이우식(경상국립대학교)
13권 2호, 277~285쪽
초록
최근 RPA과 인공지능을 결합한 인텔리전트 오토메이션의 도래로 재무, 보험, 인적자원 관리, 회계, 제조, 공급망 관리, IT 관리, 고객 서비스 등 다양한 분야에 광범위한 영향을 미치고 있음에도 불구하고, 기술 특허 분석에 딥러닝 기반의 자연어 처리를 적용한 IPA 연구는 충분히 발전하지 못한 상황이다. 본 연구는 이산화탄소 포집·활용에 대한 특허 데이터, 자연어 전처리 기법 그리고 BERT와 BERT 파생 모형 기반의 기술 특허 분류 시스템을 설계하고, 정확도, 카파 상관계수 그리고 F1-점수를 비교·분석하였다. 주요 결과를 요약·정리하면 다음과 같다. 첫째, 다섯 가지 CCU 기술 분류에서 BERT 모형이 ELECTRA 모형보다 더 좋은 성능을 보였으며, 이는 BERT모형의 MLM 방식이 전체 문맥 정보를 더 효과적으로 이해할 수 있음을 시사한다. 둘째, 특허 요약 분류에서는 제1 청구항 분류보다 더 높은 성능을 나타냈는데, 이는 언어 모형들이 다양한 텍스트 유형으로 학습되고, 일반적인 언어 사용과 문맥을 기반으로 학습되기 때문에, 전체 특허 내용을 요약하는 특허 요약을 더 효과적으로 처리할 수 있다고 판단된다. 본 연구는 BERT와 BERT 파생 모형을 기술 특허 분류에 적용한 의미 있는 IPA 연구로 비즈니스 전략 수립과 기술경쟁력 강화에 중대한 영향을 미칠 수 있는 가능성을 제시한다.
Abstract
Despite the widespread impact on various fields such as finance, insurance, human resource management, accounting, manufacturing, supply chain management, IT management, and customer service due to the advent of Intelligent Process Automation(IPA) combining RPA and artificial intelligence, research on IPA applying deep learning-based natural language processing to technology patent analysis has not sufficiently developed. This study designs a technology patent classification system based on patent data on carbon dioxide capture and utilization, natural language preprocessing techniques, and BERT and BERT-derived models, and compares and analyzes accuracy, kappa coefficient, and F1-score. The main results are summarized as follows: First, among the five CCU technology classifications, the BERT model showed better performance than the ELECTRA model, suggesting that the BERT model's MLM method can understand the overall context information more effectively. Second, in patent summary classification, it showed higher performance than the first claim classification, which is judged because the language models are trained with various types of texts and based on general language use and context, thus more effectively processing patent summaries that summarize the entire patent content. This study presents the potential to significantly impact business strategy development and enhance technological competitiveness as meaningful IPA research applying BERT and BERT-derived models to technology patent classification.
- 발행기관:
- 차세대컨버전스정보서비스학회
- 분류:
- 학제간연구