대규모 언어 모델을 활용한 특허 문서의 IPC 코드 분류 성능 평가 연구
Performance Evaluation of Large Language Models for IPC Code Classification in Patent Documents
김가윤(인제대학교); 양진홍(인제대학교)
18권 2호, 135~142쪽
초록
특허는 기술 혁신의 중요한 지표이자 지식재산권 보호의 핵심 메커니즘이다. 최근 수십 년간 특허 출원량이 급증하면서, 특허 문서의 체계적이고 효율적인 분류 시스템의 필요성이 높아지고 있다. 본 연구에서는 Harvard USPTO Patent Dataset(HUPD)을 활용하여, 상용 API 기반 대규모 언어 모델의 IPC 코드 분류 성능을 분석하였다. 특허 데이터의 청구항(Claims)과 요약(Abstract) 섹션을 대상으로 실험을 진행하였으며, TOP1/TOP5 정확도, F1 점수 등을 평가 지표로 활용하였다. 실험 결과, 모든 대규모 언어 모델이 TOP1 정확도 65% 이상, TOP5 정확도 90% 이상을 달성하는 등 기존 HUPD를 기반으로 학습된 모델의 성능과 유사하거나 더 우수한 성능을 보였다. 본 연구는 도메인 특화 학습 없이 Few-Shot 프롬프트만으로 높은 성능을 달성할 수 있음을 보여준다. 이는 대규모 언어 모델의 특허 문서의 IPC 분류에 보조 도구로서 잠재력을 보여주며, 향후 자연어 처리 및 특허 분석 연구의 새로운 접근법을 제시한다.
Abstract
Patents serve as indicators of technological innovation and key mechanisms for intellectual property protection. With the surge in patent applications, the need for efficient classification systems has increased. This study analyzes the IPC code classification performance of commercial API-based large language models using the Harvard USPTO Patent Dataset (HUPD). Experiments were conducted on the Claims and Abstract sections of patent data, using TOP1/TOP5 accuracy and F1 scores as evaluation metrics. Results show that all language models achieved TOP1 accuracy above 65% and TOP5 accuracy above 90%, demonstrating performance comparable to or better than models trained on HUPD. This study demonstrates that high performance can be achieved through few-shot prompting without domain-specific training. These findings highlight the potential of large language models as auxiliary tools for IPC classification of patent documents and suggest new approaches for future research in natural language processing and patent analysis.
- 발행기관:
- 한국정보전자통신기술학회
- 분류:
- 전자/정보통신공학