LLM을 이용한 최적 특허빅데이터분석 모형 분석
Analysis of optimal patent big data model using LLM
조석주(청주대학교 대학원 빅데이터통계학과); 박상성(청주대학교 데이터사이언스학과)
34권 5호, 373~377쪽
초록
특허평가등급은 국가별 특허의 우수성을 특허명세서, 서지정보, 행정정보 등으로부터 추출된특허정보를 활용하여 객관적으로 평가하는 온라인 특허 등급 평가 서비스이다. 특허평가등급사용함으로써 대량의 특허에서 소수의 핵심 특허를 선별할 수 있으며, 특허 출원인에게 유의미한 통찰을 제공한다. 특허평가등급은 특허 정성적 요소와 정량적 요소가 활용되며, 정량적요소로는 피인용 수, 패밀리 특허 수 등 수치 자료가 활용되며, 정성적 요소는 서지사항을 토대로 전문가의견이 반영되어 수립된다. 본 논문에서는 정성적 지표로 활용되는 전문가 의견이 주관적인 성격을 띠어 편향적일 수 있기 때문에, 위와 같은 문제점을 해결하기 위해 대규모언어모델(LLMs)을 특허의 서지사항에 적용한다. 따라서 전문가가 특허의 서지사항을 토대로 부여하는 특허등급이 어떠한 원리와 근거로 부여되는지 분석한다. 이를 위해, 수집된 특허의 서지사항을 먼저 전처리하고, 사전 학습된 언어모델(Pre-trained Language Model)들을 활용하여 분석을 실시한다. 이후, 특허 도메인에 가장 적합한 언어모델을 탐색한다.
Abstract
Patent Evaluation Rating is an online patent rating service that objectively evaluatesthe excellence of patents by country by utilizing patent information extracted frompatent specifications, bibliographic information, administrative information, etc. Byusing Patent Evaluation Rating, a small number of core patents can be selected froma large number of patents and provides meaningful insights to patent applicants. Patent Evaluation Rating utilizes patent qualitative and quantitative factors, andquantitative factors are numerical data such as the number of citations and thenumber of family patents, while qualitative factors are established by reflectingexpert opinions based on bibliographic information. In this paper, we apply largescale language models (LLMs) to the bibliographic information of patents to solvethe above problems because expert opinions used as qualitative indicators can bebiased due to their subjective nature. Therefore, we analyze how and on what basisexperts assign patent classes based on patent bibliographies. To do this, thecollected patent bibliographies are first preprocessed and analyzed using pre-trainedlanguage models. Then, we explore the most appropriate language model for thepatent domain.
- 발행기관:
- 한국지능시스템학회
- 분류:
- 전기공학