애스크로AIPublic Preview
← 학술논문 검색
학술논문한국지능시스템학회 논문지2025.06 발행

HierarchicalPatentQA: 특허 문서의 구조적 특성을 활용한 질의응답 데이터셋 구축 및 성능 평가

HierarchicalPatentQA: Construction and Evaluation of Question-Answering Dataset Leveraging Structural Characteristics of Patent Documents

함양훈(강남대학교); 문영은(강남대학교); 엄예지(강남대학교); 이준석(강남대학교)

35권 3호, 285~292쪽

초록

본 연구는 특허 문서의 구조적 특성을 활용한 새로운 질의응답 데이터셋 구축 방법론을 제안한다. 기존의 특허 검색 시스템들은 제목, 요약, 청구항 중심의 단편적 검색으로 인해 문서의 전체적 맥락을 파악하는 데 한계를 보여왔다. 이러한 한계를 극복하기 위해 본 연구에서는 2000년부터 2021년까지의 특허 문서 3,000건을 분석하여 배경기술, 기술분야, 발명의 실시 내용 등 다양한 섹션을 포괄하는 1,071건의 질의응답 데이터셋을 구축하였다. EXAONE 3.5 7.8B 모델의 계층적 추론 프레임워크와 검색 증강(RAG) 방식의 추론 통해 특허 문서의 구조적 특성을 반영하여 질의응답을 생성하였다. 구축된 데이터셋으로 학습된 KoELECTRA 모델은 EM score 0.943, F1 score 0.986을 달성하여, 기존 특허 QA 벤치마크 대비 성능 향상을 확인하였다. 본 연구는 특허 문서의 계층적 구조를 활용한 데이터셋 구축 방법론을 제시함으로써 특허정보 처리 분야의 새로운 방향을 제시하였다는 점에서 의의가 있다.

Abstract

This study proposes a methodology for constructing a new QA dataset by utilizing the structural characteristics of patent documents. Existing patent search systems have shown limitations in grasping the overall context of documents due to fragmentary searches focused on the title, abstract, and claims. To overcome this limitation, this study analyzed 3,000 patent documents from 2000 to 2021 and constructed 1,071 question-answer datasets covering various sections such as background technology, technical field, and implementation details of the invention. Questions and answers were generated by leveraging the structural characteristics of patent documents through the hierarchical reasoning framework of the EXAONE 3.5 7.8B model and Retrieval-Augmented Generation (RAG) method. The KoELECTRA model, trained on the constructed dataset, achieved an EM score of 0.943 and an F1 score of 0.986, demonstrating a significant performance improvement compared to existing patent QA benchmarks. This study is significant in that it proposes a new direction in the field of patent information processing by introducing a dataset construction methodology based on the hierarchical structure of patent documents.

발행기관:
한국지능시스템학회
분류:
전기공학

AI 법률 상담

이 논문의 주제에 대해 더 알고 싶으신가요?

460만+ 법률 자료에서 관련 판례·법령·해석례를 찾아 답변합니다

AI 상담 시작
HierarchicalPatentQA: 특허 문서의 구조적 특성을 활용한 질의응답 데이터셋 구축 및 성능 평가 | 한국지능시스템학회 논문지 2025 | AskLaw | 애스크로 AI