베이지안 텍스트 마이닝과 시각화를 이용한 특허 빅데이터 분석
Patent Big Data Analysis Using Bayesian Text Mining and Visualization
전성해(청주대학교)
30권 2호, 154~160쪽
초록
데이터의 크기와 다양화는 빅데이터의 대표적인 특성이다. 관계형 데이터베이스에 저장된 대용량 데이터에 비하여 빅데이터는 문자, 숫자, 그림 등 다양한 데이터 원천이 비정형 형태로 저장되어 있다. 특허문서도 매우 방대한 크기를 가지며 하나의 특허문서는 발명자의 이름, 출원 날짜, 발명의 명칭, 기술 요약, 청구항, 도면 등 다양한 형태의 데이터로 이루어진다. 발명자에게 일정기간 동안 등록된특허기술에 대한 배타적인 권리를 인정하는 특허제도의 특성으로 인하여 개발된 기술에 대한 많은정보는 특허문서에 포함되어 있다. 따라서 특허 빅데이터 분석은 기술을 이해하기 위하여 반드시 필요한 과정이다. 본 연구에서는 특허 빅데이터의 분석을 위한 통합적 분석 방법을 제안한다. 제안 방법은 텍스트 마이닝과 베이지안 추론을 결합하여 특허 빅데이터의 전처리 과정부터 분석 및 활용까지의 전 과정에 대한 방법을 연구한다. 베이지안 시각화 및 베이지안 회귀분석을 결합하여 새로운 특허 빅데이터를 분석한다. 제안 방법의 성능평가를 위하여 본 연구에서는 인공지능 기술 관련 특허문서를 수집하고 분석에 이용한다.
Abstract
The volume and variety are typical characteristics of big data. Compared to the large amount of data stored in relational databases, big data is stored by various data types such as texts, numbers, and pictures with unstructured data form. Patent document data also has a very large size and a patent document consists of various types of data such as the inventor's name, application date, name of the invention, technical summary, claims, and drawings. Due to the nature of the patent system which grants the inventors exclusive rights to patent technology registered for a certain period of time, much information about the developed technology is contained in the patent document. Therefore, patent big data analysis is an essential process for understanding technology. This study proposes an integrated analysis method for analyzing patent big data. The proposed method combines text mining and Bayesian inference to study the whole process from preprocessing to analysis and utilization of patent big data. We analyze the patent big data by newly combining Bayesian visualization and Bayesian regression. To show the performance evaluation of the proposed method, we collects patent documents related to artificial intelligence technology and uses them for analysis
- 발행기관:
- 한국지능시스템학회
- 분류:
- 전기공학