고차원 생존데이터에 대한 멀티모달 CNN 접근법
A multi-modal CNN approach for high-dimensional survival data
김주영(부경대학교 인공지능융합학과); Vu Tuan Anh(국립부경대학교); 하일도(국립부경대학교)
36권 1호, 115~126쪽
초록
고차원 생존데이터 (high-dimensional survival data)는 표본 수 (n)에 비해 입력 변수의 갯수 (p)가 매우 많은 중도절단 생존데이터이기 때문에, Cox (1972) proportional hazards (PH) 모형 기반 벌점화 생존분석 (penalized survival analysis)이 주로 사용 되어 왔다. 하지만, 이러한 모형 분석법은 입력변수들의 위험함수에 대해 선형성을 가정하기 때문에 입력변수들의 비선형 및 상호작용 (interaction) 패턴을 효과적으로 학습할 수 없다. 이와 같은 문제점을 개선하기 위해 본 논문에서는 Cox-PH 모형을 기반으로 DNN (deep neural network)과 CNN (convolutional neural network)을 결합한 어텐션 (attention) 기반 멀티모달 (multi-modal) CNN (즉 MCNN)을 제안한다. MCNN 생존모형 학습을 위해 Breslow 벌점 로그가능도 (Breslow’s penalized log-likelihood)에 기반한 손실함수를 사용한다. 제안된 MCNN 모형의 예측 성능을 평가하기 위해 세 가지 실제 고차원 생존데이터를 사용하였으며, 분석 결과 MCNN은 기존의 다양한 생존분석 방법들에 비해 concordance index (C-index)와 integrated Brier score (IBS) 측면에서 우수한 예측력을 보였다.
Abstract
High-dimensional survival data, which have a large number of input variables (p) compared to the sample size (n), are typically analyzed using penalized survival analysis based on the Cox proportional hazards (PH) models. However, these modelling approaches assume linearity in the hazard function with respect to the input variables, which prevents them from effectively learning non-linear and interaction patterns among the input variables. To address this issue, this paper proposes a multi-modal CNN (MCNN), which combines deep neural networks (DNN) with convolutional neural networks (CNN) allowing for Attention, based on the Cox-PH model. To train the MCNN survival model, a loss function based on Breslow’s penalized log-likelihood is used. The predictive performance of the proposed MCNN model was evaluated using three practical high-dimensional survival datasets. Experimental results show that the MCNN outperforms existing various survival methods in terms of C-index and integrated Brier score.
- 발행기관:
- 한국데이터정보과학회
- 분류:
- 통계학