유전자 발현 데이터에 대한 다중검정법 비교 및 분석
Comparison and analysis of multiple testing methods for microarray gene expression data
서수민(덕성여자대학교 정보통계학과); 김태훈(덕성여자대학교); 김재희(덕성여자대학교)
25권 5호, 971~986쪽
초록
동시에 여러 개의 가설검정 수행시 귀무가설이 참일 경우 귀무가설을 기각할 확률이 커지는 문제가 발생한다. 이러한 다중검정 문제 해결을 위해 여러 연구에서는 가설검정시 필요한 집단별 오류율(FWER; family-wise error rate), 위발견율 (FDR; false discovery rate) 또는 위비발견율 (FNR;false nondiscovery rate) 과 통계량을 고려하여 검정력을 높이고자 하였다. 본 연구에서는 T 통계량, 수정된 T 통계량, 그리고 LPE (local pooled error) 통계량 기반 P값을 이용한 Bonferroni(1960) 방법, Holm (1979) 방법, Benjamini와 Hochberg (1995) 방법과 Benjamini와 Yekutieli(2001) 방법 그리고 Z 통계량 기반 Sun과 Cai (2007) 방법을 고찰하고 모의실험을 통해 다중검정 능력을 비교하였다. 또한 실제 데이터로 애기장대 유전자 발현 데이터에 대해 여러 가지 다중검정법을 통해 유의한 유전자들을 선별하였다.
Abstract
When thousands of hypotheses are tested simultaneously, the probability of rejecting any true hypotheses increases, and large multiplicity problems are generated. To solve these problems, researchers have proposed different approaches to multiple testing methods, considering family-wise error rate (FWER), false discovery rate (FDR) or false nondiscovery rate (FNR) as a type I error and some test statistics. In this article, we discuss Bonferroni (1960), Holm (1979), Benjamini and Hochberg (1995) and Benjamini and Yekutieli (2001) procedures based on T statistics, modified T statistics or local-pooled-error (LPE) statistics. We also consider Sun and Cai (2007) procedure based on Z statistics. These procedures are compared in the simulation and applied to Arabidopsis microarray gene expression data to identify differentially expressed genes.
- 발행기관:
- 한국데이터정보과학회
- 분류:
- 통계학