해석 가능한 기계 학습 접근법을 이용한 부산-후쿠오카간 한일해저터널 개통에 따른 수단 선택의 선호 분석에 관한 연구
Investigating Traveler’s Preference and Behaviors of Korea-Japan Undersea Tunnel between Busan and Fukuoka using Interpretable Machine Learning Approaches
고상현(Metropolitan Washington Council of Governments); 이동우(인천대학교); 정헌영(부산대학교)
39권 5호, 565~579쪽
초록
컴퓨터 하드웨어 기술의 발전과 함께 기계 학습, 이른바 머신을 활용하여 반복적인 연산을 원활히 수행하고 데이터의 복잡한 패턴을 자율적으로 학습하는 머신러닝(Machine Learning)을 활용한 연구가 여러 분야에서 활발하게 이루어지고 있다. 최근 교통 분야에서도 다양한 머신러닝 방법론을 활용한 연구가 많이 활용되고 있지만, 높은 예측력에 비해서 정책 효과의 평가와 같은 부분에 있어서는 아직 그 해석의 가능성이 충분하지 못하다는 부분이 단점으로 지적되어왔다. 이러한 맥락에서, 본 연구는 머신러닝 기법을 활용한 수단선택 모형을 개발함과 동시에 머신러닝 모형 결과에 대한 분석 가능성을 제시하고자 하였다. 특히, 머신러닝 모형 중에서 rule-based의 앙상블 모형인 XGBoost 기법의 장점인 다계층적(multi-level) 자료에 대한 뛰어난 분석력과 모형 결과 해석 가능성에 대한 방안들을 활용하여 한일 해저터널을 통한 고속철도 여객 수요에 대한 수단선택 선호를 이해하고 예측하고자 하였다. 모형 전체의 예측 정확도는 81%로 높게 나타났으며, 각 수단 별로도 높은 수준의 선호 예측도를 보여주었다. 이른바 블랙박스라 불리는 학습된 머신러닝의 해석력을 높이고 정책적 활용도를 높이기 위해 변수 중요도와 변수 기여도, 그리고 평균 한계 변화율을 추정하였다. 항공 수단의 경우에는 항공 요금, 후쿠오카 방문 빈도, 일본 방문 빈도순으로 상대적 변수 중요도가 확인되었고, 고속 페리의 경우에는 이용자의 나이, 해저터널 이용 의사, 일본 방문 시 항공 이용, 고속철도의 경우에는 고속철도 운임, 연령, 일본 방문 빈도순으로 중요도를 확인할 수 있었으며, 각 변수의 변화에 따른 수단선택의 선호 변화에 대한 분석 또한 시각적으로 제시하였다.
Abstract
Followed by recent vibrant effort on the application of machine-based nonparametric approaches such as machine learning (ML), ML approaches have proven to be successful in many real-world applications. Despite their predictive performances, the acknowledged drawback of ML techniques is their lack of interpretable features that can be used to evaluate policy impacts. In this sense, this article aims to not only develop discrete choice modeling using ML techniques but also provide the useful insights about demystifying (i.e., interpreting) ML models. In particular, XGBoost, rule-based ensemble model combined with ML, is adopted to predict and understand mode choice behaviors related to Korea-Japan undersea tunnel high-speed train. XGBoost model notably possesses more interpretable algorithmic features than other ML models as well as high degree of predictive power for multi-level data—e.g., stated preference (SP) survey. Overall model estimates were accurated at 81% and also presented high accuracy for each model choice. To interpret users’ behaviors and preferences, variable importance (VI), variable contribution, and interactive partial dependence were estimated. The results of VI indicates that air mode, for instance, was affected by order of air fare, Fukuoka visit frequency, and Japan visit frequency, ferry mode was affected by order of Age, Willing to use tunnel, and Japan visit by air mode, and train mode was affected by train fare, age, and Japan visit frequency.
- 발행기관:
- 대한교통학회
- 분류:
- 공학일반