UCI 데이터셋을 활용한 포르투갈 레드 와인의 품질관리성분 및 관리기준 예측 분석 연구: CART 알고리즘 기반의 의사결정나무(Decision tree) 기법을 중심으로
A study on the prediction analysis of quality control components and control criteria for portuguese red wine using UCI Dataset: Focusing on the decision tree techniques by CART algorithm
유재호(경희대학교); 이계희(경희대학교)
30권 6호, 239~255쪽
초록
본 연구는 UCI 데이터셋의 레드 와인 데이터를 활용하여 와인 품질에 영향을 미치는 품질 성분을예측하고, 예측된 성분을 바탕으로 품질 기준을 예측하고자 하였다. 데이터셋은 포르투갈의 비뉴베르드(Vinho verde)에서 생산된 레드와인의 11가지 성분 변수, 전문가 평가에 의한 1개의 주관적, 정성적 와인품질 변수와 총 1599개의 관측치로 구성되었다. 와인 품질을 종속 변수로 선정하고, 종속변수에 영향을 미치는독립변수로서의 와인 품질 특성 성분과 그 기준을 예측하기 위해 CART 알고리즘을 바탕으로 한 의사결정나무(Decision tree) 기법을 통한 분석을 실시하였다. 이의 결과로 알콜농도(A), 황산염(S), 휘발산(VA), 산도(pH)의 4가지 성분 변수가 품질 예측 변수로 도출되었다. 도출된 4가지 품질 예측변수는 인공신경망 MLP알고리즘, AIC값, regsubsets 함수 알고리즘을 통해 교차 검증되었다. 품질 예측 변수의 관리 기준은 CART 알고리즘의 분석 결과인 분기 기준 값을 적용하였다. 이의 결과로 가장 높은 와인 품질(와인 품질 6.8)의성분 기준은 알콜(11<=, <12), 황산염(0.65<=), 휘발산도(<0.4), pH(<3.3)으로 예측되었다. 일정 수준의 고품질의 와인(와인 품질 6.7)의 성분 기준은 알콜(12<), 황산염(0.65<)으로 예측되었다. 이러한 예측된 성분기준은 와인 생산의 품질 관리에 적용이 가능한 것으로 보이며, 적절한 성분 예측을 통한 품질 관리는 최종제품을 분류하는 기준의 하나로서 제시가 가능할 것으로 보인다.
Abstract
This study aims to predict the components and the criteria for wine quality evaluation by utilizing red wine data from the UCI Machinery Learning Repository Data set (UCI, hereafter). The predicting model consisted of 11 ingredient variables of red wine produced in Vinho Verde, Portugal, with subjective and qualitative wine quality variable by expert evaluation, and a total of 1,599 observations. Analysis was conducted using the decision tree technique based on the CART algorithm, and the results identified 4 independent variables, including alcohol (A), sulfate (S), volatile (VA), and acidity (pH) as key quality predictors of wine. The highest wine quality was determined at 6.8 point (all case mean = 5.64) and the 4 dependent variables (A, S, VA & pH) with a certain Splitting Criterion point for each (11≤ A<12; S≤0.65; V<0.4; pH<3.3) turned out to be influential predictors for the wine quality for 6.8 and above. Also, these independent variables were cross-validated through the artificial neural network, namely MLP algorithm, AIC value, and regsubsets function algorithm. These criteria can be applicable to the quality control of wine industry practitioners. Practical implications were presented for wine marketers and producers
- 발행기관:
- 한국호텔외식관광경영학회
- 분류:
- 관광학