머신러닝 기반의 자동화된 소스 싱크 분류 및 하이브리드 분석을 통한 개인정보 유출 탐지 방법
Machine Learning Based Automated Source, Sink Categorization for Hybrid Approach of Privacy Leak Detection
심현석(숭실대학교); 정수환(숭실대학교)
30권 4호, 657~667쪽
초록
안드로이드 프레임워크는 단 한번의 권한 허용을 통해 앱이 사용자의 정보를 자유롭게 이용할 수 있으며, 유출되는 데이터가 개인정보임을 식별하기 어렵다는 문제가 있다. 따라서 본 논문에서는 어플리케이션을 통해 유출되는 데이터를 분석하여, 해당 데이터가 실제로 개인정보에 해당하는 것인지를 파악하는 기준을 제시한다. 이를 위해 우리는 제어 흐름 그래프를 기반으로 소스와 싱크를 추출하며, 소스에서 싱크까지의 흐름이 존재하는 경우 사용자의 개인정보를 유출하는지 확인한다. 이 과정에서 우리는 구글에서 제공하는 위험한 권한 정보를 기준으로 개인정보와 직결되는 소스와 싱크를 선별하며, 동적분석 툴을 통해 각 API에 대한 정보를 후킹한다. 후킹되는 데이터를 통해 사용자는 해당 어플리케이션이 실제로 개인정보를 유출한다면 어떤 개인정보를 유출하는지 여부를 파악할 수 있다. 우리는 툴을 최신 버전의 API에 적용하기 위해 머신러닝을 통해 최신 버전의 안드로이드의 소스와 싱크를 분류하였으며, 이를 통해 86%의 정확도로 최신 배포 버전인 9.0 안드로이드의 API를 분류하였다. 또한 툴은 2,802개의APK를 통해 평가되었으며, 개인정보를 유출하는 850개의 APK를 탐지하였다.
Abstract
The Android framework allows apps to take full advantage of personal information through granting single permission,and does not determine whether the data being leaked is actual personal information. To solve these problems, we propose atool with static/dynamic analysis. The tool analyzes the Source and Sink used by the target app, to provide users withinformation on what personal information it used. To achieve this, we extracted the Source and Sink through Control FlowGraph and make sure that it leaks the user's privacy when there is a Source-to-Sink flow. We also used the sensitivepermission information provided by Google to obtain information from the sensitive API corresponding to Source and Sink. Finally, our dynamic analysis tool runs the app and hooks information from each sensitive API. In the hooked data, we gotinformation about whether user’s personal information is leaked through this app, and delivered to user. In this process, anautomated Source/Sink classification model was applied to collect latest Source/Sink information, and the we categorizedlatest release version of Android(9.0) with 88.5% accuracy. We evaluated our tool on 2,802 APKs, and found 850 APKsthat leak personal information.
- 발행기관:
- 한국정보보호학회
- 분류:
- 컴퓨터학