본문 바로가기
데이터 분석/공공빅데이터 프로젝트

분석 프로세스

by 세희홍 2022. 7. 4.

3. 분석 프로세스

분석의 전체적인 프로세스는 KDD(Knowledge Discovery in Databases)를 참고하여, ‘데이터 선택(수집)’, ‘데이터 정제(전처리)’, ‘분석’, ‘시각화 및 인사이트 도출순으로 진행

 

3.1. 분석 프로세스

3.1.1. 데이터 수집 및 정제

- 양산 대여기의 설치 기준이 될 수 있는 요인을 날씨’, ‘공간 정보’, ‘유동 인구’, ‘교통’, ‘취약 계층’, ‘시설로 구분하여 관련 데이터를 수집

- 계절의 영향을 받는 변수는 6월부터 8월까지의 시점을 기준으로 데이터를 탐색하였으며, 이 외 변수는 가장 최신의 데이터를 선택

- Q-GIS를 통한 분석이 가능하도록 주소 데이터를 모두 위·경도 데이터로 변환하고, 분석 단위인 격자에 각 속성값을 결합

 

3.1.2. 분석

 

- 양산 대여기 입지의 가장 중요한 요인인 유동 인구와 다른 속성 변수 간의 상관분석을 진행

- 관련 속성별로 변수를 축소한 후 변수별로 가중치를 높게 주는 가중치 시나리오 분석을 진행

 

3.1.3. 인사이트 도출 및 시각화

- 각 시나리오에 따라 특징적인 차이가 있는지를 확인한 후, 5개 시나리오 중 최적 입지 선정에 가장 적합한 시나리오를 선택

- 선택한 시나리오를 시각화 후, 최적 입지로 선정된 지역의 특징을 서술하여 활용 방안 논의

 

3.2. 분석 내용 및 방법

3.2.1. 상관분석

- 유동 인구와 다른 변수 간의 상관분석을 통해 유의수준 0.001 이하에서 두 변수 간 상관관계가 없다.’의 귀무가설을 기각하는 변수를 선택하여 분석에 활용할 최종 데이터 구성

 

3.2.2. 가중치 시나리오 분석

- 시나리오별 총점에 따라 순위를 부여하기 때문에 각 변수의 정규화를 진행함

- 시나리오는 모든 변수의 가중치를 동일하게 부여하는 동일형 시나리오와 특정 변수를 다른 변수 대비 2배를 부여하는 해당 변수 강조형 시나리오로 각각 나누어 분석

가중치 부여 근거
폭염취약지도를 구성할 환경변수, 효율성 변수, 형평성 변수를 정규화한 후, 각각의 변수 비중을 다르게 하여 4가지 시나리오를 구성함으로써 다양한 관점의 반영을 시도했다.”

- 분석에 사용한 프로그램 및 버전은 다음과 같음

분석 툴
Python(3.7)_Pandas, scipy.stats, sklearn.preporcessing / Q-GIS(3.16) / Excel
 

댓글