3. 분석 프로세스
분석의 전체적인 프로세스는 KDD(Knowledge Discovery in Databases)를 참고하여, ‘데이터 선택(수집)’, ‘데이터 정제(전처리)’, ‘분석’, ‘시각화 및 인사이트 도출’ 순으로 진행
3.1. 분석 프로세스
3.1.1. 데이터 수집 및 정제
- 양산 대여기의 설치 기준이 될 수 있는 요인을 ‘날씨’, ‘공간 정보’, ‘유동 인구’, ‘교통’, ‘취약 계층’, ‘시설’로 구분하여 관련 데이터를 수집
- 계절의 영향을 받는 변수는 6월부터 8월까지의 시점을 기준으로 데이터를 탐색하였으며, 이 외 변수는 가장 최신의 데이터를 선택
- Q-GIS를 통한 분석이 가능하도록 주소 데이터를 모두 위·경도 데이터로 변환하고, 분석 단위인 격자에 각 속성값을 결합
3.1.2. 분석
- 양산 대여기 입지의 가장 중요한 요인인 유동 인구와 다른 속성 변수 간의 상관분석을 진행
- 관련 속성별로 변수를 축소한 후 변수별로 가중치를 높게 주는 가중치 시나리오 분석을 진행
3.1.3. 인사이트 도출 및 시각화
- 각 시나리오에 따라 특징적인 차이가 있는지를 확인한 후, 5개 시나리오 중 최적 입지 선정에 가장 적합한 시나리오를 선택
- 선택한 시나리오를 시각화 후, 최적 입지로 선정된 지역의 특징을 서술하여 활용 방안 논의
3.2. 분석 내용 및 방법
3.2.1. 상관분석
- 유동 인구와 다른 변수 간의 상관분석을 통해 유의수준 0.001 이하에서 ‘두 변수 간 상관관계가 없다.’의 귀무가설을 기각하는 변수를 선택하여 분석에 활용할 최종 데이터 구성
3.2.2. 가중치 시나리오 분석
- 시나리오별 총점에 따라 순위를 부여하기 때문에 각 변수의 정규화를 진행함
- 시나리오는 모든 변수의 가중치를 동일하게 부여하는 ‘동일형 시나리오’와 특정 변수를 다른 변수 대비 2배를 부여하는 해당 변수 강조형 시나리오로 각각 나누어 분석
• 가중치 부여 근거 “폭염취약지도를 구성할 환경변수, 효율성 변수, 형평성 변수를 정규화한 후, 각각의 변수 비중을 다르게 하여 4가지 시나리오를 구성함으로써 다양한 관점의 반영을 시도했다.” |
- 분석에 사용한 프로그램 및 버전은 다음과 같음
• 분석 툴 Python(3.7)_Pandas, scipy.stats, sklearn.preporcessing / Q-GIS(3.16) / Excel |
'데이터 분석 > 공공빅데이터 프로젝트' 카테고리의 다른 글
분석결과 시각화&인사이트 도출 (0) | 2022.07.04 |
---|---|
분석 결과_상관분석&가중치 시나리오 (0) | 2022.07.04 |
데이터 정제_데이터셋 생성&데이터 클렌징 (0) | 2022.07.04 |
데이터 정제_동 데이터 격자 데이터에 결합&격자별 속성 결합 (0) | 2022.07.04 |
데이터 정제_주소데이터 위·경도로 변환&격자 내 속성 개수 계산 (0) | 2022.07.04 |
댓글