[데이터 분석] 1. 탐색적 데이터 분석

ysk1230·2023년 4월 21일

출처

강의링크_탐색적데이터분석-이수안컴퓨터연구소

탐색적 데이터 분석

데이터 분석이란(EDA)?
자료 본연의 의미를 찾아가는 과정, 주어진 자료를 가지고 충분한 정보를 얻을 수 있도록 방법을 찾는 것

필요성
데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견,
다양한 각도에서 데이터를 살펴보고 문제정의단계에서 미처 발견하지 못한걸 발견

과정
문제정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세우는 것
데이터를 전체적으로 살펴보기(head와 tail을 보는것, 전체적으로 보는것)
이상치 결측치를 확인하는 과정도 필요
개별 속성값도 관찰하여 예측한 범위와 분포를 갖는지도 확인

분석 단계

연구질문
올바른 질문을 하지 못한다면, 정답을 얻을수 없다.

정량적질문유형

일반적으로 어떻게, 무엇을, 언제, 어디서 를 결정하는데 사용
질적 연구보다는 쉬운편
서술형 질문, 비교질문, 관계기반 질문이 존재
서술형질문: 주제를 설명(하루중 시간, 사용목적등)
비교질문 : 두 그룹, 개념 또는 기타 변수간의 차이를 분석하는데 사용(남여 브랜드선호)
관계기반 : 인과관계에 기반한 질문들은 한 변수가 다른 변수에 어떻게 영향을 미치는지 이해하는데 효과(색상이 특정 제품을 구매하려는 욕구에 어떻게 영향을 미치는지)

질적질문유형

정량화가 덜된, 목표에 관한 의미를 발견, 이해, 탐구하는데 초점

탐색적 질문 : 서술형 문제와 유사, 선입견으로 결과에 영향을 주지 않고 무언가를 이해하는 것으로 보임(제품을 어떻게 사용되는지 또는 특정주제애 대한 인식을 묻는것)

예측질문 : 미래의 결과를 이해(주제나 행동)

해석적 질문 : 결과에 영향을 주지 않고 특정 주제 개념에 대한 피드백 수집(제품리뷰)

이상값 발견 기법
개별 데이터 관찰
통계값 활용
시각화(확률밀도함수,히스토그램 등) 활용
머신러닝 활용
통계기반 탐지
편차기반 방법
거리기반 탐지

5가지 숫자요약
데이터 집합에 대한 정보를 제공하는 통계량으로 가장 중요한 표본 백분위수 5가지로 구성
1). 최대값
2). 상위사분위수 or 제3사분위수(Q3) : 전체데이터 중 상위 25%
3). 중앙값
4). 하위 사분위수 or 또는 제1사분위수(Q1) : 전체 데이터 중 하위 25%
5). 최소값

IQR


파란색 네모 값 : Mean
검은색 줄 : 상위 사분위

속성간의 관계분석

0개의 댓글