EDA : 데이터를 탐색하는 분석 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법
목적
- 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
- 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
- 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
- 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용
시간 시각화 : 막대 그래프, 누적 막대 그래프, 점그래프
분포 시각화 : 파이 차트, 도넛 아트, 트리맵, 누적 연속 그래프
관계 시각화 : 스캐터플롯, 버플차트, 히스토그램
비교 시각화 : 히트맵, 스타 차트, 평행 좌표계, 다차원 턱도법
공간 시각화 : 지도 맵핑
엑셀 : 가장 Standard한 시각화 tool
Tableau : 현재 가장 많이 관심 받고 사용되고 있는 tool
통계량은 표본으로 산출한 값으로 기술통계량이라고도 표현
통계량을 통해 데이터(표본)가 갖는 특성을 이해할 수 있음
표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며 이를 중심경향치라고 함
대표적인 중심값으로 평균, 중앙값, 최빈값, 절사 평균 등 존재
평균은 표본으로 추출된 표본 평균이라고하며, 모집간의 평균을 모평균이라고 하며 u로 표시
평균과 같이 자주 사용하는 값으로 표본으로부터 관측치를 크기 순으로 나열했을 때 가운데 위치하는 값
관측치가 홀수인 경우 중앙에 취하는 값, 짝수일 경우 가운데 두 개의 값을 산술 평균한 값
관측치에서 가장 많이 관측되는 값
옷사이즈와 같이 명목형 데이터의 경우 사용\

np가 정수이면, np번째와 (np+1)번째 자료의 평균
np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료






사건이 일어날 모든 경우의 수 - 사건이 일어나지 않을 경우의 수









- 이산 확률 변수 : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
- 연속 활률 변수 : 연속형 또는 무한대와 같이 셀 수 없는 경우



- E(a) = A
- E(aX) = aE(X)
- E(aX+b) = aE(X) = b
- E(aX+bY) = aE(X) + bE(Y)
- X, Y가 독립 일 때 E(XY) = E(X) E(Y)
