데이터 시각화
데이터 시각화 : 통계적 수치(평균, 표준편차등)만으로 데이터를 알 수 없는 정보가 있기 때문에 해야함
- 같은 값을 가지는 데이터도 시각화하면 다른 모양이 될 수 있음
데이터 시각화의 목적
- 의사소통 : 데이터를 소비자에게 제공할때 유용
- 분석 : 시각적 판단, 탐구
탐색적 데이터 분석(EDA)
- 효과적인 EDA의 조건
- 시각적 무결성 : 실제 정보의 차이와 시각적인 차이의 괴리감이 없어야 함
- 비례의 중요성 :
- 단순함 : 불필요한 시각적 요소 베제, 데이터 확인에 필요한 요소만 사용
- 정렬, 보조선의 사용 :
- 적절한 시각화 방법 사용
- 인지 효율성 : 위치, 길이, 기울기, 각도 등의 수치는 값을 비교하기 편리하지만 색깔과 모양은 값의 비교 보다는 영역을 분류하는데 용이 함 ->
- 센스있는 색 사용
- 너무 많은 색 사용 x
- 순서가 있는 경우 휘도나 채도를 변경
- 무지개색은 되도록 피하기
데이터 시각화 in Python
matplotlib
선그래프
- zip
- a = [1,2,3], b = [a,b,c]일때
- zip(a,b) = [(1,a), (2,b), (3,c)]
- line 3 :
막대그래프
히스토그램
- counter : 딕셔너리형태로 저장
산점도
-
scatter : 점만 찍음
-
annotate : 주석
네트워크 시각화
- pos = 좌표
- sns 친구 관계등을 시각화 할때 사용 가능함