T통계량, χ²통계량, F통계량앞으로 이어지는 데이터 분석 방법은 크게 한 가지의 변수를 다루는 단변량분석, 2개의 변수를 다루는 이변량분석으로 나뉘며, 각 분석에서 우리는 '시각화' 및 '수치화' 도구를 통해 데이터를 파악할 것이다.
데이터를 시각화 할 때, 디자인적으로 훌륭한 그래프도 좋지만, 중요한 것은 통계적으로 타당한 근거를 갖는 비즈니스 인사이트를 발견하는 것이다.
시각화 자료와 통계량을 만드는 과정에서 정보가 요약되기 때문에 정보의 손실이 발생하며, 왜곡이 나타날 수 있다.
어떤 도구이든 한계가 존재한다.
ex. Datasaurus dozen
- 특정한 기초통계량과 상관 관계를 사용하여 전혀 관계없는 다양한 그래프를 생성할 수 있다.
