아무런 처리도 되지 않은 원자료는 수치의 나열일 뿐이므로 경향 파악이 불가하다. 그렇기에 평균, 중앙값, 분산 등의 요약 및 정리를 통해 수치의 경향성을 대략적으로 파악해야 한다.
대상이 가진 성질 및 관계성을 밝히고 이를 이해하는 것이다.
데이터 분석을 통해 객관적인 증거 도출이 가능하다.
💡 증거 도출
- 실험군: 가설 검증을 위해 독립 변인 조작해 처치하는 집단
- 대조군: 실험군과 결과를 비교하기 위해 아무런 조작을 가하지 않는 집단
=> 검증을 하되, 실험 이외의 원인으로 인해 도출된 결과일 수 있는 가능성을 배제하지 않아야 한다.
💡 변수 관계
- 상관관계: 두 변수가 함께 움직이는 걸 파악할 수 있으나, 원인과 결과가 존재하는지, 그렇다면 어떤 변수인지 확인할 수 없다. 얕은 이해가 가능하다.
- 인과관계: 둘 중 하나의 원인이 변화할 경우 다른 하나도 함께 변화하는 원인과 결과 관계가 존재한다. 매커니즘 이해에 용이하며 깊은 이해가 가능하다.
특정 데이터를 기반으로 새롭게 얻은 데이터를 예측하는 것이다.
가능한 한 오차가 적은, 즉 예측이 들어맞기 쉬운 관계성을 발견할 수 있다.
퍼짐(산포)이 있는 데이터에 대해 설명 및 예측하는 역할을 한다.
=> 퍼짐이 있는 데이터는 대상이 가진 성질이나 관계성의 본질을 감추므로, 이의 본질을 어느 정도 정확히 예측하기 위해 통계학이라는 도구를 사용하는 것.
수집한 데이터를 정리하고 요약하는 방법이다. 확보한 데이터에만 집중하여, 데이터 그 자체의 특성이나 경향, 성질을 이해하는 데 용이하다.
수집한 데이터로부터 데이터의 발생원을 추정하는 방법이다. 대상을 이해하거나 데이터를 예측하는 데에 사용된다.
💡 추론 통계 종류
- 통계적 추론
데이터에서 가정한 확률 모형의 성질을 추정하는 방법- 가설검정
세운 가설과 얻은 데이터가 얼마나 들어맞는지 평가해 가설을 채택할 것인지 판단하는 방법
데이터 성질 추정 시 비교적 단순한 확률에서 생성된 것이라고 생각하는 것이다. 그 자체로 추상적이고 이해하기 어려운 성질을 단순한 확률로 단정지어 비교적 예측을 용이하게 한다.
ex) 주사위가 n이 나올 확률 => 1/6(단순 확률 모형으로 성질 예측)
✔️ 통계 분석에 다양한 방법이 존재하는 이유는, 데이터 유형 및 변수 개수, 가정하는 확률 모형 등에 따라 데이터를 이용하는 방법이 다르기 때문이다.
또한, 데이터 분석 목적에 따라 다른 통계 방법을 사용해야 할지도 모른다.
그렇기에 다양한 분석 방법을 배워야만이 적재적소에 통계를 사용해 유의미한 결론을 내놓을 가능성이 높아진다.