통계는 일종의 과학이며 적은 표본(샘플)로도 큰 모집단에 대한 결론을 도출하기 위한 작업이다.
우리가 아는 데이터 과학이라는 학문의 분야로 발전하기 시작했다.
결국 가공되지 않은 막대한 양의 데이터를 어떻게 가공하냐가 1차적인 중요점이다.
데이터 종류를 분류하는 일은 굉장히 중요한데, 이를 통해 사용되는 분석 모델이 다르기 때문이다.
데이터 프레임 : 테이블 형태의 데이터 구조
피처(feature) : 테이블의 각 열이 하나의 피처 ( 특징, 속성, 입력, 예측변수predictor, 변수)
결과 outcome : 결과를 예측하는데 있다. (종속변수, 응답, 목표, 출력)
레코드 record : 테이블의 각 행은 하나의 레코드 (기록값, 사건case, 사례, 예제, 관측값, 패턴, 샘플)
mean 평균 : 모든 값의 총합을 갯수로 나눈 값(average)
가중 평균 weighted mean 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값(가중평균)
중간값 median : 데이터에서 가장 가운데 위치한 값
절사평균 trimmed mean : 정해진 개수의 극단값을 제외한 나머지 값들의 평균(절단평균)
robust : 극단값들에 민감하지 ㅇ낳다 (resistant 저항성이 있다)
특잇값(outlier) : 대부분의 값과 매우 다른 데이터 값
테이블 데이터는 기본적으로는 각 레코드(사건)의 행과, 피처(변수)열로 이루어진 2차원 행렬이다.
파이썬 모듈 : pandas의 dataframe
R의 모듈 : data.frame / row.names/ data.table / dplyr