데이터 과학을 위한 통계, 용어정리

이장훈·2021년 1월 20일
0

통계학

목록 보기
1/1

탐색적 데이터 분석(EDA, Exploratory Data Analysis)

  • 통계는 일종의 과학이며 적은 표본(샘플)로도 큰 모집단에 대한 결론을 도출하기 위한 작업이다.

  • 우리가 아는 데이터 과학이라는 학문의 분야로 발전하기 시작했다.

  • 결국 가공되지 않은 막대한 양의 데이터를 어떻게 가공하냐가 1차적인 중요점이다.

  • 데이터 종류를 분류하는 일은 굉장히 중요한데, 이를 통해 사용되는 분석 모델이 다르기 때문이다.

    용어정리

  • 데이터 프레임 : 테이블 형태의 데이터 구조

  • 피처(feature) : 테이블의 각 열이 하나의 피처 ( 특징, 속성, 입력, 예측변수predictor, 변수)

  • 결과 outcome : 결과를 예측하는데 있다. (종속변수, 응답, 목표, 출력)

  • 레코드 record : 테이블의 각 행은 하나의 레코드 (기록값, 사건case, 사례, 예제, 관측값, 패턴, 샘플)

  • mean 평균 : 모든 값의 총합을 갯수로 나눈 값(average)

  • 가중 평균 weighted mean 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값(가중평균)

  • 중간값 median : 데이터에서 가장 가운데 위치한 값

  • 절사평균 trimmed mean : 정해진 개수의 극단값을 제외한 나머지 값들의 평균(절단평균)

  • robust : 극단값들에 민감하지 ㅇ낳다 (resistant 저항성이 있다)

  • 특잇값(outlier) : 대부분의 값과 매우 다른 데이터 값

    테이블 데이터는 기본적으로는 각 레코드(사건)의 행과, 피처(변수)열로 이루어진 2차원 행렬이다.

  • 파이썬 모듈 : pandas의 dataframe

  • R의 모듈 : data.frame / row.names/ data.table / dplyr

profile
개발자가 꿈입니다.

0개의 댓글