오늘 제로베이스 수업이 통계학 관련 수업이였다,,,데이터사이언티스트가 되기 위해서는 모르면 안된다는 통계학,,,수학을 안한지가 까마득한데 잘 할 수 있을까ㅜㅠ그러면서 통계학 관련 자료를 리마인드시키면서 VELOG작성해야겠다.


데이터의 이해

질적 변수: 몇 개의 범주로 구분하여 표현할 수 있는 데이터
양적 변수: 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고있다.

Exploratory Data Analysis(EDA)

데이터 분석하는 과정에서 가장 많이 사용되는 분석 방법

목적

  1. 초기에 가설을 수립하기 위해 사용한다.
  2. 초기에 적절한 모델 및 기법을 선정한다.
  3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가한다.
  4. 분석 데이터에 적절한 평가, 추가 수집, 이상치 발견 등에 활용한다.

확률 분포

확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타낼 수 있는 함수

이산형 확률 분포

이산형 균등 분포

확률 변수가 X가 유한적이고 모든 확률 변수에 대하여 균일한 확률을 갖는 분포

베르누이 시행

각 시행의 결과가 성공, 실패 두 가지 결과만 존재하는 시행


이항 분포

연속적인 베르누이 시행을 거쳐 나타나는 확률 분포
서로 독립적인 베르누이 시행을 n번 반복하여 성공한 획수 X의 확률 분포

기대값: np
분산: np(1-p)

포아송 분포

어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포
조건
1. 어떤 단위 구간 동안 이를 더 작은 단위로 나눌 수 있고, 이 구간 중에 어떤 사건이 발생활 확률은 전체 척도 중에서 항상 일정하다.
2. 2개 이상의 사건이 동시에 발생할 확률은 0에 가깝다.
3, 어떤 단위 구간의 사건의 발생은 다른 단위 구간의 발생으로부터 독립적이다.
4, 특정 구간에서의 사건 발생 확률은 그 구간의 크기에 비례한다.
5, 포아송분포 확률 변수의 기대값과 분산은 λ이다.

기하 분포

어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따른다.

음이항 분포

성공 확률이 p일 때, r번의 실패가 나올 때까지 성공 횟수 X의 확률 분포

이상 통계 중에서 이산형 확률 분포에 대해서 알아보았다,,

profile
문과생 데이터사이언티스트되기 프로젝트

0개의 댓글