확률론과 통계학

Jane의 study note.·2022년 10월 1일
0

확률론과 통계학

목록 보기
1/6
post-thumbnail

1. 통계학이란?

통계학은 데이터를 과학적인 방법으로 분석해 현상을 설명하고 예측하는 학문이다.
데이터 분석 방법론은 통계학과 이론적으로 밀접해서 분석의 원리를 이해하고 데이터를 깊이 있게 분석하려면 통계지식을 갖추야 한다.

2. 확률과 통계 스터디

"김도형의 데이터 사이언스스쿨 수학편 중 6~9장 확률과 통계 파트"

6장 피지엠파이(pgmpy)로 공부하는 확률론

이 장에서는 확률론의 기초를 공부한다. 먼저 확률을 수학적으로 정의하는 방법을 공부하는데 이를 위해 집합론 기초를 복습한다. 다음으로 확률이 가진 성질을 살펴본다. 실제 확률의 모습을 묘사하기 위해서는 확률분포함수를 사용하는 것이 편리하다.

다음으로 결합확률과 조건부 확률의 정의를 살펴보고 베이즈 정리에 대해 공부한다. 그리고 베이즈 정리가 분류 문제에 어떻게 사용될 수 있는지 알아본다.

학습 목표
집합
확률의 수학적 정의와 의미
확률의 성질
확률분포함수
결합 확률과 조건부 확률
베이즈 정리
베이즈 정리와 분류 문제

7장 확률변수와 상관관계

6장에서는 확률을 어떻게 정의하는지 살펴보았다. 이 장에서는 실제 데이터값이 어떻게 나올지 묘사하는 데 확률을 사용하는 방법을 알아본다. 확률변수는 특정 데이터의 값을 대표하는 확률모형이다. 먼저 확률변수의 기댓값, 분산, 표준편차 등의 수학적 특성을 공부한다. 다음으로 여러 종류의 데이터가 존재할 때 어떤 변수의 값이 변함에 따라 이와 관련된 다른 변수의 특성이 어떻게 달라지는지 알아보고 예측 문제에 어떻게 활용되는지 살펴본다.

학습 목표
확률변수의 정의와 데이터 분석에 확률변수가 어떻게 사용되는지 알아본다.
기댓값, 분산, 표준편차의 수학적 정의와 특성을 공부한다.
다변수 확률변수간의 공분산과 독립의 의미를 살펴보고 상관계수로 상관관계를 측정하는 법을 알아본다.
조건부 기댓값의 정의와 특성을 공부하고 예측 문제에 어떻게 쓰이는지 살펴본다.

8장 사이파이로 공부하는 확률분포

이 장에서는 실제로 많이 사용되는 대표적인 몇 가지 확률분포의 수식과 활용을 알아본다. 우선 사이파이 파이썬 패키지를 사용하여 다양한 확률분포의 확률분포함수를 계산하고 해당 확률분포의 무작위 표본을 생성하는 방법을 알아본다.

확률분포에는 범주값을 출력하는 이산확률분포와 연속적인 값을 출력하는 연속확률분포가 있다. 여기에서는 베르누이분포, 이산분포, 카테고리분포, 다항분포 네 가지의 이산확률분포 정의와 확률분포함수를 공부하고 스팸메일 필터링과 같은 분류문제에 어떻게 쓰이는지 살펴본다. 연속확률분포에서는 정규분포부터 공부한다. 중심극한정리는 왜 실생활에서 정규분포가 많이 사용되는지를 알려준다. 정규분포의 변형인 스튜던트 t분포, 카이제곱분포, F분포는 데이터 간의 상관관계를 따지거나 회귀분석을 하는 필수 확률분포다. 마지막으로 베타분포, 감마분포, 디리클레분포를 이용하여 베이즈 추정의 개념을 공부한다.

학습 목표
사이파이를 이용한 확률분포 분석 방법
베르누이분포, 이항분포, 카테고리분포, 다항분포
정규분포와 중심극한정리
스튜던트 t분포, 카이제곱분포, F분포
다변수 정규분포
베타분포, 감마분포, 디리클레분포

9장 추정과 검정

이 장은 데이터 분석에서 가장 중요한 내용인 추정과 검정을 다룬다. 지금까지의 모든 수학은 추정과 검정을 하려는 기반을 쌓은 것이라고 볼 수 있다. 추정은 데이터로부터 확률분포를 찾아내는 역설계 과정이다. 추정을 통해 데이터는 확률변수로 거듭나게 된다. 검정은 이러한 추정이 어느 정도의 신뢰성을 가졌는지 알아보는 과정이다. 검정을 통해 추정 결과가 믿을만한지 아니면 믿을만한 추정을 위해 데이터가 더 필요한지를 알 수 있다.

학습 목표

모수 추정의 의미와 모멘트 방법을 알아본다.
가능도의 뜻과 최대가능도추정법을 공부하고 이를 이용하여 정규분포, 베르누이분포, 카테고리분포 등의 모수를 추정해본다.
베이즈 추정법과 사전확률, 사후확률의 의미를 익힌다. 베이즈 추정법이 가지는 장점을 알아본다.
검정 방법론을 공부하고 유의확률의 뜻과 중요성을 알아본다.
사이파이를 사용하여 기초적인 검정을 하는 방법을 공부한다.

※ 출처

김도형의 데이터 사이언스스쿨 중 6 ~9장 확률과 통계 파트

0개의 댓글