
통계학 : 모집단 정보를 알기 위해 표본(샘플)을 통해 추론하는 학문
모집단 전수 조사에는 시간과 비용 과다 발생한다
통계학은 모집단 전체를 조사하지 않고, 일부 샘플로부터 모집단을 추론하는 학문이다.
현실적으로 시간과 비용의 제약으로 전체 조사는 어렵기 때문에, 표본 기반의 분석은 모든 데이터 분석의 기본이 된다.
데이터 분석과 통계 분석의 유사성
데이터 직군의 변화
현실적으로는 "데이터 잡부"
| 도구 | 특징 |
|---|---|
| SAS | 상용 소프트웨어. 헬스케어(FDA), 금융권 중심 사용. 라이선스 비용 높음. |
| R | 통계학 전공자 중심 사용. RStudio 인터페이스 제공. 무료. 딥러닝 지원은 다소 부족. |
| Python | 활용성 매우 높음. 러닝 커브 존재. Pandas, NumPy, Seaborn 등 라이브러리 풍부. 무료. |
패키지를 단순히 사용하는 것을 넘어서, 어떤 기능을 제공하는지 구조까지 파악하는 것이 중요합니다.
통계학과 전공 로드맵 참고(서울대학교)

모두 학습하기에는 무리가 있음
탑다운 방식을 사용해야하니, "통계학", "확률 개념 일부", "회귀 분석 및 실습", "표본 설계 및 조사 실습", "생존 자료 분석 및 실습"을 위주로 학습!
통계학 학습 방법
학습 해결 방법
기술이나 방법적인 어려움이 있을 경우에는 공식 문서 이용하기
손으로 작성 -> 보고서 작성!
비즈니스 적용
비즈니스 캔버스 : 회사 사업구조를 파악해서 데이터가 적용될 부분을 파헤친다.
타 직군과 "함께" 일하기 ---> 커뮤니케이션하면서 같이 프로젝트해야 유의미!
데이터 분석을 왜 해야 할까
기존에는 휴리스틱(경험 기반 의사결정)이 중심이었음
현재는 근거 기반 판단(Evidence-based Decision Making)이 중요
데이터 접근이 쉬워짐:
저장 비용 감소
처리 능력 향상
클라우드 시스템 활성화
데이터 분석이 "필요 역량"인 이유
데이터 분석의 현실적인 적용
집계 (Pivot Table)
시각화 (Matplotlib, Seaborn)
통계 분석 (기술/추론)
머신러닝 / 딥러닝 적용
| 구분 | 설명 | 주요 기법 | 초점 |
|---|---|---|---|
| 기술통계 | 데이터 요약 | 평균, 분산, 시각화 | 설명 중심 |
| 추론통계 | 데이터 표본으로 모집단 특성 추정 | Z검정, T검정, A/B Test | 유의성 중심 |
| 머신러닝 | 패턴 학습 → 예측 | 지도/비지도 학습 | 예측 정확도 향상 |
통계의 중요성
기술 통계 필수 요소
1. 정확한 데이터 수집
2. 적절한 집계 및 시각화
3. 다양한 편향의 인지 및 제거
| 편향 | 설명 | 예시 |
|---|---|---|
| 샘플링 편향 | 대표성 없는 샘플 추출 | 다이제스트사 실패 |
| 선택 편향 | 특정 성향 데이터만 수집 | 리뷰 : 만족자만 작성 |
| 생존 편향 | 살아남은 것만 분석 | 전쟁기, 상장 기업 분석 |
| 측정 편향 | 수집 도구의 오류 | 체르노빌 측정 실패 |
| 확증 편향 | 믿음에 맞는 정보만 선택 | 선입견 강화 |
| 대표성 편향 | 소수 사례를 전체로 오해 | 성급한 일반화 |
| 후광 효과 | 일부 특성이 전체 판단에 영향 | 외모 → 능력 판단 |
종속변수 (Y): 예측 대상
독립변수 (X): 설명 변수
모집단 / 표본 / 모수 / 통계량 구분
데이터 유형
| 유형 | 설명 | 예시 |
|---|---|---|
| 명목형 | 순서 없음 | 성별, 혈액형 |
| 순서형 | 순서 있음 | 학점, 만족도 |
| 이산형 | 정수 값 | 자녀 수 |
| 연속형 | 실수 값 | 키, 무게 |