[statistics] Node 01. 기초 통계와 EDA

sky.dev·2025년 5월 22일

Data&AI-Uni.

목록 보기
44/77
post-thumbnail

기초통계 & EDA

통계학의 중요성

통계학 : 모집단 정보를 알기 위해 표본(샘플)을 통해 추론하는 학문
모집단 전수 조사에는 시간과 비용 과다 발생한다

통계학은 모집단 전체를 조사하지 않고, 일부 샘플로부터 모집단을 추론하는 학문이다.
현실적으로 시간과 비용의 제약으로 전체 조사는 어렵기 때문에, 표본 기반의 분석은 모든 데이터 분석의 기본이 된다.

데이터 분석과 통계 분석의 유사성

  • 빅데이터의 등장으로 모집단 수준의 데이터를 분석하는 환경이 마련됨
  • 데이터 처리·분석을 전문으로 하는 직군이 탄생

데이터 직군의 변화
현실적으로는 "데이터 잡부"

  • 데이터 전처리
  • 데이터 모델링
  • A/B test
  • 모델 서빙
  1. 통계 관련 도구 비교
도구특징
SAS상용 소프트웨어. 헬스케어(FDA), 금융권 중심 사용. 라이선스 비용 높음.
R통계학 전공자 중심 사용. RStudio 인터페이스 제공. 무료. 딥러닝 지원은 다소 부족.
Python활용성 매우 높음. 러닝 커브 존재. Pandas, NumPy, Seaborn 등 라이브러리 풍부. 무료.
  1. 모듈
    Pandas, Matplotlib, seaborn
    Numpy : 선형대수, 분포 계산
    Scipy : 통계 검정 (t-test, chi-squared test 등)
    Statsmodel : 회귀분석, 시계열분석, 분산 분석(ANOVA) 등의 통계툴

패키지를 단순히 사용하는 것을 넘어서, 어떤 기능을 제공하는지 구조까지 파악하는 것이 중요합니다.

통계학과 전공 로드맵 참고(서울대학교)

모두 학습하기에는 무리가 있음
탑다운 방식을 사용해야하니, "통계학", "확률 개념 일부", "회귀 분석 및 실습", "표본 설계 및 조사 실습", "생존 자료 분석 및 실습"을 위주로 학습!

통계학 학습 방법

  • 쉬운 책 학습(ex. 데이터 과학을 위한 통계)
  • 유튜브 구독(ex. Data scientist 이지영)
  • 최소한의 수식 읽어볼 것(ex. 인하대 통계학 책)

학습 해결 방법
기술이나 방법적인 어려움이 있을 경우에는 공식 문서 이용하기
손으로 작성 -> 보고서 작성!

비즈니스 적용
비즈니스 캔버스 : 회사 사업구조를 파악해서 데이터가 적용될 부분을 파헤친다.
타 직군과 "함께" 일하기 ---> 커뮤니케이션하면서 같이 프로젝트해야 유의미!


데이터 분석과 통계

데이터 분석을 왜 해야 할까

기존에는 휴리스틱(경험 기반 의사결정)이 중심이었음
현재는 근거 기반 판단(Evidence-based Decision Making)이 중요

데이터 접근이 쉬워짐:
저장 비용 감소
처리 능력 향상
클라우드 시스템 활성화

데이터 분석이 "필요 역량"인 이유

  • 새로운 개념이 아님 (상황과 회사에 따라 적용 가능)
  • 누구나 도구를 사용할 수 있음 → 도메인 지식 필수

데이터 분석의 현실적인 적용
집계 (Pivot Table)
시각화 (Matplotlib, Seaborn)
통계 분석 (기술/추론)
머신러닝 / 딥러닝 적용

기술통계 vs 추론통계 vs 머신러닝

구분설명주요 기법초점
기술통계데이터 요약평균, 분산, 시각화설명 중심
추론통계데이터 표본으로 모집단 특성 추정Z검정, T검정, A/B Test유의성 중심
머신러닝패턴 학습 → 예측지도/비지도 학습예측 정확도 향상

통계의 중요성

  • 데이터 리터러시(Data Literacy)
    데이터를 읽고, 해석하고, 비판적으로 사용할 수 있는 능력

기술 통계 필수 요소
1. 정확한 데이터 수집
2. 적절한 집계 및 시각화
3. 다양한 편향의 인지 및 제거

편향설명예시
샘플링 편향대표성 없는 샘플 추출다이제스트사 실패
선택 편향특정 성향 데이터만 수집리뷰 : 만족자만 작성
생존 편향살아남은 것만 분석전쟁기, 상장 기업 분석
측정 편향수집 도구의 오류체르노빌 측정 실패
확증 편향믿음에 맞는 정보만 선택선입견 강화
대표성 편향소수 사례를 전체로 오해성급한 일반화
후광 효과일부 특성이 전체 판단에 영향외모 → 능력 판단

중심 경향치와 산포도

종속변수 (Y): 예측 대상
독립변수 (X): 설명 변수
모집단 / 표본 / 모수 / 통계량 구분

데이터 유형

유형설명예시
명목형순서 없음성별, 혈액형
순서형순서 있음학점, 만족도
이산형정수 값자녀 수
연속형실수 값키, 무게

0개의 댓글