[TIL]2025-05-01

yeyeyeyeye·2025년 5월 1일

TIL

목록 보기
10/18

ADsP 4~6주차 복습

4주차: 데이터 이해 및 탐색

  • 데이터 타입 분류
    • 명목형(Nominal), 순서형(Ordinal), 구간형(Interval), 비율형(Ratio)
  • 대표값과 산포도
    • 평균, 중앙값, 최빈값
    • 분산, 표준편차, 사분위수, 범위
  • 분포 이해
    • 왜도(Skewness), 첨도(Kurtosis)
  • 이상치 탐지
    • 박스플롯 기준: IQR 방식으로 이상치 확인

5주차: 확률과 확률분포

  • 확률 개념
    • 독립사건과 종속사건, 조건부 확률, 베이즈 정리
  • 확률분포
    • 이산확률분포: 이항분포, 포아송분포
    • 연속확률분포: 정규분포, t-분포, 카이제곱분포
  • 중심극한정리
    • 표본평균이 모집단이 정규분포가 아니어도 정규분포를 따르게 되는 현상
  • 신뢰구간
    • 모평균 신뢰구간 계산: 정규분포 vs t-분포 기준 선택

6주차: SQL 및 데이터 처리

  • 윈도우 함수(Window Function) 실습

    • 기본 구조

      SELECT 
        user_id,
        order_date,
        SUM(order_amount) OVER (PARTITION BY user_id ORDER BY order_date) AS cum_sum
      FROM orders;
    • 자주 사용하는 함수

      • ROW_NUMBER(): 순위 매기기
      • RANK(), DENSE_RANK(): 동점 처리 가능
      • LAG(), LEAD(): 이전 또는 다음 행 참조
      • SUM() OVER(), AVG() OVER(): 누적값 계산 등
    • 예시: 고객별 최근 3건 주문 금액 평균

      SELECT *
      FROM (
        SELECT 
          user_id,
          order_id,
          order_amount,
          ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_date DESC) AS rn
        FROM orders
      ) AS ranked
      WHERE rn <= 3;

느낀 점

  • 데이터의 구조와 통계적 개념을 이해하는 것이 분석 설계의 기반이라는 점을 체감
  • SQL 윈도우 함수는 누적값, 순위, 이전 행 참조 등 실무 분석에 강력하게 활용될 수 있음
  • 단순 GROUP BY만 쓰던 방식에서 벗어나 OVER() 문법을 자연스럽게 익힘
profile
안녕하세요? 데이터분석가 되고 싶어요.

0개의 댓글