✏️ 2025. 01. 13 TIL

Dada·2025년 1월 13일

▶ 통계학 기초 : 4. 회귀

  • 단순선형회귀: 하나의 독립변수와 하나의 종속변수 간의 관계를 직선으로 모델링하는 방법
  • 다중선형회귀: 두 개 이상의 독립변수와 하나의 종속변수 간의 관계를 모델링
  • 범주형 변수: 수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수
    • (예시) 순서가 있는 범주형 변수: 옷의 사이즈, 수능 등급 등
    • (예시) 순서가 없는 범주형 변수: 성별, 지역 등
  • 다항회귀:
    • 독립 변수의 다항식을 사용하여 종속 변수를 예측
    • 데이터가 곡선적 경향을 따를 때 사용
  • 스플라인 회귀:
    • 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
    • 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선 생성

▶ 통계학 기초 : 5. 상관관계

  • 피어슨 상관계수: 두 연속형 변수 간의 선형 관계를 측정하는 지표
    • 비선형 관계에서는 사용할 수 없음
  • 비모수 상관계수: 데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
    • 예시 : 스피어만 상관계수, 켄달의 타우 상관계수 등..
  • 상호정보 상관계수: 두 변수 간의 정보의존성을 바탕으로 비선형 관계를 탐지
    • 두 변수가 범주형 변수일 때, 비선형적이고 복잡한 관계를 탐지하고자 할 때 사용

▶ 통계학 기초 : 6. 가설검정의 주의점

  • 재현 가능성 : 우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나오는지 확인해야함
  • p-해킹: 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위 (데이터 분석 결과의 신뢰성을 저하시킴)
  • 선택적 보고: 유의미한 결과만을 보고하고 유의미하지 않은 결과는 보고하지 않는 행위 (마찬가지로 데이터 분석의 결과를 왜곡하고 신뢰성을 저하시킴)
  • 자료 수집 중단 시점 결정: 데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정해야함. (원하는 결과가 나올 때 까지 데이터를 계속 수집할 가능성 존재)
  • 데이터 탐색과 검증 분리: 데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 독립적인 데이터셋 사용 → 데이터 과적합을 방지하고 결과의 신뢰성을 높임

▶ 머신러닝 기초 : 1. 머신러닝의 기초

  • 머신러닝 관련 용어 정의
    • AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템
    • Machine Learning: 관측된 패턴을 기반으로 의사결정을 하기 위한 알고리즘
    • Deep Learning: AI를 포괄하여 통계학과 컴퓨터 공학을 바탕으로 발전한 융합학문
    • Data Analysis : 데이터 집계, 통계 분석, 머신러닝을 포함한 행위
  • 머신러닝의 종류
    • 지도 학습 ( Supervised Learning )
      • 문제와 정답을 모두 알려주고 학습시키는 방법 > 예측, 분류
    • 비지도 학습 ( Unsupervised Learning )
      • 답을 가르쳐주지 않고 학습시키는 방법 > 연관 규칙, 군집
    • 강화학습 (Reinforcement Learning)
      • 보상을 통해 상은 최대화, 벌은 최소화하는 방향으로 강화하는 학습 > 보상

0개의 댓글