[Data Analysis] 데이터 구조와 EDA & CDA

송아지·2024년 9월 25일

Data Analysis

목록 보기
2/10

1. 분석 할 수 있는 데이터(정보)의 종류

  • 수립한 가설에서 x와 y 모두 '정보'라 부름
  • 데이터 종류
    • 범주형 데이터(질적 데이터, 정성적 데이터)
      • 명목형 데이터(ex) 성별, 주소 등)
      • 순서형 데이터(ex) 등급, 학년 등)
    • 수치형 데이터(양적 데이터, 정량적 데이터)
      • 이산형 데이터(ex) 나이, 통화량 등)
      • 연속형 데이터(ex) 온도, 몸무게 등)

2. 분석을 위한 데이터 구조

  • x : 특징, 요인, input, 독립변수
  • y : 목표, 결과, output, 종속변수, Label
  • 2차원 구조
    • 열 : 정보, 변수
    • 행 : 분석 단위, 관측치

3. 전처리 종류

  • 데이터 구조 만들기 -> EDA & CDA
  • 모델링을 위한 전처리 -> ML, DL 모델링

4. EDA와 CDA 진행 순서

  • target : 암 발생 여부
  • feature : 흡연, 나이, 성별

4-1. 다변량 분석

  • 개별 변수의 분포
  • 나이 분포 분석 등

4-2. 이변량 분석 1

  • feature와 target 간의 관계(가설 확인 단계)
  • 흡연에 따른 암 발생 여부

4-3. 이변량 분석 2

  • feature들 간의 관계
  • 나이와 흡연에 대한 관계 확인
profile
데이터 분석가&엔지니어를 희망하는 취준생

0개의 댓글