[2차] 미니프로젝트 day1

고근호·2023년 9월 6일

"실생활에 적용할 수 있는 데이터 전처리, 데이터 분석을 할 수 있다."

# 미니프로젝트 2차 미션


1. 토익 점수 데이터 분석

  • 단변량 데이터 분석
  • 이변량 데이터 분석
  • 비즈니스 인사이트 도출

=> 토익 학습/평가 데이터를 분석하여 토익 점수를 향상시킬 수 있는 비즈니스 인사이트를 도출할 수 있다.

# 데이터 셋

  • 미니프로젝트 1차를 통해 전처리를 완료한 csv 파일 활용 (toeic_preprocessed_data.csv)

  • Score_diff_total(최종 차수(2~3회차) 점수 차이)를 Target으로 선정


# 데이터 분석 순서

  1. [단변량 분석] 범주형 데이터 분석
  2. [단변량 분석] 수치형 데이터 분석
  3. [단변량 분석] 비즈니스 인사이트 도출
  4. [이변량 분석] 수치형 vs Target (‘Score_diff_total’) 과의 관계 분석
  5. [이변량 분석] 범주형형 vs Target (‘Score_diff_total’) 과의 관계 분석
  6. [이변량 분석] 비즈니스 인사이트 도출
  7. [도전미션] 새로운 변수 ‘age’, ‘age_group’ 추가 및 분석
  8. [도전미션] 새로운 변수 'Score_diff_total_2_1’ 추가 및 분석

# 데이터 분석 - 단변량 분석

  • 변수(feature)의 특징을 확인하고, 비즈니스적인 의미를 파악

  • 범주형 데이터 - 빈도 확인, Bar plot(countplot)

  • 수치형 데이터 - 기초통계량, histogram

  • 수치형 데이터 - box plot, kde plot


# 데이터 분석 - 이변량 분석

  • 가설을 통한 변수(feature)Target간의 관계를 확인하고, 비즈니스적인 의미를 파악

  • 새로운 가설을 검증하고, 데이터를 통해 검증

  • 수치형 vs 수치형 데이터 – 상관계수, 상관 분석(pearsonr)

  • 수치형 vs 수치형 데이터 – scatter plot, regplot

  • 범주형 vs 수치형 데이터 – t-test(평균 비교), ANOVA (분산 분석)

  • 범주형 vs 수치형 데이터 – barplot, boxplot


# 도전 미션

  • 3개 feature [age, age_group, Score_diff_total_2_1] 추가 및 데이터 분석

# 활용 라이브러리 및 함수


Mission 1 실습

  • 토익 점수 예측 데이터 분석

배운 점

  • 분석을 위한 가설 수립을 할 수 있다.
  • 데이터 특성을 확인할 수 있다.
  • 데이터 특성에 따라 단변량/이변량 분석을 할 수 있다.
  • 데이터 분석을 통해 비즈니스 인사이트를 도출 할 수 있다.
profile
rootgo 매일, 꾸준히 성장하는 사람🌱

0개의 댓글