TIL(2024-06-02)

JayJay Choi·2024년 6월 2일
0

TIL

목록 보기
38/61

주말 자습 1일차

Today Goal

✅ SQL 코드카타 1문제풀기 & 오답⭕

✅ 파이썬 라이브 세션 3~4주차 듣고 정리하기⭕

Today I Learn

💡SQL

✔ 6/1일에 문제르 풀었고, 따로 오답이 없었음

💡Python 300제

✔ 따로 하지 않음

💡Python 코드카타

✔ 따로 하지 않음

💡Python basic 라이브 세션

✅ 3주차

✔ 이상치, 결측치란?

  • 이상치: 전체 데이터 범위에서 벗어난 아주 작은 값이나 큰 값을 말해요.
  • 결측치: 데이터 수집 과정에서 측정되지 않거나 누락된 데이터를 말해요.
    ✔EDA 방식

    ✔결측치 처리
  • 제거

    ✔대체
  • 최빈값 : 범주형 변수에 주로 사용. 데이터가 가장 많이 도출된 값으로 대체
  • 중앙값, 평균값 : 수치형 변수에 주로 사용, 결측치에 평균값이나 중앙값을 넣음.

✔ 이상치

  • 통계적 기법 + 데이터 분석가의 주관이 적절히 조화를 이뤄져야 한다는 점을 숙지.

✔ 이상치 식별
= Z-Score

  • 데이터의 분포가 정규 분포를 이룰 때, 데이터를 표준 편차를 이용해 이상치를 탐지하는 방법
  • 각 데이터 마다 Z-score를 구함. Z값은 X에서 평균을 뺀 데이터를 표준편차로 나눈 값이며, 표준 점수라고 부릅니다.
  • 표준 점수는 일반적으로 -3에서 3사이의 값을 가지고 있다. 3(+-)이상이면 이상치로 간주.
    =IQR (박스 플롯)
  • 데이터의 분포가 정규 분포를 이루지 않음.
  • IQR 밖의 데이터 포인트는 이상치로 표시됨



    ✔이상치 처리
  • 이상치가 데이터 오류나 적절하지 않은 값일 경우 제거. 이 방식은 데이터의 표본 크기를 줄일수도있음
    -대체보다는 불리를 더 많이 사용함.
  • 이상치를 별도의 그룹으로 분리하여 분석할 수 있으며, 이상치가 데이터에 중요한 정보를 포함하고 있을 때 유용합니다.
  • 즉, 새로운 데이터프레임을 생성하여 이상치를 저장하는 것임.









How was it?

✔오늘 생각했던. 3주차 4주차 강의를 다 듣지 못했다.

✔하지만, 즐거운 시간이 었다. 스트레스가 풀리는 기분이었다.

profile
차근차근 열심히 따라가보는 왕초보의 기록들!

1개의 댓글

comment-user-thumbnail
2024년 6월 3일

저도 데이터 분석가 취준 중인데 유용한 정보 얻고 갑니다! 부트캠프 듣다가 다른 사람들은 어떻게 공부하는지 궁금할 때 가끔 블로그 찾아보고 있는데 도움이 많이 됩네요~! 혹시 데이터 분석 취준에 도움 되실까 해서 제가 듣는 부트캠프 링크도 남겨드려요! (https://bit.ly/4e6PGAp) 전에 빅데이터 국비 듣다가 코딩만 시키길래 너무 시간 낭비라는 생각이 들어서 시작했는데, 여기서 대기업 현직자 멘토분들이랑 제가 원하는 도메인 프로젝트 하고 있어요!ㅎ 'JayJay Choi'님도 취준 힘내세요!

답글 달기