TIL_2024.1.19

김희정·2024년 1월 19일

TIL

목록 보기
35/57
post-thumbnail

오늘 한 것

  • 코드카타 풀기
  • 1, 2채널 프로젝트 발표영상 시청
  • 통계학 수강하기 ☠️☠️
  • python 개인과제 피드백을 보고 회고하기

평균을 망치는 왜도와 이상치

왜도 Skewness

  • 왜도는 특정한 방향으로 데이터가 쏠려있는 것.
  • 왜도가 있으면 평균이 전체 데이터를 대표하지 못함

    출처

이상치 Outlier

  • 다른 관측치와 유의하게 다른 데이터
  • 유의하다는 의미가 다 다를 수 있기 때문에, 이상치에 대한 분류는 데이터에 따라 다름
  • 이상치는 소수의 데이터가 평균에 크게 영향을 주기 때문에, 평균을 구할때 제거하거나 변환하는 것이 일반적
  • ex) 탈퇴한 고객의 데이터를 age = 118로 모두 설정해버리는 등..

    출처-미디엄

통계 강의를 듣고 있긴 한데 점점 갈수록 튜터님 말도 빨라지고, 나의 마음도 조급해지고..ㅋ
그나마 이해한 내용 중에 위에 왜도와 이상치 부분이 인상적이었다.

어제로 마친 데이터 분석에서 고소득자와 그 아래 소득층과의 건당 평균 매출액이 큰 차이로 벌어져있었는데, 일단 한가지 목표 및 결론을 세우고 싶어서 세 그룹의 평균 건당 매출액을 계산해서 이를 통해 해결방안을 제시하는 방향으로 나갔었다.
왜도 부분의 c 와 같은 그래프가 되었는데 당연히 고소득자의 평균금액이 훨씬 높으니 전체의 평균치가 덩달아 높아졌고, 그에 따라 저소득층과 중소득층은 평균보다 못미치는 금액이 나올 수 밖에 없는 것이다.

이럴때는 왜도에 해당하는 부분을 떨어트려놓고 분석해야 한다는 사실을 새롭게 알게되었다!

프로젝트 중 담당 튜터님께서 우리 데이터에 아웃라이어 집단이 있을 수도 있는데 이건 나중에 배울테니 일단 알아만 두라고 하셨는데 그게 바로 다다음날에 배우게될 줄이야 ㅎㅎ..

통계라는게 이해하기 매우 어려운 개념이긴 했지만, 데이터의 신뢰성을 주기 위해선 필수로 알아둬야하는 지식이라는걸 알게되었고, 어렵더라도 포기하지 않고 공부해보려고 한다 🧐

profile
데이터 애널리스트가 되고 싶은

0개의 댓글