Day 26 (23.08.22)
파이썬 EDA 실습 2일차이다.
어제 못 끝냈던 부분인 seaborn의 나머지 plot들로 수업이 시작하였다. 개인적으로 scatter plot은 학과 시절 정말 셀 수 없이 봐왔던 그래프다 보니 정겨울 정도였다. 딴소리긴 하지만 데이터를 파악하는데 1차적으로 가장 좋은게 가장 기본적인 scatter plot이라고 항상 생각해왔다. 어느 그래프들 보다 직관적으로 데이터에 대한 이해를 시켜준다. 그리고 heatmap에 관한 진도가 나갔는데, 피어슨 상관계수를 기반으로 상관계수의 양 또는 음의 상관관계에 따라 색상을 달리 표시하는 그래프인데 역시나 학과 시절에 많이 봤던 그래프다. 다만 상관계수에 대해서는 이것 저것 그 수치 자체만으로 보면 안될 이유들이 존재하는데 복습 차원에서 적어보자면 내가 알고 있던 내용은 상관계수의 값이 0에 가깝다고 데이터 간의 관계가 없다는게 아니라는 것! 비선형관계가 있을 수 있음을 항상 주의해야한다. (그래서 scatter plot으로 형태를 파악하는게 중요하다!)
그리고 어느 정도 알고는 있었지만 정확한 용어는 몰랐던 Simson's paradox!

위의 사진처럼 전체 데이터는 양의 상관관계를 띄지만 사실 데이터의 범주별로 구분하여 볼 경우 실제로는 음의 상관관계를 띌 수 있다! 알고 있는 주의사항이었는데 정확한 명칭을 알지 못했었다. 그러나 이름이 워낙 독특하다보니 이제는 기억할 것 같다 :)
위의 용어는 강사님이 추가적으로 Slack에 올려 주신 자료 덕에 알 수 있었다.
그리고 본격적으로 실습에 들어갔으며 실제 EDA를 할 때 거치는 과정 및 유용한 라이브러리들을 알 수 있었다.
내일은 오늘 시작한 첫 번째 데이터에 대한 EDA를 마무리 짓고 머신러닝을 하는 사람이면 모를 수 없는 데이터 '타이타닉' 데이터를 재밌게 가지고 놀 듯 싶다.
내일도 화이팅!
TIL