FastCampus: AI bootCamp / day28

Mil Leo·2023년 8월 24일

FastCampus: AI bootCamp log

목록 보기
29/46

Day 28 (23.08.24)

어제에 이어서 titanic dataset을 가지고 EDA를 진행하였다.
오늘의 과정은 전처리 과정의 아주 심플한 맛보기 과정같은 느낌이었다. 데이터의 결측치에 대한 처리 기준을 정하고 그에 따라서 이행하고 object 타입 컬럼들에 대한 라벨링을 진행하여 언제든 ML 모델에 input 할 수 있는 상태로 만들어 놓는 과정을 하는데 대부분의 시간을 들여 강의를 진행한 것 같다.

이 과정은 dacon에서도 경험했던 과정이었으나 역시나 여기서도 또 다른 인사이트를 얻어갈 수 있었다.(역시나 나는 초보다!)
titanic dataset의 Cabin 컬럼이 대부분의 데이터셋에서 결측값을 띄는데 결측값인 경우의 데이터셋과 결측값이 아닌 경우의 데이터셋을 분할한 결과 생존률과 fare(운임요금)의 평균에서 눈에 띄는 차이가 보였다.
결측값이 아닌 데이터셋들이 더 높은 값을 보였는데, 이는 강사님의 설명에 따르면 좋은 방을 미리 예약하거나 좋은 방이기에 미리 자료로 남을 수 있는 Cabin 값이 존재하고 그 나머지는 자유석 등의 이유로 결측된 것이 아닐까 추론해 볼 수 있지 않느냐 하시며 아예 is_cabin이라는 데이터값이 존재하는지 안하는지의 여부를 나타내는 새로운 feature를 만들었다.
이전에 내가 했던 결측 처리 과정에서 한 번 더 생각하여 고려하고 데이터의 정보를 유의미하게 가져가는 과정이었다.(물론 데이터셋이 다르긴 하지만!)
결측 처리에 대해서 어떻게 더 생각해 볼 수 있는지 또 다른 시점을 추가하여 관점의 확장을 가져오는 과정이었다.
이 이후 object type column들을 pandas의 factorize를 이용해 라벨링 한 후 예시를 위해서 sklearn의 logisticRegression model에 input하여 train 시킨 후 해당 데이터를 재예측 시켜 정확도를 보고 실습이 마무리 되었다.
역시나 어떤 과정이든 내가 아는 개념이어도 실습에서 다른 인사이트를 얻어갈 수 있으니 유익한 시간을 보낸 것 같아 기뻤다.

추후 남은 시간에는 간단하게 데이터분석을 위한 선형대수학 개관 수업이 있었는데 항상 느끼는 거지만 데이터를 다룰려고 한다면 선형대수학은 근본 중의 근본이 되는 것 같다. 선형대수학의 벡터와 연산들이 왜 데이터와 떨어질 수 없는지에 대해서 개념적으로 알아가는 수업이었던 것 같다. 개인적으로는 선형대수학이 차원을 다루기에 필연적으로 데이터들의 차원이 형성되는 ML과 ANN에서는 선형대수학에 뿌리를 둘 수 밖에 없다고 생각한다.(엄연히는 선형대수학에서 자라났다고 해야하나?ㅎㅎ)

내일 선형대수학 개관에 대해서 마무리가 된 후 드디어 본격적인 파이썬 EDA 프로젝트가 시작될 예정이다. 좀 더 몰입하여 좋은 성과와 숙련도 향상이 있었으면 좋겠다.

TIL


  • Data Preprocessing
  • Feature Engineering
  • sklearn
  • Linear Algebra

0개의 댓글