[Aiffel] 아이펠 44일차 오류 정리 및 회고

Gongsam·2022년 3월 8일
0

1. 데이터톤

1) 데이터셋

넷플릭스 데이터 셋

2) 기간

2022.03.08~2022.03.11

3) 역할

넷플릭스, 아마존 프라임, 디즈니+, HULU 데이터 EDA

4) 방향

  1. 넷플릭스의 침체기를 어떤 식으로 극복할까?
  • 볼 컨텐츠가 부족할까?
    • IMDb를 활용해 넷플릭스에는 없지만 평점 좋은 컨텐츠를 추가하자.
  1. EDA
  • 참고
  • 특정 장르가 강할 경우 사용자 수에 어떤 영향을 끼칠까

5) 진행

  1. 최대한 함수 활용하기
  2. 마주한 오류

    invalid literal for int() with base 10: 'nan'
    자료형 때문에 생기는 문제. 이 경우 series에 있는 nan값을 drop 하면 됨.
    주의할 점은 series = series.dropna() 이런 형식으로 다시 선언하기

invalid literal for int() with base 10: '2s'
자료형2 ' Season'이라는 글자를 먼저 replace해서 생긴 문제. 2 Seasons 같은 경우 먼저 2s로 바뀌어 버리기 때문. 따라서 ' Seasons'를 먼저 replace하고 ' Season'을 replace 하자.

  1. 그 밖에 정리할 것
  • 그래프 그리기: 그래프를 그리는 함수가 요구하는 인자에 따라 다르게 사용하기
    • pandas series를 바로 시각화할 경우 seaborn을 활용함
    • pandas series를 Counter로 바꿔서 시각화할 경우 plt 사용

2. 회고

학교에서 했던 과제 외에는 처음으로 해보는 데이터톤인데 쉽지 않다. EDA에 익숙하지 않아서 최대한 많이 접할 수 있는 역할을 맡겠다고 했는데 함수로 처리하면 그렇게 오래 걸리지 않을 거 같다. 그리고 있는 대로 최대한 모든 데이터를 써야하는 건지 아니면 생각해둔 방향성에 맞춰서 해야하는 건지 잘 모르겠다. 팀원하고 같이 해서 다행이라고 생각한다.

profile
🐬 파이썬 / 인공지능 / 머신러닝

0개의 댓글