24.04.02 TIL

예진·2024년 4월 2일
0

TIL

목록 보기
60/68

고난이도 전처리에 얼타는 중...
분석 프로세스 중 가장 어려운 작업인 건 맞지만,
한 데이터셋 안에 방대한 양의 정보가 들어있어서 적절하게 거르는 게 쉽지가 않다.

사용자 기반 협업 필터링과 컨텐츠 기반 필터링을 한다고 가정했을 때,
각각에 필요한 데이터의 내용도 다르고,
해당 OTT(?) 전반의 트렌드를 파악하기 위한 통계분석과
데이터 자체를 확인하기 위한 EDA에 필요한 데이터도 다르다.

기초적인 전처리를 통해 통계분석을 하고
모델링을 위해 세부적인 전처리를 추가로 한다고 치면,
기초 전처리도 안해봤고 어떤 모델을 사용할지도 모르는 지금의 상황에서는
Unknown을 버릴지 말지, 어떤 데이터를 쓸지보다
우리가 구한 데이터 자체를 완전히 이해하는데에 초점을 맞추고 접근해야 할 것 같다.


그나저나 Karthiga씨 도대체 몇 작품을 보신거예요 오타쿠이신가요?
이렇게 온갖 정보를 한 csv에 다 때려박은 데이터셋은 첨봐서 확실히 어렵긴 어렵다.

전처리 너무 오랜만에 해봐서 감이 안잡히는 바람에,,,
컬럼별로 뜯어보고 밸류 별로 뜯어보고 갱장히 비효율적으로 작업하는 중 ㅋ ㅋ ㅋ
내일도 아마 하루종일 전처리 EDA 할듯,,,,,,,,
어떻게든 되겟지~!~!

profile
Data Analysis / 맨 땅에 헤딩

0개의 댓글