조금은 더 성장한 데이터분석가 지망생

생각하는 마리오네트·2021년 11월 14일
0

독서와생각

목록 보기
2/5

데이터분석에는 적극적 분석과 소극적 분석(기계적인 분석)으로 나눌 수 있다고 생각한다.

적극적 분석, 소극적 분석이라는 말이 있는지 없는지 잘모르겠다 그냥 내가 요즘 분석에 빠져살면서 느끼는 점을 단어로 표현하려다 보니 이러한 단어를 사용하게 되었다.

내가 정의한 소극적 분석은 "데이터분석을 위해서는 전처리를 해야하는데 그 과정에는 이상치도 수정해야하고 결측값도 확인해서 적절한 방법을 사용해야하고, 모델에 넣기위해 스케일을 맞춰야하고 중복되는 값도 제거하고, 상관관계를 살펴봐야해!!" 라는것이 소극적 분석이고, 적극적 분석중복값을 예를들었을때 왜 생겼을지 컬럼별로 확인해보고 데이터프레임 전체 중복뿐만 아니라 각 컬럼별 중복값의 확인을 통해 에러에 의한 중복인지 아니면 지우면 안되는 중복인지 알아보는것 까지를 적극적 분석이라고 생각한다. 이 둘의 차이는 자기의 가설 혹은 생각 을 바탕으로 분석을 하느냐 혹은 이러이러한걸 해야하니까 마치 순서가 정해져있어서 거쳐가는 것이냐의 차이이다.

나는 최근까지도 소극적 분석과 적극적 분석이 섞여있었고, 전처리에 절차가 정해져있고 기준에 따라야한다는 생각이 있었다. 하지만, 오늘은 달랐다. 적극정 분석의 예로들었던 중복값이 실제 오늘 내가 겪은것이다. 이전에 df.duplicated().sum()으로 나온 값을 그냥 제거해주었지만, 오늘은 어쩐일인지 어떻게 중복인지 확인을 하고싶다는 호기심이 생겼고 그 결과 (쇼핑몰 데이터분석중이다.) 상품id, 상품url, 고객id가 각각 중복값이 다른값으로 존재했다. 이를 분석하여 상품id와 url은 에러에 의한 중복값임을 알아냈으며 고객id의 중복값은 한 고객이 다양한 상품을 가지고 있음을 밝혀냈다.

이전에 프로젝트를 하면서 생각지도 못한부분을 프로젝트 취업준비를 위해 수정을 하고 보완을 하던중 찾아낸 부분이다.

나는 데이터 분석이 너무재밌고, 전처리 과정또한 흥미롭고 마치 항해를 하는듯한 기분을 나에게 주는 과정이다. 이런과정에 하나하나 디테일하게 호기심을 갖다보니 이전에 보지 못했던것을 보게되고 다양한 관점으로 바라보게 되며 작성한 코드를 한번더 생각해보게 되었다.

누군가에게 이것은 당연하지만 적극적 분석을 시작하는 그때 비로서 진짜 분석가로서 준비를 시작하게 되지 않을까 하는 생각이 든다.

누구든 잘짜여진 프로그램에서 데이터분석을 배운다면 기계적인 분석은 가능할 것이다. 학원 혹은 인터넷강의에서는 이렇게 이렇게 한다 라고 배웠을테니 말이다. 하지만, 정말 자신의 생각과 고민을 하는 시간을 가지고 분석의 목적을 되짚으며 분석을 하는 적극적 분석이야 말로 자기의 프로젝트이고 자신만의 분석이 된다. 지금 수정하고 보완하는 이프로젝트가 신입 데이터분석가를 지원할때 가장 자랑할만한 포토폴리오가 될 것같다. 아직 끝나지 않았지만 그렇게 만들것이다.

조금은 성장한것 같고 오늘 배우고 느낀것을 기억하고 또 잊지않기 위해 기록해본다.

매일매일 조금씩 성장하고 정말 재밌어서 하는 데이터분석 나에게 좋은 무기가 되고 사람들에게 좋은 영향력을 줄 수 있는 시작이 되었으면 좋겠다. 오늘도 1일 1커밋 화이팅!!

profile
문제를해결하는도구로서의"데이터"

0개의 댓글