25.4.22TIL

황효정·2025년 4월 22일

데이터 분석

목록 보기
45/88
post-thumbnail

금일도 멘탈 바사삭,, 사건,, 이 있었고,,(프로젝트 나누는데 팀원들 무슨말 하는지 못알아듣겠,,) 스벅 갔는데 와파가 잘 안되서 진자,,, 돈이랑 시간 소비많이하고,, 다른 카페로 옮겼다.. 노트북 들고는 그 지점은 다시안갈것임..

암튼 프로젝트 기간+개인공부 같이 가져가려니 쉽지않다.

일단 오늘 우리 담당 튜터님께서 우리조에 오셔서 조언 해주신 내용:

  • 상관관계가 많이 없으면->다시 돌아가서 보고->또 다시 돌아가서 봐야 함. 유의미한 것을 뽑아내야하니까.
    데이터는 보수적으로 보는게 맞다.
    결측치가 많아도 중요한 컬럼일 수 있음.
    처음으로 다시 돌아가서 보는 것도 필요함. 현업에서도 그럼.
    주제를 먼저 생각한다. 컬럼별로 끌어와서 어떤게 있는지 분석한다고 함.
    데이터에 대한 감을 해보면서 익혀야 한다는 것.을 말씀해주심.

감사한것은 멘탈 바사삭 된후에 바로 매니저님 또 찾아감.. 그리고 튜터님께 상담을 받았다.

프로젝트 하면서 느끼는 것은.. 역시 많이 해봐야겠다. 라는 생각이 든다. 현재 우리 조가 하고 있는 주제는 airbnb이고 분석모델은 '회귀'인데, 컬럼 갯수가 너무 많아서 이 컬럼들을 어떻게 빼고 전처리 할지를 지금 계속 해보고 있다. 다른 조원분들은 막 통계기법, 머신러닝에 넣어서 보고 계시고 있고, 나는 상관계수로 컬럼들을 하나씩 보면서 하나씩 생각해보고 뜯어보고 있다. 결측치가 많아도 중요하다고 생각되는 컬럼들이 있고, 실제로 가격에 영향을 미치는 요소들이 이런 것들이라고 생각되는 요소들이 있다. 이번 주제는 나한테는 좋은것이, 아무래도 도메인 지식이 있다보니 저번 프로젝트보다는 훨씬 수월한것 같다.(오히려). 이번 프로젝트가 머신러닝 기법까지 사용해야 하는 프로젝트이기 때문에 오히려 저번프로젝트보다 훨씬 복잡해졌다. 하지만 나에게는 오히려 좋아.. 이런 느낌. 저번 프로젝트는 도메인 지식이 아예 없어서 더 힘들었다.(+데이터 전처리 및 시각화 개념이 잡혀있지 않았음.)
그래서 지금 하나하나씩 빼고 있는데 시간이 너무 많이 걸린다.

현재 내가 하고 있는 방향은->수치형데이터끼리의 상관관계 분석 후 상관관계가 있는 데이터들 뜯어보고 하나씩 제거, 오늘은 범주형 데이터들끼리의 상관관계를 시각화로 만들어보았다. 내일은 수치형 그거 제거하고 범주형 그것도 봐야하는데,,, 시간이 너무 많이 걸린다.. 물론 개인공부를 해서도 있다.

결국은 eda라는 것은 쪼개고 쪼개는 것. 그래프 그려보는 것. 점점 세분화 해서 타겟층을 세분화하는 것. 이다.

밑의 링크는 내가 하고 있는 전처리 작업 노션
https://www.notion.so/teamsparta/1d92dc3ef51480199eb0eb1830a70b46

<데이터 전처리 4강 ing>
데이터 시각화의 목적: 효과적으로 정보를 전달하고 의사결정을 더 쉽게 할 수 있도록. 데이터를 잘 전달하기 위함. ->기대효과에 대해 시각화된 자료와 분석결과를 전달한다면 큰 설득력을 갖추게 될 것.

matplotlib: 파이선의 시각화 라이브러리. 여러가지 그래프를 만들 수 있음. 히스토그램, 산점도, 막대 그래프

pyplot: 멧플럿립 라이브러리의 일부로, 선 그래프, 막대 그래프, 파이 차트, 히스토그램 등 다양한 그래프를 그릴 수 있게 도와주는 함수들의 모음이다. plt로 줄여부른다. (별칭을 준다)

길을 잃었다가 이제서야 가닥이 잡힌다.

앞으로 해야 할 일들:
-시각화 강의 다 듣고 정리하기
-실습파일 해보고 이해하기
-지금 하고 있는 전처리 진행하기

profile
청지기

0개의 댓글