[TIL]데이터 분석 부트캠프(4기) 40일차
0. 들어가며
- 눈이 아프다.. 머리가 아프다..
- 비지도학습은 역시 어렵구나..
- 이해가 안되지만 이해를 하려고 노력하고 있다!
1. 오전 일과
1-1 코드카타 및 내용 정리
내용 정리 링크
https://velog.io/@dav74/%EC%BD%94%EB%93%9C%EC%B9%B4%ED%83%80-SQL-56-Friend-Requests-Who-Has-the-Most-Friends
- 코드카타 1문제 풀이 완료
- 문제의 조건을 어떻게 생각하느냐에 따라 문제 풀이 방법이 달라짐
- 컬럼 2개에서 가장 연관이 많은 사람이 가장 많은 친구가 있는 사람으로 풀이
1-2 심화 프로젝트 (계속)
- 진행 사항
- 인코딩 및 컬럼 그룹화 실시
- 범주화 컬럼의 활용
- 중복값을 그룹화를 통해 제거
2. 오후 일과
2-1 심화 프로젝트 (계속)
- 진행 사항
- 모델링 진행 전 튜터님께 피드백 받기
- 표준화 실시 및 인코딩한 컬럼 추가 위치 피드백
- 파생변수 생성 - 표준화실시 - 그룹화 - 인코딩(원핫인코딩 사용)
- 라벨인코딩을 사용하지 않은 이유
- 표준화를 통해 -1~1사이의 값으로 변경하였는데 라벨인코딩을 할 경우 그 범위를 벗어나서 해당 컬럼에 대해 가중치가 될 수 있기 때문
3. 마치며
- '매일 튜터님 찾아가기!' 가 중요하다.
- 오늘 진행한 프로젝트 관련해서 어디까지 진행하였으며, 방향성이 맞는지 지속 확인이 필요
- 특히, 비지도학습인만큼 정답은 없다고 하지만 최소한의 기준은 있다고 생각하기 때문!
- 내일은 계속 모델링 지속예정
- 다만, 일부 예상했던 것보다 계수가 낮게 나오는 문제가 있기 때문에 그 부분은 토의해볼 필요가 있을듯함