[TIL#41 250418] 심화 프로젝트 시작!

강민지·2025년 4월 18일
3

데이터분석_TIL

목록 보기
44/81

Daily plan

🌞오전

- SQL 코드카타 111, 112
- 10시 심화 프로젝트 발제

🔥 오후

- 프로젝트 주제 선정
- 데이터 살펴보기 & 세부 주제 선정
- 주제 정해지면 데이터 전처리 시작!

🌝 저녁

- TIL 제출해 !!!!

이번주 목표

  • 머신러닝 강의 완강
  • 머신러닝 특강 정리&복습
  • 파이썬 스탠다드반 정리&복습
  • 머신러닝 강의 실습 끝내기!
  • SQL 코드카타 하루 3문제 이상

SQL 코드카타

Q111 - Last Person to Fit in the Bus

select person_name
from (select person_name, turn,
        sum(weight) over(order by turn) total_weight
    from queue) a
where total_weight<=1000
order by turn desc
limit 1

하루에 코드카타 1문제씩 풀고 있네....ㅋ.....ㅋㅋ


심화 프로젝트 시작

주제 선정

지난 프로젝트를 하면서 도메인 배경지식에 대한 중요성을 크게 느꼈다. 팀원들도 이에 대한 의견이 동일했고, 따라서 도메인 지식을 많이 요할 것 같은 'CNC 머신 데이터셋을 활용한 불량 예측 모델 개발', '스마트팩토리 구축을 위한 기계 이상 탐지' 이 두가지는 배제하고 선택했다.

Airbnb 숙소 데이터를 기반으로 가격 예측 모델 개발 및 주요 요인 분석

논의 끝에 컬럼 수가 많고 그만큼 정보가 많아서 여러가지를 시도해볼 수 있을 것 같다고 여겨진 에어비앤비 데이터로 주제를 선정했다.

데이터 확인 및 세부 주제 선정

팀원들과 지난 프로젝트에서 좋았던 점과 아쉬웠던 점, 이를 바탕으로 이번 프로젝트에서 반영하거나 유의할 것들에 대해 간략하게 이야기를 나눴다.

  • 분석을 하면서 다른 방향으로 새지 않도록 분석 목적을 명확하게 설정하기
  • 팀원들이 다 다른 방향으로 가지 않도록 중간중간 확인하기

데이터를 살펴 보자...

  • 2025/03/02 기준 실제 뉴욕시의 에어비앤비 숙소 정보를 크롤링한 데이터
  • 총 72개 컬럼 (shape: 22308, 72)
    • 컬럼수가 많아서 1차 당황...
    • 그래도 필요없는 것들을 걸러내고 나니까 25개 정도로 많이 추려낼 수 있었다
    • 하지만 걸러낸 것 중에서 또 필요한 게 생길 수도 있으니까,, 잘 확인하면서 분석하자,,
  • 컬럼별 전처리
    • amenities 지옥에 갇혔다.. 카테고리로 분류하는 게 최선의 방법일 거 같은데 이거 카테고리 분류 어케 함??? 덜어낼 건 과감하게 덜어내야 할 것 같다.. 근데 덜어내려고 하면 자꾸 눈에 밟힘,, 안고 가기엔 너무 많고 버리기엔 왠지 아까운 이 기분...... 난 미니멀리스트는 확실히 안되나 보다ㅜㅜ 어쩔 수 없는 보부상임..
    • amenities가 너무 강력해서 다른 컬럼들을 잊을 뻔 했는데,, 호락호락하지 않은 놈들이 꽤나 많은 것 같다. property_type도 심상치 않고,, 일단 범주형 변수가 너무 많음!!!
    • 아마 전처리가 제일 오래 걸리지 않을까 싶다.... 주말에도 최대한 붙잡고 있어봐야지ㅜ.ㅜ

일기

퇴근 직전... 벽보고 머리 식히는 5조..
화이팅합시다ㅜ.ㅜ

1개의 댓글

comment-user-thumbnail
2025년 4월 20일

아주아 아주아~~

답글 달기