머신러닝 주제 후보

최두희·2024년 6월 28일
  1. 음악 추천시스템: 음악 개인화 서비스
    1-1. 데이터셋:
    a) Million Song Dataset: http://millionsongdataset.com/
    -> 데이터 크기: 280GB, 1.8GB(10000songs) - AWS 이미지 클론, h5 파일형식
    b) 캐글: https://www.kaggle.com/competitions/msdchallenge
    -> 데이터 크기: 39.29MB - zip, txt. pdf
    c) Spotify: https://open.spotify.com/
    -> API 사용 데이터 수집
    d) Last.fm: https://www.last.fm/
    -> API 사용 데이터 수집

    1-2. 장점:

  • 현재 많은 기업에서 사용 하고 있는 개인화(추천, 맞춤) 서비스에 대해 연습해 볼 수 있음

  • 데이터셋을 구할 수 있음

  • 사람들에게 적당히 알려진 머신러닝 프로젝트 (레퍼런스-중)

    1-3. 단점:

  • 익숙하지 않은 데이터 형태

  • 크롤링을 할 수도 있음

  1. 소비자 구매 행동 예측: 소비자 구매를 예측해서 마케팅 진행
    2-1. 데이터셋:
    a) 캐글: https://www.kaggle.com/datasets/vijayuv/onlineretail
    -> 데이터 크기: 45.58MB - CSV
    b) 캐글: https://www.kaggle.com/c/instacart-market-basket-analysis/data
    -> 데이터 크기: 205.77MB - CSV1-2. 장점:
  • 이커머스 마케팅 관련 업무에 많이 사용 되고 있음

  • 데이터셋을 구할 수 있음

  • 사람들에게 잘 알려진 머신러닝 프로젝트 (레퍼런스-상)

    1-3. 단점:

  • 많이 알려져 있음

  1. 애완견 상태 파악: 애완견이 현재 어떤 상태인지(행복, 슬픔 등) 예측
    3-1. 데이터셋:
    a) 캐글: https://www.kaggle.com/datasets/arashnic/animal-behavior-analysis?resource=download&select=DogInfo.xlsx (행동 분석이라 적합X)
    b) 더미 데이터 직접 생성1-2. 장점:
  • 실제 상품화, 관련 앱 생성 아이템 좋음

    1-3. 단점:

  • 데이터 구하기 어려움

  1. 이미지 판별 및 키워드 생성
    4-1. 데이터셋: 인스타, 구글 이미지

  2. 자전거 대여 수요 예측
    5-1. 데이터셋: 공공데이터 포탈

  3. 배달 시간 예측
    6-1. 데이터셋: 캐글

  4. 해파리 출몰 예측
    7-1. 데이터셋: 공공데이터포털(https://www.data.go.kr/data/15059041/openapi.do)

profile
안녕하세요!

0개의 댓글