[심화 프로젝트] 주제 탐방

Suhyeon Lee·2024년 11월 29일
0

ON AIR 분석 절차

1. Objective (목표)

  • 프로젝트 목표: 이 프로젝트의 주요 목표를 명확히 기술합니다. 어떤 문제를 해결하고자 하는지 또는 어떤 비즈니스 목표를 달성하려는지를 설명합니다.
  • 예상 결과물: 이 프로젝트를 통해 기대되는 결과물과 도출하고자 하는 인사이트를 명시합니다.

2. Necessary data (데이터)

  • 데이터 소스: 사용할 데이터의 출처를 설명하고, 필요한 데이터 유형과 범위를 명시합니다.
  • 데이터 수집 계획: 데이터를 수집하기 위한 계획과 방법을 기술합니다. 데이터 수집의 정확성과 완전성을 보장하기 위한 조치를 고려합니다.

3. Analytics (분석)

  • 분석 방법: 사용할 데이터 분석 기법과 모델을 선정하고, 분석을 위한 절차를 설명합니다.
  • 데이터 처리: 데이터를 정제하고 전처리하는 방법을 기술하고, 분석에 필요한 데이터의 품질을 확인합니다.
  • 시각화 계획: 데이터를 시각적으로 표현하여 인사이트를 도출하는 계획을 제시합니다.

Machine Learning

  • 모델 학습: 다양한 머신러닝 알고리즘을 사용하여 예측 모델을 학습시킵니다.
  • 모델 평가 및 선택:
    • 교차 검증: 데이터를 여러 번 나누어 학습하고 평가하여 모델의 일반화 성능을 확인.
    • 평가 지표: 정확도, 정밀도, 재현율, F1 점수, AUC 등을 사용하여 모델 성능을 평가.

4. Interpretation (해석)

  • 분석 결과 해석: 분석 결과를 해석하고, 비즈니스에 어떻게 적용할 수 있는지를 설명합니다.
    • 모델 성능 평가: 최종 모델의 성능을 평가하고, 주요 성능 지표를 분석.
    • 특성 중요도 분석: 모델의 특성 중요도를 분석하여, 고객 이탈이나 특정 영향을 미치는 주요 요인을 식별
  • 인사이트 도출: 데이터에서 도출된 인사이트와 향후 전략 수립을 위한 제언을 제시합니다.

5. Report (보고)

  • 보고서 구조: 보고서의 구조와 형식을 정의하고, 어떤 정보를 포함할 것인지를 설명합니다.
  • 시각화 활용: 보고서에 사용할 시각화 도구 및 방법을 결정하고, 강조할 요소를 구체화합니다.
  • 보고서 작성 일정: 보고서 작성 및 발표 일정을 계획하고, 이를 관리할 방법을 기술합니다.

주제 선정 토론

분류

고객 분류: 스타벅스 리워드

  • Point
  • 장점
  • 단점
    • 스타벅스를 잘 몰라서 미국 시장과 한국 시장 비교를 어떻게 해야 할지 감이 안 잡힘

음악 장르 분류: 음악 데이터

  • Point
    • 해커톤 자료를 변형한 거라서 데이터가 형식을 잘 갖추고 있는 편
  • 장점
    • 상대적으로 간단해 보임
      • 장르 분류니까
  • 단점
    • 잘 모르는 분야다
  • 궁금한 점
    • danceability의 기준이 뭘까? 분당 박자 수?
    • valence 기준은 또 뭘까? 긍정적인 느낌은 너무 주관적이지 않나?

군집

고객 클러스터링: 마케팅 데이터

  • Point
    • 커머스 기업 데이터라서 나중에 취업할 때 어필하기에는 좀 더 유리하지 않을까?
    • 브라질 데이터임(customer_city가 sao paulo 16%)
  • 장점
    • 소현튜터님
  • 단점
    • 군집분석… 자신이 없음…

고객 클러스터링: 금융 데이터

  • Point

    • 미국 금융 데이터임
      • users의 address가 미국
      • 데이터 분석을 가장 많이 쓰는 도메인의 데이터이니 해두면 나중에 도움이 많이 될 것 같음
  • 장점

    • 해야하는 일, 결과물이 명확해서 좋다
      • 고객에 대한 정보와, 카드, 지불 정보를 가지고 고객을 군집화
  • 단점

    • 군집분석… 자신이 없음…

회귀

집값 예측: 부동산 데이터

  • POINT

    • California Housing Prices 데이터셋
      • 미국 캘리포니아주 지역의 주택 가격 데이터를 기반으로, 주택 시장의 동향과 가격 결정 요인을 분석
  • 장점

    • 데이터셋이 친숙함(강의 자료에도 나왔던 친구임)
    • 회귀 수업 때 공유해주신 코드를 활용하면 쉽게 접근할 수 있음!
  • 단점

    • 진짜 옛날 데이터임(1990년 미국 인구조사 데이터를 기반)
    • 부동산… 관심이 없어서 진짜 하나도 모름…

교통사고 피해 예측: 교통 데이터

  • POINT

    • 교통사고 위험도를 정량화하여 사고율 감소
    • ECLO (Equivalent Casualty Loss Only)라는 인명피해 심각도 지표를 중심으로 사고 데이터를 분석하여, 사고 위험도를 예측하는 AI 알고리즘을 발굴하는 것이 핵심 과제
      • ECLO: 사고로 인한 인명피해의 심각도를 나타내는 지표
        ECLO=(사망자 수×10)+(중상자 수×5)+(경상자 수×3)+(부상자 수×1)
  • 장점

    • 2023년 11월 ~ 12월 데이콘에서 실제로 진행되었던 AI 경진대회 프로젝트라서 참고할 수 있는 내용이 많음
    • 우리나라 데이터라서 이해하기 쉬울 것 같음
  • 단점

    • 이미 진행된 프로젝트라서 다른 사람들의 결과물에 휩쓸릴 위험(경진대회 1등한 사람들 발표 내용을 계속 보게 될 것 같음)
profile
2 B R 0 2 B

0개의 댓글

관련 채용 정보