ON AIR 분석 절차

1. Objective (목표)
- 프로젝트 목표: 이 프로젝트의 주요 목표를 명확히 기술합니다. 어떤 문제를 해결하고자 하는지 또는 어떤 비즈니스 목표를 달성하려는지를 설명합니다.
- 예상 결과물: 이 프로젝트를 통해 기대되는 결과물과 도출하고자 하는 인사이트를 명시합니다.
2. Necessary data (데이터)
- 데이터 소스: 사용할 데이터의 출처를 설명하고, 필요한 데이터 유형과 범위를 명시합니다.
- 데이터 수집 계획: 데이터를 수집하기 위한 계획과 방법을 기술합니다. 데이터 수집의 정확성과 완전성을 보장하기 위한 조치를 고려합니다.
3. Analytics (분석)
- 분석 방법: 사용할 데이터 분석 기법과 모델을 선정하고, 분석을 위한 절차를 설명합니다.
- 데이터 처리: 데이터를 정제하고 전처리하는 방법을 기술하고, 분석에 필요한 데이터의 품질을 확인합니다.
- 시각화 계획: 데이터를 시각적으로 표현하여 인사이트를 도출하는 계획을 제시합니다.
Machine Learning
- 모델 학습: 다양한 머신러닝 알고리즘을 사용하여 예측 모델을 학습시킵니다.
- 모델 평가 및 선택:
- 교차 검증: 데이터를 여러 번 나누어 학습하고 평가하여 모델의 일반화 성능을 확인.
- 평가 지표: 정확도, 정밀도, 재현율, F1 점수, AUC 등을 사용하여 모델 성능을 평가.
4. Interpretation (해석)
- 분석 결과 해석: 분석 결과를 해석하고, 비즈니스에 어떻게 적용할 수 있는지를 설명합니다.
- 모델 성능 평가: 최종 모델의 성능을 평가하고, 주요 성능 지표를 분석.
- 특성 중요도 분석: 모델의 특성 중요도를 분석하여, 고객 이탈이나 특정 영향을 미치는 주요 요인을 식별
- 인사이트 도출: 데이터에서 도출된 인사이트와 향후 전략 수립을 위한 제언을 제시합니다.
5. Report (보고)
- 보고서 구조: 보고서의 구조와 형식을 정의하고, 어떤 정보를 포함할 것인지를 설명합니다.
- 시각화 활용: 보고서에 사용할 시각화 도구 및 방법을 결정하고, 강조할 요소를 구체화합니다.
- 보고서 작성 일정: 보고서 작성 및 발표 일정을 계획하고, 이를 관리할 방법을 기술합니다.
주제 선정 토론
분류
고객 분류: 스타벅스 리워드
- Point
- 장점
- 단점
- 스타벅스를 잘 몰라서 미국 시장과 한국 시장 비교를 어떻게 해야 할지 감이 안 잡힘
음악 장르 분류: 음악 데이터
- Point
- 해커톤 자료를 변형한 거라서 데이터가 형식을 잘 갖추고 있는 편
- 장점
- 단점
- 궁금한 점
- danceability의 기준이 뭘까? 분당 박자 수?
- valence 기준은 또 뭘까? 긍정적인 느낌은 너무 주관적이지 않나?
군집
고객 클러스터링: 마케팅 데이터
- Point
- 커머스 기업 데이터라서 나중에 취업할 때 어필하기에는 좀 더 유리하지 않을까?
- 브라질 데이터임(customer_city가 sao paulo 16%)
- 장점
- 단점
고객 클러스터링: 금융 데이터
-
Point
- 미국 금융 데이터임
- users의 address가 미국
- 데이터 분석을 가장 많이 쓰는 도메인의 데이터이니 해두면 나중에 도움이 많이 될 것 같음
-
장점
- 해야하는 일, 결과물이 명확해서 좋다
- 고객에 대한 정보와, 카드, 지불 정보를 가지고 고객을 군집화
-
단점
회귀
집값 예측: 부동산 데이터
-
POINT
- California Housing Prices 데이터셋
- 미국 캘리포니아주 지역의 주택 가격 데이터를 기반으로, 주택 시장의 동향과 가격 결정 요인을 분석
-
장점
- 데이터셋이 친숙함(강의 자료에도 나왔던 친구임)
- 회귀 수업 때 공유해주신 코드를 활용하면 쉽게 접근할 수 있음!
-
단점
- 진짜 옛날 데이터임(1990년 미국 인구조사 데이터를 기반)
- 부동산… 관심이 없어서 진짜 하나도 모름…
교통사고 피해 예측: 교통 데이터
-
POINT
- 교통사고 위험도를 정량화하여 사고율 감소
- ECLO (Equivalent Casualty Loss Only)라는 인명피해 심각도 지표를 중심으로 사고 데이터를 분석하여, 사고 위험도를 예측하는 AI 알고리즘을 발굴하는 것이 핵심 과제
- ECLO: 사고로 인한 인명피해의 심각도를 나타내는 지표
ECLO=(사망자 수×10)+(중상자 수×5)+(경상자 수×3)+(부상자 수×1)
-
장점
- 2023년 11월 ~ 12월 데이콘에서 실제로 진행되었던 AI 경진대회 프로젝트라서 참고할 수 있는 내용이 많음
- 우리나라 데이터라서 이해하기 쉬울 것 같음
-
단점
- 이미 진행된 프로젝트라서 다른 사람들의 결과물에 휩쓸릴 위험(경진대회 1등한 사람들 발표 내용을 계속 보게 될 것 같음)