[내일배움캠프] 40일

노경민·2025년 7월 11일
0

🧠 오늘의 학습 목표

  • 데이터 분석 프로젝트를 어떻게 기획하고 완수하는지에 대한 전체 흐름을 학습
  • 프로젝트 설계, 데이터 수집, 전처리, 통계 검정, 모델링, 결과 보고 및 서비스화까지의 단계적 프로세스 정리
  • 실무 관점에서 문제를 정의하고 팀 프로젝트로 협업하는 방법까지 포함

🏆 주요 학습 내용 정리

🧩 프로젝트 설계 및 기획

📌 분석의 4단계

  1. Descriptive (설명형): 데이터 현황을 파악
  2. Diagnostic (진단형): 문제 원인 분석
  3. Predictive (예측형): 미래 예측
  4. Prescriptive (처방형): 최적의 해결 방안 제시

📌 주제 선정 방식

  • Top-down: 사회적 문제나 비즈니스 이슈로부터 시작
  • Bottom-up: 재밌거나 이상한 데이터를 먼저 보고 주제 도출

📌 문제 정의

  • 막연한 고민을 구체적 지표와 조건을 갖춘 데이터로 풀 수 있는 문제로 바꾸는 것이 핵심
  • Logic Tree로 문제를 쪼개고 단계적으로 접근

👁️ 데이터 수집, 시각화, 전처리

📌 데이터 수집

  • 내부 DB, API, 크롤링을 통해 획득
  • 데이터는 대부분 "가져다 주지 않는다" → 능동적으로 찾고 연결해야 함

📌 데이터 시각화

  • 목적에 맞는 시각화 형태 선택 (Label, 축, 단위명시 중요)
  • 대표 도구: Excel, Python(Matplotlib/Seaborn), Tableau, Streamlit 등

📌 데이터 전처리

  • 결측치 처리, 이상치 제거, 변수 선택(피처 엔지니어링 포함)
  • Feature Scaling, Encoding 등도 포함됨

📊 통계 검정

  • 가설 검정을 통해 ‘우연인가 vs. 통계적으로 유의미한가’를 판단

  • 대표 기법:

    • t-test: 평균 차이 검정 (예: VIP vs 일반 고객)
    • chi-squared test: 비율 차이 검정 (예: 클릭률, 전환율)
    • A/B 테스트: 실험 설계 기반 UI 개선 등

🦾 머신러닝 모델링

📌 학습 방법 단계

  1. Kaggle, 블로그 노트북 탐색
  2. VOD/튜토리얼 강의로 실전 감각 향상
  3. Scikit-learn 공식문서로 기능과 파라미터 이해
  4. AutoML 도구(Pycaret, Optuna 등)로 고도화
  5. MLOps → API로 서비스화까지 확장

📌 모델 적용 유형

  • 지도학습

    • 예측 중시: RandomForest, Boosting
    • 해석 중시: 선형 회귀 계열
  • 비지도학습

    • 군집화, 이상치 탐지: KMeans, IsolationForest
  • 시계열 분석: Prophet, statsmodel

  • LLM 활용: 자연어 응답 자동화 (RAG, Text-to-SQL 등)


🔖 결과 보고 및 시각화

  • 분석 결과는 PDF, PPT 외에도 Interactive한 웹 기반 리포트(예: Streamlit, Dash 등)로 전달
  • SaaS 기반 도구(Tableau, Google Sheet 등)도 협업에 용이

🤖 모델링 서비스화

  1. 디렉토리 구성: 모델 구조, API, 예측 결과 파일 체계적 정리
  2. Flask 기반 API 서빙: 학습된 모델을 .py 형태로 API화
  3. Docker + Cloud: 어느 서버든 동일하게 실행 가능, GCP/AWS 배포
  4. 결과물 예시: “온도 예측 시스템”처럼 실제 결과 보여주는 웹 인터페이스 구현

🤔 협업과 마인드셋

  • Scrum 방식 협업: 기능 분담, 주간 회고, Notion & Github 정리

  • 문서화의 중요성: Git, 블로그, Google Docs 등 활용하여 기록 남기기

  • 초기 마인드셋

    • “완벽보다 실행 우선”
    • “작게 시도하고 빠르게 반복”
    • “기술보다 문제 해결의 목적이 먼저”

✍️ 느낀 점

  • 이론적 개념을 실무 적용까지 연결시키는 훈련이 매우 중요하다는 걸 체감했다.
  • 각 단계가 분리된 것이 아니라 서로 유기적으로 연결되어 있다는 흐름을 잡는 것이 핵심.
  • 특히 문제 정의 → 수집 → 분석 → 시각화 → API 서빙으로 이어지는 과정은 하나의 제품을 만드는 느낌이었다.
  • 협업, 문서화, 서비스화까지 고려해야 진짜 "실무형 프로젝트"임을 느꼈다.

0개의 댓글