1주차

Suhyeon Lee·2024년 10월 21일
0

목표

  • Pandas와 Matplotlib 활용한 데이터 전처리 및 시각화 학습
    • Pandas 활용해 간단하게 데이터 전처리하는 방법
    • Matplotlib 활용해 데이터 시각화하는 방법
  • 단순한 스킬셋뿐만 아니라 데이터 분석가에 대해서 진지하게 고민해보기
    • 데이터 분석을 위한 기초 스킬셋을 학습
    • andas, Matplotlib 등 여러 라이브러리를 활용하여 데이터를 가공하고 시각화
    • 데이터 분석가의 역할과 업무 이해
    • 데이터 분석가가 되기 위해 방향성과 목표를 설정

데이터 분석가란?

  • BA, PA, BI, DS, DA, …

    • 비즈니스 분석가(BA)
      • 주로 비즈니스 문제를 이해하고 해결하기 위해 데이터를 분석
      • 비즈니스 프로세스 및 요구 사항을 파악하고, 데이터 기반으로 의사 결정을 지원
      • 주로 업무 프로세스 개선, 비즈니스 모델 분석, 요구 사항 관리 등을 수행
    • 프로덕트 분석가(PA)
      • 제품이나 서비스의 성과를 평가하고 개선하기 위해 데이터를 분석
      • 사용자 행동 및 제품 성능과 관련된 데이터를 분석하여 제품 개선에 기여
      • 주로 제품 경험과 사용자 행동에 대한 분석을 수행하며, A/B 테스트, 사용자 경로 분석 등을 담당
        e.g. 커널 분석
    • 데이터 분석가(DA)
      • 주로 정형 데이터(표 형태로 정제되어 있는 데이터)를 분석하여 기업의 의사 결정을 지원
      • 데이터베이스, 스프레드시트 등에서 데이터를 추출하고, 데이터를 정제하여 보고서 및 시각화를 생성
      • 주로 기술적인 기술이 필요하며, SQL, Excel, 데이터 시각화 등을 활용하여 업무를 수행
    • BI 분석가(BI)
      • 기업의 비즈니스 인텔리전스 플랫폼과 도구를 사용하여 데이터를 시각화하고 보고서를 작성
      • 주로 기업 내부 데이터를 시각화하고, 이를 통해 의사 결정에 필요한 정보를 제공
      • BI 도구 (Tableau, Power BI 등)를 사용하여 대시보드를 구축하고, 데이터 시각화 및 보고서 작성을 담당
    • 데이터 사이언티스트(DS)
      • 주로 데이터를 활용하여 예측, 패턴 발견, 복잡한 분석을 수행하여 비즈니스 문제를 해결
      • 통계, 머신러닝, 딥러닝 등의 기술과 알고리즘을 사용하여 데이터를 분석하고 모델을 구축
      • 데이터 수집, 전처리, 모델링, 평가 및 해석을 포함한 end-to-end 데이터 분석 작업을 수행
  • 분석가는 다양한 유형이 존재

    • 되고 싶은 분석가의 롤모델이 없다면, 분석가가 되더라도 금방 길을 잃어버릴 수 있으니 주의

설득

데이터 전처리와 시각화가 필요한 이유

  • 데이터를 활용하여 무엇을 할 것인가?
    • 데이터 분석
    • 머신러닝
    • 문제 해결
    • 의사 결정
    • 인공지능
    • 설득

데이터의 목적은 "설득"

  • 설득하기 위해서 여러분은 데이터를 잘 전달해야 함
  • 잘 전달하기 위한 방법 중 하나가 ‘시각화’
    • 데이터를 시각화하기 위해서는 목적에 밎게 데이터를 전처리할 필요가 있음
  • 데이터 전처리와 시각화를 하기 전, 데이터를 통해 무엇을 해야할지를 고민해야 함

글 vs. 시각화 자료

  • 표와 시각화 자료가 첨부된 보고서

    • 걷기, 등산, 체조, 볼링 등 체육활동에 대해서 전체 응답한 사람들이 가장 많은 체육활동과 3번째로 많은 활동이 무엇인지 판단하고자 할 때 전달하고자 하는 목적에 부합하는 데이터를 시각화해서 보여준다면 한 눈에 알아보기 쉽고 빠르게 전달 가능
      • 표의 경우 줄글 형태의 나열식 전달보단 정리되어있지만, 여러분이 확인하고자하는 데이터의 목적에 따라서 보기 어려운 경우도 존재함
    • 적절한 시각화 자료는 여러분의 분석 결과를 더욱 돋보이게 함

학습 전 주의사항

  • 어떤 목적을 가지고 데이터를 분석할 것인가를 먼저 정의하기
    • 단순히 '전처리를 어떻게 할 것인가?'를 정하기보다 ‘무엇을 위해 ~이런 형태의 데이터가 필요하다’라는 것을 먼저 정의할 필요가 있음
  • 복잡하고 많은 양의 데이터를 다루다보면, 전처리 로직에 매몰되어 정작 큰 그림을 잊어버릴 수 있음
    • 어려운 코딩을 거쳐 전처리를 다했을지라도 내가 원래 하고자 하는 방향과 다를 수 있음
    • 어떤 경우는 내가 뭘하려고 이렇게 전처리를 한거지? 라는 생각이 들 때도 있음
  • 이러한 착오를 예방하고 올바른 의사결정을 위한 데이터 전달을 위해 데이터를 사전에 어떻게 분석할 것인가 미리 설계하는 습관을 들여야 함

분석 설계 예시

: 정답은 없으니 자신에게 맞는 방법으로 효율 높이기

  1. 목표 설정
    • 무엇을 위해 데이터 전처리와 시각화가 필요한가?
  2. 예상 산출물 정의
    • 데이터 처리 및 시각화해서 나타날 예상 결과물은 무엇인가?
  3. As-is vs. To-be 생각하기
    • 현재 문제와 상황이 무엇인지 인지하고 어떤식으로 개선할 것인가 생각하며 분석 방향성을 설정
구분내용
목표000을 통해서 00을 향상시킨다.
예상 산출물000를 통해서 000 산출물을 완성한다.
As-is00문제로 인해서 000한 상황
To-be000을 통해서 000 개선을 이룸

VScode에서 Jupyter Notebook 실행하기

  1. VScode > Extensions > Python 설치
  2. VScode > Extensions > Jupyter 설치
  3. VScode에서 파일 생성
  4. 코드 import pandas as pd 실행 → 상단의 Python Environment → python 3.12 클릭
  5. ipykernel 패키지 설치되어 있지 않은 경우 install 클릭
  6. VScode 내 터미널 열고(단축키: shift+ctrl+`) pip install pandas 입력

숙제

  • 링크 보고 따라서 타이핑해보기
    • 배우지 않은 상태에서 한번 따라서 타이핑 쳐보시는 시간을 갖도록 합니다.
    • 코딩도 하나의 언어이기 때문에 계속 사용해보면 조금씩 익숙해질 거에요!
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 1. Object Creation
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s
실행 결과:
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

🡆 Pandas 10분 완성

python 실행 오류 ModuleNotFoundError: No module named ‘matplotlib’

  • Python 추가 패키지 ‘matplotlib‘가 설치되어 있지 않다는 의미
    • Matplotlib는그래프 표시를 가능케 하는 라이브러리
  • terminal > pip install matplotlib

채용공고 스크랩하기 : 공통된 단어 찾기
1. 5개의 채용공고의 자격요건과 우대사항에서 공통된 단어를 찾아서 많이 나온 순으로 정리해보기
e.g. 모델링, ML, 지표, 비즈니스, 가설, A/B test 등
2. 가장 많이 나온 단어와 내가 하고싶은 일이 일치하는지 고민해보기
1) 일치한다면 → BA , PA , BI , DS , DA 중 어떤 포지션이 나와 어울리는지 정해보기
2) 불일치한다면 → 준비하는 방향성을 다시 고민해볼 필요가 있어요
e.g. 비즈니스 분석가를 희망하는데 모델링에 열중하실 필요는 없을 수도 있습니다. 물론, 모델링을 잘한다면 무조건 +a 이지만 여러분께 주어진 시간은 한정되어있습니다. 더 중요한 것이 무엇인지 생각해보세요.

profile
2 B R 0 2 B

0개의 댓글