[KT AIVLE 5기 AI트랙] 2주차 회고

pwrwpw·2024년 3월 3일
1

KT AIVLE

목록 보기
2/21

2주 차에는 데이터를 처리하는 방법과 그것을 통해 데이터 분석을 하는 방법에 대해 배우는 시간을 가졌습니다.

2/26 ~ 2/27 데이터 처리
2/28 ~ 2/29 데이터 분석 및 의미찾기

저번 주까지만 해도 파이썬의 기초적인 것을 배웠다 하면 이번 주에는 판다스와 넘파이를 이용해 실제 데이터를 변경하고 결합하고 처리한 후 시각화 라이브러리인 matplotlib와 seaborn을 통해 시각화하는 방법을 배웠습니다.

또한 그런 데이터들을 수치화, 시각화한 후 어떤 방식으로 분석을 해야 하는지에 대해 배우고 실제 데이터를 통해 분석해볼 수 있는 시간을 가졌습니다.

📌데이터 처리

제일 강조하신 부분은 CRISP-DM 방법론에 대한 이야기 였습니다.

데이터가 주어졌을 때 가장 중요한 것은 비즈니스 관점에서 해결할 수 있는 아이디어입니다.
데이터를 추가, 삭제 및 변경을 하는 문법이 중요한 것이라고 생각할 수 있는데, 가장 중요한 건 비즈니스 관점에서 문제를 이해하고 여러 아이디어를 제공해 가설을 세우는 것이 중요하다고 생각합니다.

  1. Business Understanding(비즈니스 이해)

    • 문제를 정의하고 요인을 파악하기 위해서 가설을 수립
    • 과학 연구에서는
      • 기존 연구 결과로 이어져 내려오는 정설을 귀무가설
      • 기존의 입장을 넘어서기 위한 새로운 연구 가설을 대립가설 이라고 부릅니다.
    • 여기서 우리가 수립하는 가설을 대립가설로 부르기도 합니다.
    • 가설의 구조는 x(요인) -> y(목표)의 형태를 가집니다.
  2. Data Understanding(데이터 이해)

    • 먼저 가설에서 설정한 x,y에 대한 정보가 있는지 식별하는 원본 식별을 해야합니다.
    • 해당 데이터는 있는 데이터없는 데이터 두가지로 나뉩니다.
    • 없는 데이터에는 취득 가능한 데이터취득 불가능한 데이터로 나뉘고 있는 데이터와 취득 가능한 데이터를 묶어서 가용한 데이터라고 부릅니다.
    • 취득 불가능한 데이터는 최대한 가용한 데이터 영역으로 만들어야 합니다.
    • 원본 식별후에는 EDACDA를 통해 가설이 진짜인지 확인을 합니다.
    • EDA : 탐색적으로 데이터를 분석하는 방법
      • 그래프 , 통계량
    • CDA : 확증적으로 데이터를 분석하는 도구
      • 가설검정, 실험
  3. Data Preparation(데이터 준비)

  • 데이터 준비 단계에서는 모델링 모델을 구축하기 위해 전처리를 하는 단계입니다.
  • 아래 조건을 만족해야 진행을 할 수 있습니다.

    1) 모든 셀에 값이 있어야 한다.
    2) 모든 값은 숫자이어야 한다.
    3) (옵션) 값의 범위를 일치시켜야 한다.

  • 위의 조건을 만족시키기 위해 수행하는 내용은 아래와 같습니다.

    1) 결측치 조치
    2) 가변수화(변주를 숫자로 변환)
    3) 스케일링(값의 범위를 일치)
    4) 데이터분할

  1. Modeling(모델링)

    1) 중요 변수 선정
    2) 모델 생성
    3) 모델 성능 검증

    • 모델링 = 데이터로부터 패턴을 찾는 과정
    • 오차를 최소화 하는 패턴을 찾아야 함
  2. Evaluation(평가)

  • 문제가 어떻게 해결이 되었는지 확인하는 단계
    • 기술적 관점 평가
    • 비즈니스 관점 평가 : 문제해결이 얼마나 잘 이루어 졌는가?
  1. Deployment(전개)
  • 시스템의 유효성 검사와 프로젝트 이전이 이루어지는 단계

📌데이터 분석 및 의미 찾기

이 강의에서는 이변량분석, 가설검정, 평균 추정 및 신뢰구간에 대해 배우는 시간을 가졌습니다.

이변량 분석에서는 범주와 숫자형 데이터들의 관계를 파악하기 위해 아래와 같이 시각화, 수치화 기법을 통해 데이터를 다루고 생각해 보는 시간을 가졌습니다.

  숫자 범주
숫자 - 시각화: 산점도
- 수치화: 상관분석, 상관계수
- 시각화: KDE plot
범주 - 시각화: sns.barplot
- 수치화: t-test, ANOVA
- 시각화: 모자익 플롯
- 수치화: 카이제곱검정

또한 한 가지 변수에서 또 다른 변수와 분석해 봐야 하는 것들이 파생된다는 것도 알게 되었습니다.
문법 같은건 너무 많아서 처음엔 어지러울 것 같긴 하지만 잘 정리해 놓고 찾아보면서 익숙해져야겠다는 생각이 들었습니다.

이번 수업을 듣고 나서 깨달은 점은, 내가 그동안 보아왔던 그래프들이 단순히 통계만 나타내는 것이 아닌 어떠한 중요한 정보를 담고 있다는 것이었습니다.

처음 분석을 시도했을 때엔 눈치채지 못했던 부분들이, 한기영 강사님이 특정 부분을 집중해서 보라고 하거나 특정 데이터를 제거하면 어떤 변화가 일어날지에 대해 보여주셨던 시간이 있었습니다.

그런 다양한 접근법을 통해 그래프에서 제가 보지 못했던 새로운 정보와 어떠한 패턴들이 보이는 것을 보면서
저는 데이터를 단순히 수집하고 분석하는 것 이상의 어떠한 작업이 필요하다는 것을 알게 되었습니다.

에이블을 하면서 많은 독서와 데이터를 많이 다뤄보면서 해석하고 활용하는 능력을 키워야 되겠다는 생각이 드는 강의였습니다.


안녕하세요 에이블러님들!😊
한주동안 고생 많으셨습니다.
다음 주에 1차 미니프로젝트가 시작되는데 좋은 시간이 되었으면 좋겠습니다.

이거는 알고리즘 스터디 발표할 문제인데
https://keen-bowl-45a.notion.site/11000-V-989b39baa9d740268cd2e2edc941f8a0
잘 진행되고 있다는 증거(?) 같은 느낌으로 올려봅니다.


틀린 부분은 언제나 댓글로 지적 부탁드립니다!

0개의 댓글