2주 차에는 데이터를 처리하는 방법과 그것을 통해 데이터 분석을 하는 방법에 대해 배우는 시간을 가졌습니다.
2/26 ~ 2/27 데이터 처리
2/28 ~ 2/29 데이터 분석 및 의미찾기
저번 주까지만 해도 파이썬의 기초적인 것을 배웠다 하면 이번 주에는 판다스와 넘파이를 이용해 실제 데이터를 변경하고 결합하고 처리한 후 시각화 라이브러리인 matplotlib와 seaborn을 통해 시각화하는 방법을 배웠습니다.
또한 그런 데이터들을 수치화, 시각화한 후 어떤 방식으로 분석을 해야 하는지에 대해 배우고 실제 데이터를 통해 분석해볼 수 있는 시간을 가졌습니다.
제일 강조하신 부분은 CRISP-DM 방법론에 대한 이야기 였습니다.
데이터가 주어졌을 때 가장 중요한 것은 비즈니스 관점에서 해결할 수 있는 아이디어입니다.
데이터를 추가, 삭제 및 변경을 하는 문법이 중요한 것이라고 생각할 수 있는데, 가장 중요한 건 비즈니스 관점에서 문제를 이해하고 여러 아이디어를 제공해 가설을 세우는 것이 중요하다고 생각합니다.
Business Understanding(비즈니스 이해)
귀무가설
대립가설
이라고 부릅니다.Data Understanding(데이터 이해)
원본 식별
을 해야합니다.있는 데이터
와 없는 데이터
두가지로 나뉩니다.취득 가능한 데이터
와 취득 불가능한 데이터
로 나뉘고 있는 데이터와 취득 가능한 데이터를 묶어서 가용한 데이터라고 부릅니다.EDA
와CDA
를 통해 가설이 진짜인지 확인을 합니다.Data Preparation(데이터 준비)
1) 모든 셀에 값이 있어야 한다.
2) 모든 값은 숫자이어야 한다.
3) (옵션) 값의 범위를 일치시켜야 한다.
1) 결측치 조치
2) 가변수화(변주를 숫자로 변환)
3) 스케일링(값의 범위를 일치)
4) 데이터분할
Modeling(모델링)
1) 중요 변수 선정
2) 모델 생성
3) 모델 성능 검증
Evaluation(평가)
이 강의에서는 이변량분석, 가설검정, 평균 추정 및 신뢰구간에 대해 배우는 시간을 가졌습니다.
이변량 분석에서는 범주와 숫자형 데이터들의 관계를 파악하기 위해 아래와 같이 시각화, 수치화 기법을 통해 데이터를 다루고 생각해 보는 시간을 가졌습니다.
숫자 | 범주 | |
---|---|---|
숫자 | - 시각화: 산점도 - 수치화: 상관분석, 상관계수 |
- 시각화: KDE plot |
범주 | - 시각화: sns.barplot - 수치화: t-test, ANOVA |
- 시각화: 모자익 플롯 - 수치화: 카이제곱검정 |
또한 한 가지 변수에서 또 다른 변수와 분석해 봐야 하는 것들이 파생된다는 것도 알게 되었습니다.
문법 같은건 너무 많아서 처음엔 어지러울 것 같긴 하지만 잘 정리해 놓고 찾아보면서 익숙해져야겠다는 생각이 들었습니다.
이번 수업을 듣고 나서 깨달은 점은, 내가 그동안 보아왔던 그래프들이 단순히 통계만 나타내는 것이 아닌 어떠한 중요한 정보를 담고 있다는 것이었습니다.
처음 분석을 시도했을 때엔 눈치채지 못했던 부분들이, 한기영 강사님이 특정 부분을 집중해서 보라고 하거나 특정 데이터를 제거하면 어떤 변화가 일어날지에 대해 보여주셨던 시간이 있었습니다.
그런 다양한 접근법을 통해 그래프에서 제가 보지 못했던 새로운 정보와 어떠한 패턴들이 보이는 것을 보면서
저는 데이터를 단순히 수집하고 분석하는 것 이상의 어떠한 작업이 필요하다는 것을 알게 되었습니다.
에이블을 하면서 많은 독서와 데이터를 많이 다뤄보면서 해석하고 활용하는 능력을 키워야 되겠다는 생각이 드는 강의였습니다.
안녕하세요 에이블러님들!😊
한주동안 고생 많으셨습니다.
다음 주에 1차 미니프로젝트가 시작되는데 좋은 시간이 되었으면 좋겠습니다.
이거는 알고리즘 스터디 발표할 문제인데
https://keen-bowl-45a.notion.site/11000-V-989b39baa9d740268cd2e2edc941f8a0
잘 진행되고 있다는 증거(?) 같은 느낌으로 올려봅니다.
틀린 부분은 언제나 댓글로 지적 부탁드립니다!