초기 환경 세팅
1. pandas , numpy : 파이썬 라이브러리
2. 주피터 (로컬용)
3. 구글코랩 (서버용 - 많이편함) ★ 구글드라이브 사용
특히나 불러올때 파일이름을 제대로 입력해주자.
csv 불러올때 a_b_c.csv 로 읽어오려고햇는데
실제 파일은 a b c.csv 였다.
EDA는 데이터의 특징과 내재하는 구조적 관계를 알아내기 위해 시각화와 통계적 방법을 통해
다양한 각도에서 관찰하고 이해하는 과정입니다. 이를 통해 문제를 직관적으로 이해하고, 정답에 가까워질 수 있게 됩니다.
EDA 에 대해서 배웠다.
쉽게말해 우리가 흔히 통계자료로 보는 걸 만드는 분석기법을 말하는것 같다.
연속된 데이터 (시간,날짜)
정형된 데이터 (사람이름,성별,지역,위치)
로 분류하고
이 EDA를 통해 어떤 가설을 내세우고 그 가설을 토대로 또EDA를 하며 분석하고 예측해보는 기법이다.
2차시의 과제로는 EDA를 파이썬 코드로 구현한 코드를 보여주며 직접 타이핑 해보며 쳐보라고 한다.
베이스 라인 모델 : 확률적 연산만으로 예측을 진행하는과정. 앞으로 만들고자하는 머신러닝 모델이 의미있기 위해 넘어야하는 최소한의 성능을 제공하는 모델을 의미.
즉 확률적 연산으로 만든 모델보다는 머신러닝 모델 성능이 높아야한다. 라는 기준 모델
주어진 코드를 chatgpt와 함께 한줄한줄 어떤뜻인지 물어보며 확인해봤다.
미니콘다 (miniconda)
아나콘다의 경우 000인 이상 프로젝트 진행 시 유료로 해야한다고 나와있어서 부스트클래스에서 미니콘다를 권유하며, 아나콘다는 많은 모듈을 깔아서 차지하는 용량도 커서 미니콘다를 권유한다고 한다.
환경변수등을 진행한뒤,
인터프리터 설정 을 하다가 문제가 있었는데
pip나 conda 로 설치해도 인식을 못할때
모듈이 어디에 설치되나 확인한뒤,
파이참의 인터프리터 경로를 모듈이 설치되는곳에 해줘야 인식이된다.
주피터의 경우 파이참으로 인식을 해주니 자동으로 연결됐다.
pandas 에서 데이터들(df등 label등등) 설정해주고 확인하는 함수들
data.describe() : 수치형의 데이터 기본 통계량 (ex: count,mean,std,25%,50%,75%,max )등을 다 보여준다.
data.describe(include='all) : 수치형,범주형 데이터 통계량 확인
data.isna() : null 데이터 개수 체크
data.info() : 각 데이터 타입 및 null 체크
data.head() : 데이터의 개수 및 데이터 종류 개수 출력(7만개,9개의종류 등등)
이전달 = 이전달.rename(columns = {'total': 'previous_total'})
는 total의 칼럼명을 previous_total로 변경하는 칼럼이다.
fillna(0) : Na(비어있는값)을 0으로 채워주는 함수
현재까지는 어떤기능을 구현할때 이 함수를 써라 하고 외우지는 않았고
코드를 따라 쳐보면서 이런식으로 구현하는구나 하고 chatgpt와 함께 물어가보면서 프로젝트를 하고있다. 반복하다보면 점차 손에익듯이 아직은 익숙하지않은 용어들이 많으니 계속 확인해보자.
특히 걱정되는건 이제 머신러닝 기반으로 모델을 만들때
모델값들을 예측하기 위해 다양한 데이터 변형방법들이 존재하는데 이부분을 잘 설정해야 머신러닝 성능이 좋아질것이라 생각한다.