AI 엔지니어 기초 다지기 - 1주차

hyonun·2024년 1월 22일

AI 엔지니어 기초다지기

목록 보기

2/25

초기 환경 세팅
1. pandas , numpy : 파이썬 라이브러리
2. 주피터 (로컬용)
3. 구글코랩 (서버용 - 많이편함) ★ 구글드라이브 사용

특히나 불러올때 파일이름을 제대로 입력해주자.
csv 불러올때 a_b_c.csv 로 읽어오려고햇는데
실제 파일은 a b c.csv 였다.

EDA

EDA는 데이터의 특징과 내재하는 구조적 관계를 알아내기 위해 시각화와 통계적 방법을 통해
다양한 각도에서 관찰하고 이해하는 과정입니다. 이를 통해 문제를 직관적으로 이해하고, 정답에 가까워질 수 있게 됩니다.

EDA 에 대해서 배웠다.
쉽게말해 우리가 흔히 통계자료로 보는 걸 만드는 분석기법을 말하는것 같다.
연속된 데이터 (시간,날짜)
정형된 데이터 (사람이름,성별,지역,위치)
로 분류하고
이 EDA를 통해 어떤 가설을 내세우고 그 가설을 토대로 또EDA를 하며 분석하고 예측해보는 기법이다.

2차시의 과제로는 EDA를 파이썬 코드로 구현한 코드를 보여주며 직접 타이핑 해보며 쳐보라고 한다.

베이스 라인 모델 : 확률적 연산만으로 예측을 진행하는과정. 앞으로 만들고자하는 머신러닝 모델이 의미있기 위해 넘어야하는 최소한의 성능을 제공하는 모델을 의미.

즉 확률적 연산으로 만든 모델보다는 머신러닝 모델 성능이 높아야한다. 라는 기준 모델

주어진 코드를 chatgpt와 함께 한줄한줄 어떤뜻인지 물어보며 확인해봤다.

환경 설정

미니콘다 (miniconda)

아나콘다의 경우 000인 이상 프로젝트 진행 시 유료로 해야한다고 나와있어서 부스트클래스에서 미니콘다를 권유하며, 아나콘다는 많은 모듈을 깔아서 차지하는 용량도 커서 미니콘다를 권유한다고 한다.

환경변수등을 진행한뒤,
인터프리터 설정 을 하다가 문제가 있었는데
pip나 conda 로 설치해도 인식을 못할때
모듈이 어디에 설치되나 확인한뒤,
파이참의 인터프리터 경로를 모듈이 설치되는곳에 해줘야 인식이된다.
주피터의 경우 파이참으로 인식을 해주니 자동으로 연결됐다.

pandas 관련

pandas 에서 데이터들(df등 label등등) 설정해주고 확인하는 함수들

data.describe() : 수치형의 데이터 기본 통계량 (ex: count,mean,std,25%,50%,75%,max )등을 다 보여준다.
data.describe(include='all) : 수치형,범주형 데이터 통계량 확인
data.isna() : null 데이터 개수 체크
data.info() : 각 데이터 타입 및 null 체크
data.head() : 데이터의 개수 및 데이터 종류 개수 출력(7만개,9개의종류 등등)

이전달 = 이전달.rename(columns = {'total': 'previous_total'})
는 total의 칼럼명을 previous_total로 변경하는 칼럼이다.

fillna(0) : Na(비어있는값)을 0으로 채워주는 함수