[데이터사이언스]개발일기 2일차

Pream·2022년 1월 19일

데이터사이언스 코린이

2일차 학습노트

*Warm Up:

1. New feature 을 만들기 위한 코드:
  - df[‘새로운특성이름’] = df[‘기존컬럼이름1’]+df[‘기존컬럼이름2’]
1. Feature engineering 을 해야 하는이유 :
  - 비만도를 얘기하면 이해 하기 쉬울거다. BMI라는 것은 몸무게와 신장 데이터를 계산한 새로운 feature 이다. 이 새로운 feature 은 분석을 더 쉽게 도와주기도 하고 새로운 인사이트도 창출할 수 있기 때문.
Feature engineering 방법들:
- 1. Outlier detection
- 1. Handling missing value
- 1. One hot encoding
- 1. ETC

String 의 숫자를 Int 형태로 바꾸는 방법:

1. 쉼표를 제거한다 ( replace(‘,’ , ’’) 함수를 이용)
1. 제거한 데이터를 int()함수를 이용해 int데이터로 변환시킨다 - 3. 근데 여기서 데이터가 엄청나게 많을경우는 1.함수를 만든후 2. 해당 컬럼or행에 apply(만들었던함수)함수 적용하자

Tidy 형태?:
다른 라이브러리(matplot,seaborn등)과 호환성을 고려한 데이터 테이블

NA , Null , NaN , 0 , Undefine 의 차이:
1. NA , Null , NaN 은 python에서 모두 같은 의미로 사용됨.(유효한 값이 없으나
Null , Na , NaN으로 변수를 할당시킴)
2. Undefine 은 해당변수가 비어있는상태.(선언은 되었으나 값이 할당되지 않는다)

*이제 까지 배운거 정리 :

EDA 로 raw 데이터 패턴분석후
data processing(전처리) 으로 결측치 처리, 이상치처리 등등 으로 Garbage in/out 을 최대한 피하기 위한 작업을 거친뒤
3.Feature engeineer 로 더욱 유의미한 결과를 도출하기 위한 작업을 거침

*오늘 수업이외에 추가적으로 이해한 개념:

(1)Df1 = df.loc() 즉, 함수를 실행한 값을 변수에 넣은것과
(2)Df.loc() 즉, 함수를 실행한값을 변수에 담지 않은것의 차이

(1)은 print 해보면 하나의 값만 적용되어 출력된다
(2)은 해당 Dataframe 에 함수를 그대로 걸어버린다(포스트잇 같은개념)

주말에 공부해야할 것 *

1. 판다스 연습 사이트(https://www.datamanim.com/dataset/99_pandas/pandasMain.html)
1. 판다스 25가지 트릭(https://www.youtube.com/watch?v=RlIiVeig3hc&t=367s)

예비 데이터개발자

이전 포스트

[데이터사이언스]개발일기 1일차

다음 포스트

[데이터사이언스]개발일기 3일차

0개의 댓글