[데이터사이언스]개발일기 2일차

Pream·2022년 1월 19일
0

2일차 학습노트

*Warm Up:

    1. New feature 을 만들기 위한 코드:
      - df[‘새로운특성이름’] = df[‘기존컬럼이름1’]+df[‘기존컬럼이름2’]
    1. Feature engineering 을 해야 하는이유 :
      - 비만도를 얘기하면 이해 하기 쉬울거다. BMI라는 것은 몸무게와 신장 데이터를 계산한 새로운 feature 이다. 이 새로운 feature 은 분석을 더 쉽게 도와주기도 하고 새로운 인사이트도 창출할 수 있기 때문.
  • Feature engineering 방법들:

      1. Outlier detection
      1. Handling missing value
      1. One hot encoding
      1. ETC
  1. String 의 숫자를 Int 형태로 바꾸는 방법:
    1. 쉼표를 제거한다 ( replace(‘,’ , ’’) 함수를 이용)
    1. 제거한 데이터를 int()함수를 이용해 int데이터로 변환시킨다 - 3. 근데 여기서 데이터가 엄청나게 많을경우는 1.함수를 만든후 2. 해당 컬럼or행에 apply(만들었던함수)함수 적용하자
  • Tidy 형태?:
  • 다른 라이브러리(matplot,seaborn등)과 호환성을 고려한 데이터 테이블
  • NA , Null , NaN , 0 , Undefine 의 차이:
    1. NA , Null , NaN 은 python에서 모두 같은 의미로 사용됨.(유효한 값이 없으나
    Null , Na , NaN으로 변수를 할당시킴)
    2. Undefine 은 해당변수가 비어있는상태.(선언은 되었으나 값이 할당되지 않는다)

*이제 까지 배운거 정리 :

  1. EDA 로 raw 데이터 패턴분석후
  2. data processing(전처리) 으로 결측치 처리, 이상치처리 등등 으로 Garbage in/out 을 최대한 피하기 위한 작업을 거친뒤
    3.Feature engeineer 로 더욱 유의미한 결과를 도출하기 위한 작업을 거침

*오늘 수업이외에 추가적으로 이해한 개념:

(1)Df1 = df.loc() 즉, 함수를 실행한 값을 변수에 넣은것과
(2)Df.loc() 즉, 함수를 실행한값을 변수에 담지 않은것의 차이

(1)은 print 해보면 하나의 값만 적용되어 출력된다
(2)은 해당 Dataframe 에 함수를 그대로 걸어버린다(포스트잇 같은개념)

  • 주말에 공부해야할 것 *
profile
예비 데이터개발자

0개의 댓글