[AIFFEL] 22.Jan.14 - EDA_Pokemon_data

Deok Jong Moon·2022년 1월 14일
0
post-thumbnail

오늘의 학습 리스트

LMS

  • reset_index(drop=True) 해야 중간에 빈 인덱스 열이 사라지면서 새로운 정수 인덱스가 생긴다.

  • NaN은 isnull()로는 잡히는데.. 'NaN'으로는 안 잡힌다.

  • isnull()의 반대는 notnull()

  • 뭔가를 비교할 때는 비교 조건을 심플하게 봐야겠다...

  • str의 경우 다른 거로 바꾸고 싶다면,pd.DataFrame.replace(to_replace=뭐로 바꿀 것, value=바꿀 것)

  • Counter 객체

    • 뭔가 list 등에 있는 요소의 counting 및 most_common() 같은 메소드를 지원해준다.
  • 토큰한 것들이 포함된 컬럼들 주르륵 만드는 방법은

    • str.contains(token) 으로 T/F 값인 시리즈 만들고
    • 그것을 다시 df[token] 이란 컬럼으로 할당하면 됨
    • 이것을 for loop으로
  • 범주형 데이터 전처리 방법 2가지

    • Integer Encoding : 0, 1, 2...
      • 문제는 숫자간 대소 관계가 발생함
      • 그래서 '매우 만족', '만족', '보통'... 같은 거에 적합
    • One-Hot Encoding : 0 또는 1
  • One-Hot Encoding 할 때 참조

   for t in types:
    pokemon[t] = (pokemon["Type 1"] == t) | (pokemon["Type 2"] == t)
  • EDA에서 하는 습관들
    • 범주형의 경우 set()으로 중복을 없애고 따로 리스트해 변수에 할당함
    • outlier의 경우 숫자가 적으면 데이터 손실을 막기 위해 그냥 바꿔줌

프로그래머스

기타

(밀린 노드 14. tensorflow 이미지 분류를 하면서...)

  • plt.subplot()plt.subplots()의 차이...(항상 헷갈린다..)
    : plt.subplot(1, 2, 1)같이 쓰고
    : fig, ax(or axes) = plt.subplots(2, 5) 같이 반환 값이 다르다

  • sklearn.datasets.load_... 해서 가져 온 건 나중에 딕셔너리 같이 파고 들었는데

  • tf.dataset은 좀 다르다.
    : 예) label의 이름을 가져오려면...
    1) (raw_train, raw_validation, raw_test), metadata = tfds.load('tf_flowers', split=['train[:80%]', 'train[80%:90%]', 'train[90%:]'], with_info=True, as_supervised=True, ) 식으로 데이터셋 외의 metadata 스러운 것을 가져오기
    2) metadata.features
    3) metadata.features['label']
    4) get_name = metadata.features['label'].int2str -> 객체 생성
    5) get_name(0) -> 이렇게 불러오기...

  • tf.cast() : Casts a tensor to a new type

  • tf.image.resize() : resizing image

  • 참고로 prefetch.Dataset에 raw_train.map(formatting_func) 같이 할 수 있고, 그러면 MapDataset 객체가 반환된다.

질문

  • 근데 batch들을 모델에 넣는 것 같은데, 그거는 어떤 원리로 batch에서 batch로 넘어가는 걸까..? 이전에는 그냥 train, test 각각 whole dataset를 넣었었는데, batch로 넣는 건 뭘 의미하는지 궁금하다.
  • batch화된 데이터셋에서 레이블을 뽑는 코드는 이렇게 하면 된단다.
    : y_test = np.concatenate([y for x, y in ds], axis=0)
profile
'어떻게든 자야겠어'라는 저 아이를 닮고 싶습니다

0개의 댓글