[AIFFEL] 22.Jan.14 - EDA_Pokemon_data

Deok Jong Moon·2022년 1월 14일

오늘의 학습 리스트

reset_index(drop=True) 해야 중간에 빈 인덱스 열이 사라지면서 새로운 정수 인덱스가 생긴다.
NaN은 isnull()로는 잡히는데.. 'NaN'으로는 안 잡힌다.
isnull()의 반대는 notnull()
뭔가를 비교할 때는 비교 조건을 심플하게 봐야겠다...
str의 경우 다른 거로 바꾸고 싶다면,pd.DataFrame.replace(to_replace=뭐로 바꿀 것, value=바꿀 것)
Counter 객체
- 뭔가 list 등에 있는 요소의 counting 및 most_common() 같은 메소드를 지원해준다.
토큰한 것들이 포함된 컬럼들 주르륵 만드는 방법은
- str.contains(token) 으로 T/F 값인 시리즈 만들고
- 그것을 다시 df[token] 이란 컬럼으로 할당하면 됨
- 이것을 for loop으로
범주형 데이터 전처리 방법 2가지
- Integer Encoding : 0, 1, 2...
  - 문제는 숫자간 대소 관계가 발생함
  - 그래서 '매우 만족', '만족', '보통'... 같은 거에 적합
- One-Hot Encoding : 0 또는 1
One-Hot Encoding 할 때 참조
- 링크(https://pandas.pydata.org/docs/user_guide/basics.html#comparing-if-objects-are-equivalent)
- 코드

   for t in types:
    pokemon[t] = (pokemon["Type 1"] == t) | (pokemon["Type 2"] == t)

EDA에서 하는 습관들
- 범주형의 경우 set()으로 중복을 없애고 따로 리스트해 변수에 할당함
- outlier의 경우 숫자가 적으면 데이터 손실을 막기 위해 그냥 바꿔줌

(밀린 노드 14. tensorflow 이미지 분류를 하면서...)

plt.subplot()과 plt.subplots()의 차이...(항상 헷갈린다..)
: plt.subplot(1, 2, 1)같이 쓰고
: fig, ax(or axes) = plt.subplots(2, 5) 같이 반환 값이 다르다
sklearn.datasets.load_... 해서 가져 온 건 나중에 딕셔너리 같이 파고 들었는데
tf.dataset은 좀 다르다.
: 예) label의 이름을 가져오려면...
1) (raw_train, raw_validation, raw_test), metadata = tfds.load('tf_flowers', split=['train[:80%]', 'train[80%:90%]', 'train[90%:]'], with_info=True, as_supervised=True, ) 식으로 데이터셋 외의 metadata 스러운 것을 가져오기
2) metadata.features
3) metadata.features['label']
4) get_name = metadata.features['label'].int2str -> 객체 생성
5) get_name(0) -> 이렇게 불러오기...
tf.cast() : Casts a tensor to a new type
tf.image.resize() : resizing image
참고로 prefetch.Dataset에 raw_train.map(formatting_func) 같이 할 수 있고, 그러면 MapDataset 객체가 반환된다.
- tf.data.Dataset.map() vs tf.data.Dataset.apply()가 궁금하다면...(https://stackoverflow.com/questions/47091726/difference-between-tf-data-dataset-map-and-tf-data-dataset-apply)
- 참고로 map은 every element에 하는 거고, apply는 whole dataset에 한단다.

근데 batch들을 모델에 넣는 것 같은데, 그거는 어떤 원리로 batch에서 batch로 넘어가는 걸까..? 이전에는 그냥 train, test 각각 whole dataset를 넣었었는데, batch로 넣는 건 뭘 의미하는지 궁금하다.
batch화된 데이터셋에서 레이블을 뽑는 코드는 이렇게 하면 된단다.
: y_test = np.concatenate([y for x, y in ds], axis=0)

'어떻게든 자야겠어'라는 저 아이를 닮고 싶습니다