reset_index(drop=True)
해야 중간에 빈 인덱스 열이 사라지면서 새로운 정수 인덱스가 생긴다.
NaN은 isnull()
로는 잡히는데.. 'NaN'
으로는 안 잡힌다.
isnull()
의 반대는 notnull()
뭔가를 비교할 때는 비교 조건을 심플하게 봐야겠다...
str
의 경우 다른 거로 바꾸고 싶다면,pd.DataFrame.replace(to_replace=뭐로 바꿀 것, value=바꿀 것)
Counter
객체
list
등에 있는 요소의 counting 및 most_common()
같은 메소드를 지원해준다.토큰한 것들이 포함된 컬럼들 주르륵 만드는 방법은
str.contains(token)
으로 T/F 값인 시리즈 만들고df[token]
이란 컬럼으로 할당하면 됨for loop
으로범주형 데이터 전처리 방법 2가지
One-Hot Encoding 할 때 참조
for t in types:
pokemon[t] = (pokemon["Type 1"] == t) | (pokemon["Type 2"] == t)
set()
으로 중복을 없애고 따로 리스트해 변수에 할당함(밀린 노드 14. tensorflow 이미지 분류를 하면서...)
plt.subplot()
과 plt.subplots()
의 차이...(항상 헷갈린다..)
: plt.subplot(1, 2, 1)
같이 쓰고
: fig, ax(or axes) = plt.subplots(2, 5)
같이 반환 값이 다르다
sklearn.datasets.load_...
해서 가져 온 건 나중에 딕셔너리 같이 파고 들었는데
tf.dataset은 좀 다르다.
: 예) label의 이름을 가져오려면...
1) (raw_train, raw_validation, raw_test), metadata = tfds.load('tf_flowers', split=['train[:80%]', 'train[80%:90%]', 'train[90%:]'], with_info=True, as_supervised=True, )
식으로 데이터셋 외의 metadata 스러운 것을 가져오기
2) metadata.features
3) metadata.features['label']
4) get_name = metadata.features['label'].int2str
-> 객체 생성
5) get_name(0)
-> 이렇게 불러오기...
tf.cast()
: Casts a tensor to a new type
tf.image.resize()
: resizing image
참고로 prefetch.Dataset에 raw_train.map(formatting_func)
같이 할 수 있고, 그러면 MapDataset 객체가 반환된다.
y_test = np.concatenate([y for x, y in ds], axis=0)