출처
1. 의미
# 중복값 제거
# inplace=False: 값 자체를 바꾸지 않고 copy를 반환
train_data.drop_duplicates(subset=['document'], inplace=True)
# NaN 결측치 제거
# how='any': 디폴트. NaN 값이 하나라도 포함되어 있으면 해당 행 or 열을 삭제
train_data = train_data.dropna(how = 'any')
# X_train이 2차원 list인 상태
# concatenate에 넘겨주면 2차원 list를 1차원 배열로 바꿔줌
# 마지막으로 tolist를 해서 다시 list 형태로 변환
words = np.concatenate(X_train).tolist()
모델 학습 시
verbose: 학습되는 모습을 보여줌
epoch: 전체 데이터를 학습하는 수
counter
# most_common(n): 가장 많은 순으로 배열. n개의 최빈값 반환
counter = counter.most_common(10000-4)
✔✔✔🤔 오류
Negative dimension size caused by subtracting 7 from 6 for ...
모델을 생성할 때 Conv1D()에 padding='same'을 설정해서 해결
'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte
load_word2vec_format 사용했을 때 발생 load로 바꿔줌
pickle data was truncated
파일이 제대로 업로드 되지 않아 발생
처음으로 시간 꽉 채워서 했다.. 예상치 못한 곳에서 오류가 나서 찾느라고 시간이 정말 잘 갔다. 그리고 목표값 넘으려고 계속 시도하다보니까 시간이 이렇게 됐다. 그래도 결국 목표값은 넘겨서 다행이라고 생각한다.
예전에 어플 리뷰를 크롤링해서 워드 클라우드로 만든 적 있어서 그런 내용일까 기대했는데 많이 달랐다... 크롤링부터 해서 했어도 재밌을 거 같긴 한데 그러면 감성 분석이 안되겠구나 싶기도 하다. 어쨌든 감성 분석이라는 것도 알게 되고 유익한 시간이었다.