트레인과 테스트 데이터를 불러와준 후, 두 데이터 세트에 대해 동일한 작업을 해 줘야 하는데, 이 때 pd.concat
을 사용할 수 있다.
아래와 같이 사용한다.
all_data = pd.concat([train, test])
all_data
이렇게 되면 all_data
로 두개의 데이터가 합쳐지게 된다. 합쳐지는 방식은 train데이터 뒤에 test데이터가 붙게 된다.
한꺼번에 전처리를 해준 후, 마지막에 훈련을 위해 데이터를 다시 원래대로 분리해야 하는 일이 생긴다.
train2 = all_data2[:len(train)]
test2 = all_data2[len(train):]
간단하게 위 코드로 실현할 수 있다.
처음~트레인 개수 =>train2에 저장
트레인 개수~마지막 =>test2에 저장