머신러닝은 데이터 수집, 전처리, 피처추출, 학습, 검증(학습과 검증은 이전 게시글에서 다룬 바 있다)의 5단계 과정을 거쳐 이루어진다.
데이터를 수집하는 것은 알겠는데, 전처리가 왜 필요하냐? 그것은 우리가 수집한 데이터는 날것의 데이터이기 때문에, 이것을 무작정 때려 넣는다고 해서 학습이 원활하게 되지 않는 것이다. 과일주스를 만들 때 씻지도 않고 껍질 채로 믹서기로 넣으면 제대로 갈리지 않을 뿐더러 믹서기가 고장날 수 있다. 그래서 과일을 씻고, 껍질 깎고, 갈리기 좋게 잘라서 믹서기에 넣어주듯, 크기들이 서로 다른 데이터를 같은 포맷을 갖추도록 크기를 조절해주는 등의 과정을 거쳐야 하는데, 이를 데이터 전처리(Preprocessing)이라고 하는 것이다. 이 전처리의 과정에는 레이블링(사람이 기계에게 어떤 데이터가 어떤 아웃풋을 내야 하는지 기계에게 패턴을 알려주는 것)도 포함이 된다.
피처추출은 무엇일까? 피처(feature)는 특징이다. 모든 데이터를 다 쓰는게 아니라 학습에 알맞는 특징들만 데이터에서 뽑아 사용하는 것이다. 검색 서비스가 그 예인데, 온라인 쇼핑몰에서 대부분의 고객들의 니즈나, 트렌드를 예측하기 위해서 판매량 데이터를 추출하거나, 상품 추천을 위해 고객의 나이, 성별, 선호 가격대, 선호 색상 등을 뽑는 식으로, 작업 목표에 따라 그에 알맞는 데이터의 특징만을 추출하는 것이다.
이러한 과정이 모두 선행되어야 비로소 학습과 검증이 이루어진다.
머신러닝은 이렇게 데이터 수집, 전처리, 피처추출의 과정은 사람이 수기로 해야 하기 때문에, 이런 번거로움마저 해결하기 위해서 딥러닝이 나온 것이다.
바로 딥러닝 설명으로 넘어가면 좋겠지만 아직 머신러닝 챕터가 다 끝나지 않았기에 머신러닝 챕터가 다 끝나고 나면 딥러닝 파트에서 소개하는 것이 좋을 듯 하다.