Feature Engineering(특성공학)
정의
- 모델 정확도를 높이기 위해서 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정
방법의 분류
- 지표 변수
- 지표가 되는 변수를 만드는 것
- 나이 특징에서 21세 이상일 경우 성인으로 구분하는 특성을 만들 수 있음
- 키와 몸무게로 BMI 특성을 만들 수 있음
- 부동산의 경우 침실과 화장실의 갯수로 부동산의 가치를 판단하는 변수를 만들 수 있음
- 키와 몸무게로 BMI 특성을 만들 수 있음
- 중복 특징
- 두 개의 특징을 결합하여 새로운 특징을 만드는 방법
- 클릭 수와 접속 수를 결합하여 클릭 당 방문자수와 같은 특징을 만들 수 있음
- 특징이 늘어나기 때문에 자동으로 이러한 작업을 할 경우 특징이 너무 많아져서 feature explosion 발생할 수 있음
- 대표 특징
- 특징들로부터 대표성을 갖는 새로운 특징을 만드는 작업
- 미국의 12학년 제도로 표시되는 데이터가 있을 때 이를 기반으로 초, 중, 고등학교와 같이 대표성을 갖는 특징을 만들 수 있음
- 외부 데이터
- 모델 성능을 높이기 위해 기존의 주어진 데이터 외에 다른 데이터를 활용하는 방법
- 에러 분석
- 모델을 통해 나온 결과를 바탕으로 특징을 만드는 방법