오늘도 AI 공부!
결측치(missing value)
: 데이터셋에서 특정 변수 또는 데이터 포인트가 값이 없거나 측정되지 않은 상태
결측치가 있는 데이터는 분석에 방해가 될 수 있으며 이를 처리하지 않으면 모델의 성능이 저하될 수 있기 때문에 결측치 처리는 중요하다.
결측치는 random하게 발생할 수도 있고, 어떤 패턴이나 rule이 보일 수도 있다.
어떤 pattern이 보이면 그 패턴에 따라 실제 값을 예측해 채우면 된다.
이상치
: 일반적인 데이터와 크게 다른 데이터. outlier정성적 측면 : 이상치의 발생 이유와 의미에 대해 생각한 후 처리
성능적 측면 : Train 과정에서 이상치라고 판단된 것이 Test 데이터에서도 발견되고 이를 이상치로 판단해 제거하면 모델의 예측력이 떨어진다.
본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.