
관측된 데이터 내 전체적 패턴에서 아주 작게 혹은 아주 크게 벗어난 값
(ex. 데이터는 존재하나, 기존 추세에서 크게 벗어나 위치하는 값)
이상치는 데이터 분석 과정 및 결과에 영향을 미치 분석 결과가 왜곡될 수 있기에 처리되어야 한다.
이상치의 유형은 잘못 수집되거나, 실제 극단치의 값을 지닌 경우로 발생 가능하다.
오류 데이터 : 센서 혹은 시스템 오류로 잘못된 값 수집
실제 데이터 : 극단적 관측치로 인해 일반적 관측 범위를 벗어남.
(실제 오류는 없는 데이터이지만, 극단적인 값)
이러한 이상치는 전체적인 패턴을 깨뜨려 자료를 왜곡시켜, 데이터 전처리 과정에서 처리가 필요하다.
문제는 데이터가 잘못된 데이터인지 아닌지 구분하기가 쉽지 않음.
이상치 처리 프로세스의 대략적인 큰 흐름은 아래와 같다.
위의 관점을 개별 또는 함께 활용하여 이상치를 판단한 뒤,
이상치 판단 방안 중 통계적 방안에 대해 살펴본다.

이상치 처리는 삭제 또는 대체의 방식으로 처리된다.
삭제
대체 or 변경
최대한 데이터활용을 목적으로 할 경우 활용
현업 관점에서 정의된 기준 기반의 다른값으로 대체
ex. 5만불 이상은 의미를 가지기 힘드므로, 이상치들을 다 5만불로 설정. (이러한 대체는 데이터 관련 지식이 필요 + 비즈니스 관점 기준 및 논의기 필요)
또한 해당 데이터를 대체하지 않고, 그대로 활용해야 하는 경우, 데이터 간격을 조정하는 스케일링 변환을 활용할 수 있다.
데이터가 의미를 지닐 경우 Log 변환 등을 활용한 데이터 간격 조정으로 변경
연속형 데이터의 경우에는 데이터 값의 범위와 극단치 값에 의해서 분석 결과 왜곡이 발생할 수 있으므로, 해당 데이터 간격을 조정할 필요가 있다. 이 때 Log 변환을 사용할 수 있다.
데이터의 변경 및 대체는 데이터를 바꾸는 것이기에, 현업/데이터 관점을 신중히 고려하여 적용 필요