mining은 채굴 채광이라는 뜻으로 데이터 마이닝은 많은 양의 데이터 중에서 의미 있거나 유용한 정보를 추출하는 과정을 의미합니다.
데이터 마이닝은 전통적인 데이터 분석 방식으로는 찾기 어려운 데이터 내부의 패턴, 연관성, 변화와 규칙 같은 중요한 정보를 발견하고 활용하기 위해 사용됩니다.
KDD는 정제되지 않은 데이터에 적절한 방법이나 기술을 활용해 데이터를 정제하고 해당 데이터에서 통계적인 패턴이나 유용한 인사이트를 발견할 수 있께 정리하는 프로세스를 제시한 데이터 분석 방법론 중 하나입니다.
데이터 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 결과 평가 및 반복 과정으로 구성되어 있으며, 데이터 마이닝, 머신러닝, 인공지능 등등에서 활용이 되는 구조입니다.
데이터 마이닝 프로세스의 시작점입니다. 이 단계에서는 분석에 적합한 데이터를 선택합니다.
데이터의 소스, 형식, 품질, 관련성 등을 고려하여 적합한 데이터를 선별합니다.
데이터 선택은 분석하려는 도메인 내에서 주제와 분석 목표를 설정한 후 데이터베이스 혹은 정제되지 않은 데이터에서 분석에 요구되는 데이터를 식별하고 선택하는 단계라고도 부릅니다.
데이터 선택 단계에서 선택한 데이터에 포함되어 있을 수 있는 데이터의 이상값이나 결과값, 노이즈를 탐지하고 필요에 따라 삭제 및 변환, 대체와 같은 전처리 과정을 거쳐 데이터를 정제하는 과정입니다.
특히 현재 많이 활용되는 빅데이터의 경우 비정형 데이터가 대부분이기 때문에 전처리 과정이 반드시 필요하며 해당 과정은 이후 데이터 마이닝의 결과나 성능에 많은 영향을 끼칠 수 있습니다.
그리고 데이터가 실제로 분석될 수 있도록 준비하는 단계입니다. 이 단계에서는 결측치 처리, 이상치 탐지 및 처리, 데이터 정규화, 특성 선택 등이 이루어집니다.
데이터 전처리 단계에서 데이터를 정제했지만 전체 데이터를 가지고 분석을 진행할 경우 데이터 양이 너무 많아서 분석이 원활하게 진행되지 않을 수도 있고, 도출하려는 것들 외에 다른 요소가 포함될 수도 있습니다.
그래서 데이터 변환 단계에서는 분석 목적이나 의도에 따라 필요한 데이터 항목을 선택하고 전체적인 데이터의 차원을 축소하여 데이터 마이닝을 진행할 수 있게 변환합니다.
이때 차원 변경 뿐만 아니라 학습과 검증, 성능 측정을 위해 전체 데이터를 학습 데이터, 검증 데이터, 테스트 데이터로 나눕니다.
그리고 이 단계에서는 데이터를 분석에 적합한 형태로 변환하는 단계입니다. 주로 차원 축소 기법, 특성 추출, 특성 생성 등이 사용됩니다.
학습 데이터를 기반으로 분석 목적과 방향에 맞는 알고리즘을 선택해 데이터에 대한 마이닝을 진행하는 단계입니다.
광산에서 금을 캐듯이 데이터 네에서 유의미한 결과를 도출합니다.
주로 데이터 간의 숨겨진 관계를 발견하거나 패턴을 탐색하고 이를 일반화, 모형화하여 의미 있는 정보로 변환하는 단계입니다.
데이터를 분석한 결과로 해석과 평가를 진행합니다.
이때 유의미한 결과가 도출되지 않을 경우에는 데이터 선택 단계 혹은 마이닝 과정을 반복하며 적합한 알고리즘의 검토나 변수 값의 조정을 진행합니다.
관련 비즈니스 요구사항을 분석하고 정의하여 결과에 대한 목표를 설정합니다.
이를 위해 데이터의 종류와 성격을 분석하거나 사용자의 요구 사항을 면밀하게 조사하는 등의 준비과정을 거쳐야 합니다.
마이닝 작업에 필요한 데이터를 선정하고 정제하는 과정으로 KDD의 데이터 전처리 과정과 유사합니다.
이상치, 중복 값 제거, 누락된 값 대체, 전체 데이터 정리 및 조정 등을 통해 활용할 데이터의 질을 향상시킬 뿐 아니라 분석에 사용할 적절한 열을 선정하여 모델의 결과를 도출할 경우 문제가 될 만한 요소들을 제거합니다.
또한 데이터 값들의 편차나 분포를 확인함으로써 데이터의 왜곡 정도를 파악하고 요구되는 데이터를 수집하거나 변환합니다. 이는 모델에서 최적의 정확도를 도출하기 위해 꼭 필요한 과정입니다.
문제 정의에 근거해 적합한 알고리즘을 선정하고 조합해서 마이닝을 위해 모델을 구축하게 됩니다.
마이닝 모델은 문제 정의와 데이터 탐색 과정을 통해 만들어진 데이터 셋에 대한 학습을 필요로 하며, 학습 과정에서 발견한 결과는 학습에 사용한 데이터나 선택한 알고리즘 및 알고리즘을 구성한 방식에 따라 달라질 수 있습니다.
마이닝을 통해 분석된 결과가 목적에 부합한지 확인하기 위해 해석 및 평가를 진행하고 실제로 적용하는 단계입니다. 문제 정의부터 마이닝까지 일련의 과정을 거치면 실제로 적용하는 단계가 바로 이 단계입니다.
문제 정의부터 마이닝까지 일련의 과정을 거치면 데이터 분석 결과가 나오는데, 이 결과는 의사결정에 유효하고 이해 관계자가 이해할 수 있어야 합니다.
만약 결과가 유효하지 않다면 초기 단계로 회귀해서 재작업하게 되며 결과가 타당하거나 유효하다고 판단되면 해당 결과는 시각화, 문서화 되어 의사결정에 활용됩니다.
연관 분석은 데이터 간의 연관된 특징을 설명하는 패턴을 찾기 위해 활용하는 방법으로 각 데이터의 유사도를 찾아내는 분석 방법입니다.
유통 소비 분야에서는 연관 분석을 활용하여 고객들의 구매 기록을 분석하고 어떤 물건들을 함께 구매하는지 패턴을 찾아내 그 결과를 기반으로 마트 진열대를 관리하며, 미디어 플랫폼에서는 비슷한 취향의 영화나 음악을 추천해주기도 합니다.
분류 분석은 원하느 라벨에 따라 기존 데이터를 분류하고, 분류된 데이터를 학습한 다음 이를 토대로 새로운 데이터가 들어왔을 경우 지정한 카테코리에 따라 분류하는 분석 방법입니다.
분류 분석은 과거 카드 사용 기록을 기반으로 신용카드 부정 사용을 판단하거나 고객의 데이터를 분석해 이탈 고객을 선별하고 이를 방지하는데에 활용이 가능합니다.
군집 분석은 데이터를 그룹화하는 분석 방법입니다. 분류 분석과 유사해 보일 수 있지만 기존 데이터에 카테고리가 부여되어 있는 분류 분석과 다르게 카테고리가 정해지지 않은 상태에서 데이터 간 유사도를 정의하고 그에 따라 데이터를 그룹화 합니다.
고객 소비 데이터 분석으로 소비 성향에 따라 고객 분류를 세분화하거나 여러 특징을 복합적으로 갖고 있는 유전자나 단백질을 그룹화할 경우 활용할 수 있습니다.
예측 분석은 미래에 특정 사건이 발생할 가능성이나 미래 추세를 예측하는 분석 방식으로 현재와 과거의 데이터를 분석하고 이를 기반으로 새로운 데이터 케이스들을 예측합니다.
특정 기업의 주가 예측, 광고 비용에 기반한 제품 판매량 예측, 제품 판매량에 기반한 계절에 따른 소비자 수요 예측 등등 다양한 방면에서 활용이 가능합니다.