🔍 현재 진행 상황 정리
텍스트 마이닝 분석
워드클라우드, 네트워크 그래프를 활용하여 텍스트 분석을 수행했음.
결과적으로, "배송"과 관련된 단어가 주요하게 나타났으며, 기존 기대했던 것보다 유의미한 인사이트를 도출하기 어려웠음.
리뷰 기반 클러스터링
리뷰 텍스트만으로 K-Means 등 클러스터링을 적용했지만, 의미 있는 그룹이 나오지 않음.
리뷰 자체에 결측치가 많고, 단순한 텍스트 분석만으로는 고객을 효과적으로 그룹화하기 어려울 가능성이 있음.
추가적으로 활용할 수 있는 변수
고객 특성: customer_state, customer_city
제품 특성: product_category_name
리뷰 특성: review_score, cleaned_reviews (결측치 존재)
구매 특성: order_purchase_timestamp, price, payment_value
🤔 클러스터링을 어떻게 진행해야 할까?
💡 텍스트만이 아니라 여러 컬럼을 종합적으로 고려하는 것이 중요함.
🚀 1️⃣ 리뷰 텍스트만으로 클러스터링 진행 후, 추가 분석
✅ 리뷰가 있는 데이터만을 활용해서 클러스터링을 수행한 뒤, 해당 결과를 다른 데이터와 결합하여 추가 분석
🔹 프로세스
cleaned_reviews 텍스트 데이터를 TF-IDF 벡터화
K-Means 또는 DBSCAN 등을 사용하여 리뷰 기반 클러스터링 수행
클러스터 결과를 기존 orders_with_sellers 데이터에 추가하여 리뷰를 기반으로 고객을 분류
🔹 장점
리뷰 내용에서 숨겨진 고객 패턴을 파악할 수 있음.
리뷰 데이터를 활용하는 모델을 구축할 수 있음.
리뷰 중심의 고객 유형 분류가 가능해짐.
🔹 단점
리뷰 자체가 없는 데이터가 많으면 활용성이 떨어짐.
텍스트만으로 유의미한 클러스터가 나오지 않을 수도 있음.
🚀 2️⃣ 리뷰를 포함한 여러 변수 기반 클러스터링
✅ 리뷰 유무와 상관없이 고객, 제품, 결제 등의 변수를 포함하여 클러스터링 수행
🔹 프로세스
customer_state, customer_city, product_category_name, review_score, price, payment_value 등을 수치형으로 변환
범주형 변수(state, city, category) → One-Hot Encoding
연속형 변수(price, payment_value) → 표준화
리뷰 데이터(cleaned_reviews → TF-IDF + PCA 차원 축소)
K-Means, DBSCAN, GMM 등의 클러스터링 알고리즘 적용
클러스터별 고객 특성을 분석하여 유사 고객 그룹화
🔹 장점
리뷰가 없는 데이터도 활용할 수 있음.
가격, 결제 방식, 구매 지역 등 고객 행동 패턴까지 고려 가능.
보다 실질적인 비즈니스 인사이트를 얻을 가능성이 높음.
🔹 단점
데이터 차원이 커지므로 차원 축소(PCA 등)가 필요할 수도 있음.
customer_state, product_category_name 등의 범주형 변수를 잘 다뤄야 함.
🔑 결론: 어떤 방법이 더 적절할까?
✔️ 리뷰가 있는 데이터만을 활용하는 경우, 리뷰 자체의 클러스터링을 통해 유사한 고객군을 도출할 수 있지만, 결측치가 많아 활용할 수 있는 고객이 제한적일 가능성이 큼.
✔️ 리뷰뿐만 아니라 고객의 구매 패턴까지 포함한 클러스터링이 보다 의미 있는 결과를 도출할 가능성이 큼.
✅ customer_state, city, category, price, payment_value, review_score 등의 변수와 리뷰 텍스트에서 추출한 특징(TF-IDF + PCA 축소)을 함께 사용하여 클러스터링하는 것이 더 적절할 가능성이 높음.