머신러닝 프로젝트 - 1. 소개

최두희·2024년 7월 8일

감정분석을 통한 리셀 마켓 가격 예측 프로젝트

주제 : 리셀 플랫폼 물품의 가격 예측
프로젝트 목표 : SNS, 유튜브 등 트렌드 분석을 반영한 리셀 플랫폼 물품 가격 예측을 통해 판매자는 시장 변동성을 반영한 가격 책정을 통해 매출을 극대화하고, 소비자는 최적의 구매 시점을 예측할 수 있습니다.

기획 내용 :

리셀 플랫폼(크림, 솔드아웃, 스탁엑스 등)의 국내 시장은 급속도로 성장하고 있으며, 2025년에는 시장 규모가 2.8조원에 이를 것으로 예측됩니다(이베스트투자증권, 2022). 이러한 성장 속에서, 본 프로젝트는 다양한 데이터 소스(소셜 미디어, 뉴스, 블로그, 검색 트렌드, 날씨 데이터)를 통합 분석하여, 제품의 가격 변동을 예측하고 적시에 최적의 구매 시점을 제공하는 시스템을 구현하는 것을 목표로 합니다.

프로젝트 개요

데이터 수집

크림 시세 데이터

목적: 제품(예: 스니커즈)의 시간대별 시세 데이터를 수집하여 가격 변동 예측
방법: 크림 사이트에서 제품의 시세 데이터를 웹 크롤링하여 수집
주요 항목: 제품명, 날짜, 시간, 시세, 거래량 등

소셜 미디어 데이터

목적: 제품에 대한 소셜 미디어 언급 빈도와 감정 분석을 통해 가격 변동 예측
방법: YouTube Data API, Instagram Graph API 등을 통해 관련 데이터 수집
주요 항목: 게시물 내용, 작성 시간, 좋아요 수, 댓글 수, 감정 점수 등

뉴스 기사 및 블로그 데이터

목적: 시장의 주요 사건과 동향을 반영하는 데이터 수집
방법: Google News API 등을 통해 관련 뉴스 기사 및 블로그 포스트 수집
주요 항목: 기사 제목, 내용, 작성 시간, 감정 점수 등

검색 트렌드 데이터

목적: 소비자 관심의 변화를 반영하는 데이터 수집
방법: Google Trends를 통해 특정 키워드의 검색 빈도 데이터 수집
주요 항목: 키워드, 검색 빈도, 시간 등

날씨 데이터

목적: 날씨가 소비자의 구매 행동에 미치는 영향을 반영하여 가격 변동 예측
방법: 기상청 API 또는 OpenWeatherMap API를 통해 날씨 데이터 수집
주요 항목: 날짜, 시간, 기온, 강수량, 날씨 상태 등

데이터 전처리

크림 시세 데이터 전처리

결측치 처리 및 이상치 제거
시간대별 시계열 데이터로 변환

소셜 미디어 데이터 전처리

텍스트 정제: 불필요한 기호 제거, 소문자 변환, 불용어 제거
감정 분석 라벨링: 긍정, 부정, 중립 등의 감정 라벨링 수행
시계열 데이터 통합: 게시물 데이터를 시간별로 집계하여 시계열 데이터로 변환

뉴스 및 블로그 데이터 전처리

텍스트 정제: 불필요한 기호 제거, 소문자 변환, 불용어 제거
감정 분석 라벨링: 긍정, 부정, 중립 등의 감정 라벨링 수행
시계열 데이터 통합: 뉴스 및 블로그 데이터를 시간별로 집계하여 시계열 데이터로 변환

검색 트렌드 데이터 전처리

시계열 데이터로 변환: 검색 빈도를 시간대별로 집계하여 시계열 데이터로 변환
날씨 데이터 전처리
시간대별 시계열 데이터로 변환: 날짜 및 시간에 따라 데이터를 집계하여 시계열 데이터로 변환

모델 적용

수요 예측 모델

LSTM: 장기적인 의존성을 고려하여 시계열 데이터를 예측
Prophet: 빠르고 신뢰성 있는 시계열 예측 모델

강화 학습 모델

Q-learning: 최적의 가격 책정 전략을 학습
DQN: 심층 강화 학습을 통해 복잡한 가격 책정 전략을 구현
NLP 모델
BERT 또는 RoBERTa: 소셜 미디어 데이터와 뉴스 기사, 블로그 데이터의 감정 분석을 수행

모델 평가

평가 지표

RMSE, MAE: 예측된 가격과 실제 가격 간의 오차를 측정
정확도: 예측된 가격 변동이 실제 가격 변동과 일치하는 정도를 평가
AUC-ROC 커브: 클래스 불균형 문제를 해결하기 위한 성능 평가
MAPE: 평균 절대 백분율 오차를 통해 예측의 정확성을 평가

프로젝트 최종 목표

인사이트 발견

수요와 가격 변동의 상관관계 분석: 가격 변화에 따른 수요 변화 패턴 분석
소셜 미디어 언급과 실제 가격 변동 간의 상관관계 분석: 소셜 미디어 활동이 가격 변동에 미치는 영향 분석
뉴스 및 블로그 언급과 실제 가격 변동 간의 상관관계 분석: 뉴스 및 블로그 활동이 가격 변동에 미치는 영향 분석
검색 트렌드와 실제 가격 변동 간의 상관관계 분석: 검색 트렌드가 가격 변동에 미치는 영향 분석
날씨와 가격 변동 간의 상관관계 분석: 날씨 변화가 가격 변동에 미치는 영향 분석
유의미한 결과 도출
동적 가격 책정을 통한 매출 증대 및 재고 관리 최적화
다양한 데이터 소스를 결합한 정확한 가격 예측 및 마케팅 전략 수립 지원

팀원 역할 분담
강명한 (조장): 프로젝트 총괄, 데이터 수집 및 모델 적용
김수명: 데이터 전처리 및 소셜 미디어 분석
염정은: 뉴스 및 블로그 데이터 분석, 감정 분석 모델 적용
최두희: 검색 트렌드 데이터 분석 및 모델 평가

프로젝트 관리 계획

타임라인 및 주요 마일스톤

1주차:

데이터 수집 시작 및 초기 전처리
기획 발표 준비 및 진행
마일스톤: 데이터 수집 계획 확정 및 초기 데이터 확보 완료

2주차:

데이터 전처리 완료 및 모델 적용 시작
초기 테스트 데이터 준비
마일스톤: 데이터 전처리 완료 및 모델 적용 시작

3주차:

모델 적용 및 평가
중간 발표 준비 및 진행
마일스톤: 모델 초기 평가 완료 및 중간 발표 진행

4주차:

모델 최적화 및 최종 결과 도출
최종 발표 준비 및 진행
마일스톤: 모델 최적화 완료 및 최종 발표 진행

발표 계획

기획 발표 (1주차 7/3)
프로젝트 목표 및 개요 설명
데이터 수집 계획 및 진행 상황 공유
데이터 전처리 계획 소개
예상되는 주요 도전 과제 및 해결 방안 논의

중간 발표 (3주차 7/18)
데이터 수집 및 전처리 완료 보고
초기 모델 적용 및 테스트 결과 공유
모델의 성능 평가 및 개선 방향 제시
추가 필요한 데이터 및 리소스 논의

최종 발표 (4주차 7/25)
최종 모델 결과 및 성능 평가 보고
주요 인사이트 및 발견 사항 공유
프로젝트 목표 달성 여부 평가
최종 보고서 제출 및 질문 응답

추가 고려 사항 및 향후 발전 방향

경쟁 플랫폼 데이터 수집: 여러 리셀 플랫폼에서 동일한 제품의 가격 변동을 비교 분석하여 더 정확한 예측을 수행.
사용자 리뷰 데이터: 사용자 리뷰와 평점을 통해 제품에 대한 소비자 감정과 인식을 분석.
소비자 구매 패턴 데이터: 소비자의 구매 이력과 패턴을 분석하여 수요 예측 모델을 개선.
경제 지표 데이터: 경제 상황이 소비자의 구매력에 미치는 영향을 반영하여 가격 예측 모델을 보완.
패션 트렌드 데이터: 패션 트렌드 변화가 특정 제품군의 수요와 가격에 미치는 영향을 분석.
데이터 증강: 데이터의 양과 다양성을 늘려 모델의 일반화 성능을 향상.

최두희

안녕하세요!

이전 포스트

머신러닝 주제 후보

다음 포스트