공공 데이터를 통한 시장 동향 이해 - 시장 동향 분석

dpwl·2024년 4월 29일
0

Data Analysis with SQL

목록 보기
3/120

0. 시장 동향 분석

비즈니스 데이터 분석가(Business Analyst, BA)는 내부 지표만으로는 충분하지 않다. 비즈니스 전략과 밀접한 관련이 있기 때문에, 넓은 시야와 다양한 관심사가 필요하다.

1) 도메인 지식: 해당 산업이나 업무 분야에 대한 이해는 분석을 가능하게 한다. 이는 비즈니스 환경과 프로세스를 이해하고, 데이터를 해당 도메인의 맥락에서 해석하는 것을 의미한다.

2) 시장 및 트렌드 파악: 외부 환경 변화에 대한 감각을 유지하는 것이 중요하다. 시장 동향과 트렌드를 주시하고, 산업의 변화에 따라 기업 전략을 조정해야 한다.

3) 경쟁사 분석: 경쟁사의 행동과 전략을 이해하는 것은 경쟁우위를 확보하는 데 중요하다. 경쟁사의 성과와 동향을 추적하여 우리 기업의 비교 분석을 통해 차별화된 전략을 개발할 수 있다.

1. 데이터셋 소개

KOSIS(국가통계포털)은 대한민국 통계청에서 제공하는 공식 통계 포털로, 다양한 통계 자료와 보고서를 제공한다.

온라인쇼핑동향과 같은 소비 관련 통계 자료도 매월 발표되므로, 온라인 쇼핑 시장의 동향을 파악하는 데 유용한 자료를 얻을 수 있다.

온라인쇼핑거래액

  • 판매매체: 모바일쇼핑 + 인터넷쇼핑
  • 취급범위: 종합몰 + 전문몰
  • 운영형태: 온라인매장 + 온오프라인 복합

2. 데이터셋의 재구조화가 필요한 이유

문제점 1: 이미 집계가 완료된 형태 (pivot table로 집계가 된 데이터셋)

문제점 2: 총합, 중간 집계값 존재

각각의 운영형태별로 중간 집계값인 계가 존재하여 온라인 전용몰의 값과 온•오프라인 병행몰의 더한 값을 가진 수가 여러개 있어 총합을 구하면 중간 집계값도 같이 합계가 되어 총합이 불확실하다.

문제점 3: 가전•전자•통신기기 카테고리 세분화

가전•전자•통신기기 카테고리를 제외한 다른 상품군들은 소계로 구분이 되어있지만 어떠한 가전•전자•통신기기는 가전•전자, 통신기기, 소계라는 3가지로 구분되어있는걸 확인할 수 있다.

문제점 4: 날짜 컬럼 양식 불일치

BY와 BZ 열의 날짜 양식은 yyyy.dd 이지만 CA와 CB 열의 날짜 양식은 yyyy.dd에 p)가 붙어있다. p는 추정치를 뜻한다.

3. 설정

문제점 1: 집계가 완료된 형태 ➞ 재구조화를 위한 메서드 적용

  • pd.melt()
  • pd.pivot_table()

3.1 pd.pivot_table() 함수

pd.pivot_table() 함수는 데이터프레임을 재구성하여 요약된 형태로 변환한다. 주로 긴 형식(long format)의 데이터를 넓은 형식(wide format)으로 변환하거나, 그룹별 집계를 수행할 때 사용된다.

df.pivot_talbe(index=None,		# 집게 기준(행)
               columns=None, 	# 집계 기준(열)
               values=None, 	# 집계 값
               aggfunc='mean')	# 집계 방식

집계방식으로는 평균값(mean), 총합(total), 최대값(max) 등으로 집계를 할 수 있다.

3.2 pd.melt() 함수

pd.melt() 함수는 데이터프레임을 재구성하여 "꼭대기에서 아래로" 긴 형태로 변환한다. 주로 넓은 형식(wide format)의 데이터를 긴 형식(long format)으로 변환할 때 사용된다.

df.melt(id_vars=None,		# 유지할 컬럼 이름
		value_vars=None,	# 변환할 컬럼 이름
        var_name=None,		# 변환 후 생성되는 컬럼 이름
        value_name='value')	# 변환 후 생성되는 값 컬럼의 이름
profile
거북선통통통통

0개의 댓글