데이터 분석의 첫걸음은 데이터를 탐색하고 이해하는 것입니다. Python의 Pandas 라이브러리를 사용하여 데이터의 구조와 특성을 확인하고, 분석에 적합한 형태로 데이터를 준비할 수 있습니다.
먼저, 데이터를 로드하고 주요 정보를 확인합니다:
python
코드 복사
import pandas as pd
# 데이터 파일 경로 설정
route1 = '/Users/ryansong/Documents/zerobase/dataset/1_온라인쇼핑몰 운영형태별 상품군별거래액 (1).csv'
# CSV 파일 읽기
df = pd.read_csv(route1, encoding='cp949')
# 데이터의 상위 5개 행 확인
df.head()
df.head(): 데이터프레임의 상위 5개 행을 출력하여 데이터 구조를 확인합니다.데이터의 전반적인 정보를 확인하려면 다음 코드를 사용합니다:
python
코드 복사
# 데이터 구조와 요약 정보 확인
df.info()
# 데이터프레임 컬럼 확인
df.columns
df.info(): 데이터프레임의 행/열 개수, 데이터 타입, 결측값 등을 보여줍니다.df.columns: 데이터프레임의 컬럼명을 출력합니다.데이터프레임 내 특정 열에 포함된 고유값을 확인합니다.
python
코드 복사
# 상품군 카테고리 확인
df[df.columns[0]].unique()
이 코드는 상품군별 카테고리의 고유값 리스트를 반환하여 데이터의 분포를 이해할 수 있도록 도와줍니다.
특정 조건에 따라 데이터를 필터링하여 필요한 데이터를 탐색합니다:
python
코드 복사
# '음식서비스'에 해당하는 행 필터링
df[df['상품군별(1)'] == '음식서비스']
# '온라인 전용몰'에 해당하는 행 필터링
df[df['운영형태별(1)'] == '온라인 전용몰']
df[df['컬럼명'] == '조건']: 특정 조건에 따라 데이터를 선택합니다.이 탐색 과정을 통해 데이터의 특성을 이해하고, 필요한 부분을 추출하거나 변환할 준비를 마칠 수 있습니다. 이후에는 데이터 전처리 및 시각화를 통해 더 깊은 인사이트를 도출할 예정입니다.