5. Python 데이터 탐색

Ryan·2025년 1월 9일

SQL/Python 분석

목록 보기

9/94

5. Python 데이터 탐색

데이터 탐색의 중요성

데이터 분석의 첫걸음은 데이터를 탐색하고 이해하는 것입니다. Python의 Pandas 라이브러리를 사용하여 데이터의 구조와 특성을 확인하고, 분석에 적합한 형태로 데이터를 준비할 수 있습니다.

1. 데이터 로드 및 기본 정보 확인

먼저, 데이터를 로드하고 주요 정보를 확인합니다:

python
코드 복사
import pandas as pd

# 데이터 파일 경로 설정
route1 = '/Users/ryansong/Documents/zerobase/dataset/1_온라인쇼핑몰 운영형태별 상품군별거래액 (1).csv'

# CSV 파일 읽기
df = pd.read_csv(route1, encoding='cp949')

# 데이터의 상위 5개 행 확인
df.head()

df.head(): 데이터프레임의 상위 5개 행을 출력하여 데이터 구조를 확인합니다.

데이터의 전반적인 정보를 확인하려면 다음 코드를 사용합니다:

python
코드 복사
# 데이터 구조와 요약 정보 확인
df.info()

# 데이터프레임 컬럼 확인
df.columns

df.info(): 데이터프레임의 행/열 개수, 데이터 타입, 결측값 등을 보여줍니다.
df.columns: 데이터프레임의 컬럼명을 출력합니다.

2. 고유값 탐색

데이터프레임 내 특정 열에 포함된 고유값을 확인합니다.

python
코드 복사
# 상품군 카테고리 확인
df[df.columns[0]].unique()

이 코드는 상품군별 카테고리의 고유값 리스트를 반환하여 데이터의 분포를 이해할 수 있도록 도와줍니다.

3. 조건 필터링

특정 조건에 따라 데이터를 필터링하여 필요한 데이터를 탐색합니다:

python
코드 복사
# '음식서비스'에 해당하는 행 필터링
df[df['상품군별(1)'] == '음식서비스']

# '온라인 전용몰'에 해당하는 행 필터링
df[df['운영형태별(1)'] == '온라인 전용몰']

df[df['컬럼명'] == '조건']: 특정 조건에 따라 데이터를 선택합니다.
위 코드는 '음식서비스' 상품군과 '온라인 전용몰' 운영형태에 해당하는 데이터를 각각 출력합니다.

다음 단계

이 탐색 과정을 통해 데이터의 특성을 이해하고, 필요한 부분을 추출하거나 변환할 준비를 마칠 수 있습니다. 이후에는 데이터 전처리 및 시각화를 통해 더 깊은 인사이트를 도출할 예정입니다.

Ryan

이전 포스트

3. 데이터셋의 재구조화가 필요한 이유

다음 포스트