🧭 Pandas 입문과 Series·DataFrame 기본기

okorion·2025년 10월 29일

pandas python 데이터분석 데이터사이언스 데이터전처리 데이터프레임 시리즈 코랩

🛢 데이터 엔지니어링 (Data Engineering)

목록 보기

1/30

1. Pandas란 무엇인가

Pandas는 파이썬에서 데이터를 구조적으로 다루기 위한 대표적인 라이브러리다.
엑셀의 표처럼 행(row)과 열(column) 구조를 가지고 있으며, 분석·전처리·시각화 등 거의 모든 데이터 분석의 출발점이다.

Pandas의 핵심 객체는 두 가지다.

객체	구조	특징
Series	1차원 배열	하나의 열(column)에 해당. 인덱스(index)와 값(value)으로 구성
DataFrame	2차원 테이블	여러 Series를 모아 만든 표. 행과 열 모두 인덱스 가능

2. Pandas 시작하기

import pandas as pd

보통 pd로 줄여 불러온다.
Google Colab에서 다음 코드를 실행하면 버전과 간단한 테스트를 확인할 수 있다.

print(pd.__version__)

3. Series 기본기

3.1 Series 정의하기

Series는 리스트, 딕셔너리, 배열 등으로 쉽게 생성할 수 있다.

import pandas as pd

s = pd.Series([10, 20, 30])
print(s)
0    10
1    20
2    30
dtype: int64

왼쪽의 숫자(0,1,2)는 인덱스(index)
오른쪽 숫자는 값(value)

3.2 사용자 정의 인덱스

Series는 인덱스를 직접 지정할 수 있다.

s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s['a'])
10

딕셔너리처럼 키로 접근 가능
실제 데이터 분석에서는 의미 있는 인덱스를 설정하는 것이 중요

3.3 Series를 딕셔너리로 만들기

data = {'서울': 990, '부산': 340, '대구': 240}
s = pd.Series(data)

키 → 인덱스
값 → 데이터 값

s['부산']  # 340

3.4 Series 주요 속성

속성	설명
`s.index`	인덱스 목록
`s.values`	값 배열 (NumPy 기반)
`s.dtype`	데이터 타입
`s.name`	시리즈 이름 설정 가능

3.5 Series 메서드

메서드	설명	예시
`.sum()`	합계	`s.sum()`
`.mean()`	평균	`s.mean()`
`.sort_values()`	값 기준 정렬	`s.sort_values(ascending=False)`
`.unique()`	고유값	`s.unique()`

Series는 벡터 연산이 가능하다.

s * 2
s + 100

3.6 CSV 파일로 Series 다루기

s = pd.read_csv('data.csv', squeeze=True)

squeeze=True를 사용하면 DataFrame 대신 Series로 불러온다.
(최신 버전에서는 지원 중단 예정, usecols로 대체 권장)

3.7 인덱싱과 슬라이싱

s[0]        # 위치 기반 인덱싱
s['서울']   # 레이블 기반 인덱싱
s[1:3]      # 슬라이싱

3.8 Series 수학 연산

s1 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
s2 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s1 + s2

인덱스 기준으로 자동 정렬 후 연산
인덱스 불일치 시 NaN(결측값) 발생

4. DataFrame 기본기

4.1 DataFrame 생성

data = {
  '도시': ['서울', '부산', '대구'],
  '인구': [990, 340, 240],
  '면적': [605, 770, 883]
}
df = pd.DataFrame(data)
   도시   인구   면적
0  서울  990  605
1  부산  340  770
2  대구  240  883

4.2 CSV·HTML 파일 읽기

df = pd.read_csv('population.csv')
df_html = pd.read_html('https://example.com/table.html')[0]

4.3 인덱스 설정 및 재설정

df.set_index('도시', inplace=True)
df.reset_index(inplace=True)

inplace=True로 원본 변경

4.4 열 선택·추가·삭제

df['인구']
df[['인구', '면적']]
df['밀도'] = df['인구'] / df['면적']
df.drop(columns=['면적'], inplace=True)

4.5 행·열 선택 (`.loc`, `.iloc`)

메서드	기준	예시
`.loc[]`	인덱스 이름	`df.loc['서울']`
`.iloc[]`	정수 위치	`df.iloc[0]`

4.6 브로드캐스팅 연산

df['인구'] = df['인구'] * 1000
df['밀도'] = df['인구'] / df['면적']

모든 행에 연산이 동시에 적용된다.

4.7 누락값 처리 및 데이터 타입 변경

df.fillna(0, inplace=True)
df['인구'] = df['인구'].astype(int)

4.8 DataFrame 정리

메서드	기능
`df.info()`	데이터 요약
`df.describe()`	통계 요약
`df.head()`	상위 5행
`df.tail()`	하위 5행

✅ 학습 정리

구분	핵심 키워드
Series	1차원, 인덱스, 딕셔너리 기반 생성
DataFrame	2차원, 여러 Series 조합
Indexing	`.loc`, `.iloc`, 슬라이싱
파일 입출력	`read_csv`, `to_csv`
브로드캐스팅	행 전체 연산
결측치 처리	`fillna`, `dropna`

🔖 마무리 문단

이번 글에서는 Pandas의 기본 구조와 Series·DataFrame의 핵심 개념을 다뤘다.
데이터를 직접 정의하고 다루는 과정을 익히면 이후의 전처리·시각화 작업이 훨씬 수월해진다.
다음 글에서는 데이터 결합과 전처리 (Merge·Join·Concat·Apply) 로 넘어간다.

okorion

okorion's Tech Study Blog.

다음 포스트

🧭 Pandas 입문과 Series·DataFrame 기본기

🛢 데이터 엔지니어링 (Data Engineering)

1. Pandas란 무엇인가

2. Pandas 시작하기

3. Series 기본기

3.1 Series 정의하기

3.2 사용자 정의 인덱스

3.3 Series를 딕셔너리로 만들기

3.4 Series 주요 속성

3.5 Series 메서드

3.6 CSV 파일로 Series 다루기

3.7 인덱싱과 슬라이싱

3.8 Series 수학 연산

4. DataFrame 기본기

4.1 DataFrame 생성

4.2 CSV·HTML 파일 읽기

4.3 인덱스 설정 및 재설정

4.4 열 선택·추가·삭제

4.5 행·열 선택 (`.loc`, `.iloc`)

4.6 브로드캐스팅 연산

4.7 누락값 처리 및 데이터 타입 변경

4.8 DataFrame 정리

✅ 학습 정리

🔖 마무리 문단

🧭 데이터 결합과 전처리 (Merge · Join · Concat · Apply)

0개의 댓글

🧭 Pandas 입문과 Series·DataFrame 기본기

🛢 데이터 엔지니어링 (Data Engineering)

1. Pandas란 무엇인가

2. Pandas 시작하기

3. Series 기본기

3.1 Series 정의하기

3.2 사용자 정의 인덱스

3.3 Series를 딕셔너리로 만들기

3.4 Series 주요 속성

3.5 Series 메서드

3.6 CSV 파일로 Series 다루기

3.7 인덱싱과 슬라이싱

3.8 Series 수학 연산

4. DataFrame 기본기

4.1 DataFrame 생성

4.2 CSV·HTML 파일 읽기

4.3 인덱스 설정 및 재설정

4.4 열 선택·추가·삭제

4.5 행·열 선택 (.loc, .iloc)

4.6 브로드캐스팅 연산

4.7 누락값 처리 및 데이터 타입 변경

4.8 DataFrame 정리

✅ 학습 정리

🔖 마무리 문단

🧭 데이터 결합과 전처리 (Merge · Join · Concat · Apply)

0개의 댓글

4.5 행·열 선택 (`.loc`, `.iloc`)