[TIL] 파이썬 데이터 전처리 관련 미완

Jeong Min·2025년 6월 9일
0

데이터 전처리란?

  • 원하는 데이터를 보기 위해 하는 활동
  • 데이터 전달의 목적성을 지녀야 함.

데이터 전처리 (컬럼)

  • 컬럼 : 데이터 프레임의 열을 나타냄 (세로 방향)
    컬럼명 변경하기 : names = [컬럼1, 컬럼2, 컬럼3 ...]

데이터 확인

  • head() : 데이터를 N개 행까지 보여줌. DEFAULT 값은 5개, 숫자 입력 숫자만큼 데이터 출력.
  • info() : 데이터의 정보 파악. 인덱스, 컬럼명, 데이터 개수, 데이터 타입
  • describe() : 숫자 값의 데이터의 기초 통계량 확인. 개수, 평균, 표준편차, 중앙값 등
    데이터 확인에 필수적인 것!
  1. 결측치가 있는지? (NULL 값)
  • 결측치 확인 : isnull()
  • 결측치 제거 : dropna()
  1. 중복 데이터가 없는지?
  • 중복 확인 : duplicated(subset=['컬럼 1'...])
  • 중복 제거 : drop_duplicates(subset=['컬럼 1'...])
  1. 데이터 이상치는 없는지?

세션 내용

Series = 한 행으로 이루어진 것.
EX)
ages = pd.Series([25, 30, 35, 28, 32])
print("Series 예제:")
print(ages)
나이로 이루어진 시리즈, 한 행.

Data Frame = 여러 개의 행으로 이루어진 것. 시리즈의 집합
EX)
data = {
'name': ['김철수', '이영희', '박민수', '최지은'],
'age': [25, 30, 35, 28],
'city': ['서울', '부산', '대구', '인천']
}
df = pd.DataFrame(data)
print("DataFrame 예제:")
df
이름, 나이, 도시의 여러 행으로 이루어진 데이터 프레임

-> 'df.shape'을 입력하면 , 행렬 정보가 나옴. = (5, 4)
df.shape는 속성을 나타냄. 매서드는 뒤에 ()가 붙음.
매서드 = 기능(동사) / 속성 = 특징(명사)

EX)
이름 나이 도시
1
2
3

▶ 1,2,3(인덱스, 데이터베이스의 PK와 유사)

0개의 댓글