[Zero-Base DS]스터디노트_EDA(01)

HAHAHAEUN·2024년 4월 3일
post-thumbnail

주요 학습내용

Pandas기초

1. Series

2. DataFrame

Pandas

  • Pandas는 데이터의 수집, 조작 및 분석에 활용되는 오픈 소스 라이브러리이다. Python을 기반으로 작동한다
  • R 만큼의 강력한 데이터 핸들링 성능을 제공하는 모듈
  • 단일 프로세스에서는 최대 효율
  • 코딩 가능하고 응용 가능한 엑셀이라고 받아들여도 됨
  • 누군가 스테로이드를 맞은 엑셀로 표현함
  • pandas는 통상 pd로 import하고
  • 수치해석적 함수가 많은 numpy는 통상 np로 import한다

기초 사용법

1) 페이지 나누기/줄 생성 : "---" + esc + "m"

2) markdown : esc + "m"

3) # * 개수로 글자 크기 지정 변경 가능

I. Series

  • Pandas의 데이터형을 구성하는 기본은 Series이다
  • Pandas Series는 인덱싱된 데이터의 1차원 배열이다
  • 명시적 인덱스를 사용할 수 있음
  • (BUT) 명시적 인덱스를 사용하여도 묵시적 인덱스(정수형)를 사용해도 접근 가능
  • pd.Series([데이터 입력])를 통해 생성 가능
  • 📌 index와 value로 이루어져 있음
  • 📌 여러가지 데이터를 입력을 할 수는 있지만 한가지 데이터 타입만 가질 수 있음

Case 1) 짝수를 찾고 싶을 경우:

Case 2) 날짜 데이터 만들기

  • pd.date_range("yyyymmdd(문자열형태의 날짜데이터)", periods=기간입력)

II. DataFrame

  • 📌 index, values, column으로 이루어져 있음
  • pd.DataFrame(data, index, columms)를 통해 생성 가능

1) 데이터 프레임 정보 탐색

  • df.head(디폴트값 = 5) : 상위 n개의 데이터 볼 수 있음

  • df.tail(디폴트값 = 5) : 하위 n개의 데이터 볼 수 있음

    • df.tail()사용하여 전체 데이터의 수 파악 가능
  • df.index : 인덱스 값 확인

  • df.dolumns : 컬럼 값 확인

  • df.values : 데이터 값 확인

  • df.info() : 데이터 프레임의 기본 정보 확인

  • df.describe() : 데이터 프레임의 기술 통계 정보 확인

2) 데이터 정렬

  • sort_values(by="열", ascending=True(디폴트값, 오름차순)) : 특정 컬럼(열)을 기준으로 데이터를 정렬
  • 정렬한 데이터를 저장하기 위해서는 마지막에 inplace=True 입력 해줘야함

3) 데이터 선택

  • df["선택하고싶은 열"] : 1개열 선택
    • 열 이름이 알파벳인 경우, []없이 df.열 로 작성해줘도 출력 가능
    • 숫자, 문자열로 저장된 숫자 x
  • type(df["열"]) = 타입 출력
  • df[["열1", "열2"]] : 두개 이상의 열 선택

4) 컬럼 추가/변경

  • 기존 컬럼이 없으면 "추가"
  • 기존 컬럼이 있으면 "수정"
  • df["추가하고자 하는 컬럼명"] = ["값1", "값2", "값3"]
    • 입력 개수는 인덱스의 개수와 같아야 함

5) 특정 요소 있는지 확인

  • isin()

6) 특정 요소 제거

  • del df[column]
  • df.drop([column/index], axis = 1 or 0)
    • axis = 0 (가로)
    • axis = 1 (세로)

7) 일괄적으로 적용해주기

profile
할 거면 제대로 하자

0개의 댓글