Pandas

홍성채·2022년 5월 9일
0

Python

목록 보기
11/13
post-custom-banner

Pandas

정의

  • 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리
  • Array 계산에 특화된 numpy를 기반으로 만들어져서 다양한 기능을 사용할 수 있다.

Series

Series는 특별한 딕셔너리라 생각하면 된다.

  • index(key)와 value(data)로 구성이 된다.
  • 인덱스를 가지고 있으며 인덱스로 접근이 가능하다.
  • 딕셔너리로도 생성이 가능하다.

DataFrame

여러개의 Series가 모여서 행과 열을 이룬 데이터

  • 딕셔너리로도 만들 수 있다.
  • Series도 Numpy array처럼 연산자를 사용할 수 있다.
  • 만든 데이터 프레임을 저장할 수 있다.

Dataframe의 인덱싱과 슬라이싱

  1. loc : 명시적인 인덱스를 참조하는 인덱싱/ 슬라이싱 방법
  2. iloc : 파이썬 스타일 정수 인덱스 인덱싱/ 슬라이싱 방법

Dataframe에 데이터 추가하기

리스트와 딕셔너리로 추가하기
첫번째 줄은 리스트로 추가하는 방법이고
두번째 줄은 딕셔너리로 추가하는 방법이다.

Dataframe에 새로운 컬럼 추가하기

npn은 not a number 라는 뜻으로 값이 비워있는 데이터라고 생각하면 된다.

Dataframe 컬럼 선택하기

  1. 컬럼 이름이 하나만 있을 경우 : Series
  2. 리스트로 되어있을 경우 : Dataframe

    아래 첫번째 출력 같은 경우는 Series로 출력된 경우이고 두번째 출력은 Dataframe으로 출력이 된 경우이다.

Dataframe 연산

  • 누락이 되어있는 지 체크할 때 사용하는 연산
    • isnull(), notnull()
      isnull일 경우 비어져있을 경우 True
      notnull일 경우 비어져있지 않을 경우 True가 반환이 된다.
  • 비어져있는 있을 때
    1. 없애는 방법
      : .dropna()
    2. 다른 값으로 채울 경우
      : .fillna('변경할 값')

      아래 사진 같은 경우

      A에서는 3번째 위치에 데이터가 없고 B의 경우 0번째 데이터가 없으므로 해당 위치에 NaN이 발생한다.
      코드 마지막 줄 같은 경우에는 비어져있는 자리에 0을 넣기때문에 0번째에는 2.0, 3번째에는 5.0이 출력이 된다.

값으로 정렬하기

  1. sort_values()
    ()안의 값 기준으로 정렬이 된다.


    기본적으로 오름차순으로 정렬이 되지만 ascending이 False일 경우 내림차순으로 정렬이 된다.

    사진과 같이 리스트 형식으로 넣을 경우
    col2로 정렬이 먼저 된 후 col1으로 정렬이 된다.
profile
초보 코딩
post-custom-banner

0개의 댓글