5. DataFrame의 구조

김동웅·2021년 8월 21일
0

Pandas with python

목록 보기
5/23

1. 데이터 내용 미리보기

  • 데이터프레임의 양이 방대한경우, 앞부분이나 뒷부분을 df.head(n)나 df.tail(n)을 통해 n줄을 미리 볼 수 있다. (Default = 5)

2. 데이터프레임의 데이터 요약 정보 확인하기

  • 데이터프레임의 크기(행,열)
    - df.shape -> 행과 열의 개수를 튜플 형태로 리턴한다.

  • 데이터프레임의 기본 정보
    - df.info() 메소드 -> 데이터프레임에 관한 기본정보 시리즈 형태로 리턴

    기본정보라 함은

    클래스 유형,
    행 인덱스의 구성,
    열이름의 종류와 개수,
    각 열의 자료형과 개수,
    메모리 할당량에 관한 정보...

  • 데이터프레임의 기술 통계정보 요약
    - df.describe() 메소드 -> 숫자데이터를 갖는 열에 대해 주요 기술 통계 정보를 데이터프레임형태로 리턴한다.

    통계정보라 함은

    평균,
    표준편차,
    최대값,
    최소값,
    중간값 등..

    describe() 메소드에서 include='all' 옵션을 이용하면 숫자에 대한 통계정보 뿐만 아니라 문자열 데이터가 들어있는 열의 unique(고유값 개수), top(최빈값), freq(빈도수) 에 대한 정보가 추가된다.

  • 데이터 개수 확인
    : info() 메소드는 각 열의 데이터 개수 정보를 출력하지만 리턴값이 없어서 다시 사용하는데 어려움이 있다.

    1. 반면 count() 메소드를 데이터프레임에 적용하면 각 열이 가지고 있는 데이터 개수를 시리즈 객체로 리턴한다. 단 유효한 값의 개수만을 계산한다.
      (NaN 값은 count하지 않는다)
    1. value_counts() 메소드 - > 각 열의 고유값(unique value) 개수를 시리즈 형태로 리턴
      ex) 어떤 DataFrame의 'country' 열에 USA, JAPAN, CHINA 의 값만 존재할때, 이 값들의 개수를 알고 싶을 때 사용.

3. 통계 함수 적용

  1. 평균값

    • mean() 메소드 -> 숫자데이터를 갖는 모든 열의 평균값을 각각 계산하여 시리즈 형태로 리턴한다.
  2. 중간값

    • median() 메소드 -> 숫자데이터를 갖는 모든 열의 중간값을 각각 계산하여 시리즈 형태로 리턴한다.
  3. 최댓값

    • mean() 메소드 -> 숫자데이터를 갖는 모든 열의 최댓값을 시리즈 형태로 리턴한다.
  4. 최소값

    • min() 메소드 -> 숫자데이터를 갖는 모든 열의 최소값을 시리즈 형태로 리턴한다.
  5. 표준편차

    • std() 메소드 -> 숫자데이터를 갖는 모든 열의 표준편차값을 시리즈 형태로 리턴한다.
  6. 상관계수
    - corr() 메소드 -> 숫자데이터를 갖는 모든 열의 표준편차값을 시리즈 형태로 리턴한다.


4. 판다스 내장 그래프 도구

  • 판다스는 matplotlib 라이브러리의 기능을 일부 내장하고 있어서, 별도로 임포트하지 않고도 간단한 그래프를 손쉽게 그릴 수 있다.

kind 옵션 : line(선그래프), bar(수직막대그래프), bah(가로막대그래프),

his(히스토그램), box(박스플롯), area(면적그래프), pie(파이그래프),

scatter(산점도 그래프), hexbin(고밀도 산점도 그래프), kde(커널밀도그래프)

0개의 댓글