TIL - pandas (Part 3)

MinWoo Park·2021년 3월 1일
0

TIL

목록 보기
18/49
post-thumbnail

Today I Learned

매일 배운 것을 정리하며 기록합니다.
Pandas의 데이터 살펴보는 법에 대해서 공부하였습니다.


1. 데이터 프레임의 구조

  • 데이터프레임은 파이썬 클래스로 만들어졌으며 데이터프레임의 여러 정보를 확인할 수 있는 속성과 메서드가 포함되어 있다.

1-1. 데이터 내용 미리보기 - head(n), tail(n)

  • 데이터셋의 내용과 구조를 개략적으로 파악 가능
  • 앞부분 미리보기: DataFrame 객체.head(n)
  • 뒷부분 미리보기: DataFrame 객체.tail(n)
  • head(n),tail(n)의 디폴트 값은 n = 5

1-2. 데이터 요약 정보 확인하기 - shape, info(), describe()

  • 데이터프레임 크기(행,열): DataFrame 객체.shape
    행과 열의 개수를 튜플 형태로 반환

  • 데이터프레임 기본 정보: DataFrame 객체.info()
    클래스 유형, 행 인덱스 구성, 열 이름의 종류와 개수, 각 열의 자료형과 개수, 메모리 할당량에 관한 정보를 알 수 있음, 정보 요약 후 None을 반환

  • 데이터프레임의 기술 통계 정보 요약: DataFrame 객체.describe(), option: inclued='all'
    산술 데이터를 갖는 열에 대한 주요 기술 통계 정보를 요약하여 출력, 산술 데이터가 아닌 열에 대한 정보 포함하려면 include='all' 옵션 추가


1-3. 데이터 개수 확인 - count()

  • 데이터프레임의 각 열이 가지고 있는 데이터 개수를 시리즈 객체로 반환, 유효한 값의 개수만 계산
  • 열 데이터 개수 확인: DataFrame 객체.count()

2. 통계 함수 적용

2-1. 평균값 - mean()

  • 모든 열의 평균값: DataFrame 객체.mean()
  • 특정 열의 평균값: DataFrame 객체["열 이름"].mean()

2-2. 중간값 - median()

  • 모든 열의 중간값: DataFrame 객체.median()
  • 특정 열의 중간값: DataFrame 객체["열 이름"].median()

2-3. 최대값 - max()

  • 모든 열의 최대값: DataFrame 객체.max()
  • 특정 열의 최대값: DataFrame 객체["열 이름"].max()

2-4. 최소값 - min()

  • 문자열 데이터를 가진 열에 대해서는 ASCII 숫자로 변환하여 대소 관계를 비교
  • 모든 열의 최소값: DataFrame 객체.min()
  • 특정 열의 최소값: DataFrame 객체["열 이름"].min()

2-5. 표준편차 - std()

  • standard deviation: 표준 편차
  • 산술 데이터를 가진 열에 대해서만 계산
  • 모든 열의 표준편차: DataFrame 객체.std()
  • 특정 열의 표준편차: DataFrame 객체["열 이름"].std()

2-6. 상관계수 - corr()

  • correlation: 상관관계, 연관성
  • 산술 데이터를 가진 열에 대해서만 계산
  • 모든 열의 상관계수: DataFrame 객체.corr()
  • 특정 열의 상관계수: DataFrame 객체[열 이름의 리스트].corr()

3. 판다스 내장 그래프 도구 활용

  • 선 그래프: DataFrame 객체.plot()
  • 막대 그래프: DataFrame 객체.plot(kind="bar")
  • 히스토그램: DataFrame 객체.plot("kind="hist")
  • 산점도: DataFrame 객체.plot(kind="scatter")
  • 박스 플롯: DataFrame 객체.plot(kind="box")

Reference : 오승환, 『파이썬 머신러닝 판다스 데이터 분석』, 정보문화사 (2019), p084-105.

profile
물음표를 느낌표로 바꾸는 순간을 사랑하는 개발자입니다.

0개의 댓글