Today I Learned
매일 배운 것을 정리하며 기록합니다.
Pandas의 데이터 살펴보는 법에 대해서 공부하였습니다.
1. 데이터 프레임의 구조
- 데이터프레임은 파이썬 클래스로 만들어졌으며 데이터프레임의 여러 정보를 확인할 수 있는 속성과 메서드가 포함되어 있다.
1-1. 데이터 내용 미리보기 - head(n), tail(n)
- 데이터셋의 내용과 구조를 개략적으로 파악 가능
- 앞부분 미리보기: DataFrame 객체.head(n)
- 뒷부분 미리보기: DataFrame 객체.tail(n)
- head(n),tail(n)의 디폴트 값은 n = 5
1-2. 데이터 요약 정보 확인하기 - shape, info(), describe()
-
데이터프레임 크기(행,열): DataFrame 객체.shape
행과 열의 개수를 튜플 형태로 반환
-
데이터프레임 기본 정보: DataFrame 객체.info()
클래스 유형, 행 인덱스 구성, 열 이름의 종류와 개수, 각 열의 자료형과 개수, 메모리 할당량에 관한 정보를 알 수 있음, 정보 요약 후 None을 반환
-
데이터프레임의 기술 통계 정보 요약: DataFrame 객체.describe(), option: inclued='all'
산술 데이터를 갖는 열에 대한 주요 기술 통계 정보를 요약하여 출력, 산술 데이터가 아닌 열에 대한 정보 포함하려면 include='all' 옵션 추가
1-3. 데이터 개수 확인 - count()
- 데이터프레임의 각 열이 가지고 있는 데이터 개수를 시리즈 객체로 반환, 유효한 값의 개수만 계산
- 열 데이터 개수 확인: DataFrame 객체.count()
2. 통계 함수 적용
2-1. 평균값 - mean()
- 모든 열의 평균값: DataFrame 객체.mean()
- 특정 열의 평균값: DataFrame 객체["열 이름"].mean()
- 모든 열의 중간값: DataFrame 객체.median()
- 특정 열의 중간값: DataFrame 객체["열 이름"].median()
2-3. 최대값 - max()
- 모든 열의 최대값: DataFrame 객체.max()
- 특정 열의 최대값: DataFrame 객체["열 이름"].max()
2-4. 최소값 - min()
- 문자열 데이터를 가진 열에 대해서는 ASCII 숫자로 변환하여 대소 관계를 비교
- 모든 열의 최소값: DataFrame 객체.min()
- 특정 열의 최소값: DataFrame 객체["열 이름"].min()
2-5. 표준편차 - std()
- standard deviation: 표준 편차
- 산술 데이터를 가진 열에 대해서만 계산
- 모든 열의 표준편차: DataFrame 객체.std()
- 특정 열의 표준편차: DataFrame 객체["열 이름"].std()
2-6. 상관계수 - corr()
- correlation: 상관관계, 연관성
- 산술 데이터를 가진 열에 대해서만 계산
- 모든 열의 상관계수: DataFrame 객체.corr()
- 특정 열의 상관계수: DataFrame 객체[열 이름의 리스트].corr()
3. 판다스 내장 그래프 도구 활용
- 선 그래프: DataFrame 객체.plot()
- 막대 그래프: DataFrame 객체.plot(kind="bar")
- 히스토그램: DataFrame 객체.plot("kind="hist")
- 산점도: DataFrame 객체.plot(kind="scatter")
- 박스 플롯: DataFrame 객체.plot(kind="box")
Reference : 오승환, 『파이썬 머신러닝 판다스 데이터 분석』, 정보문화사 (2019), p084-105.