1. 데이터프레임이름.columns
- 이를 이용하면 해당 데이터프레임을 구성하는 컬럼명을 확인할 수 있다. 이 기능은 컬럼명을 변경할 때도 유용하게 사용된다.
2. 데이터프레임이름.head() / 데이터프레임이름.tail()
- .head() 함수는 불러온 데이터의 상위 5개의 행을 출력.
비슷하게 .tail()의 경우 하위 5개의 행을 출력.
괄호 () 안에 원하는 숫자를 넣으면 그 숫자만큼 행을 출력.
3. 데이터프레임이름.shape
- 데이터의 (행, 열) 크기를 알 수 있음.
출력시 (행 크기(갯수), 열 크기(갯수)).
4. 데이터프레임이름.info()
- .info() 함수는 데이터에 대한 전반적인 정보를 나타낸다. 자세히 말해서, 데이터프레임을 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 값의 데이터타입 등을 출력해준다.
5. 데이터프레임이름.describe()
- .describe() 함수는 데이터의 컬럼별 요약 통계량을 나타낸다.
(물론 mean(), max(), median()등 개별 함수를 사용하여 통계량을 계산할 수도 있다.)
6. 데이터프레임이름["column 이름"].value_counts()
- 개별 컬럼 내에 각각의 값이 나온 횟수를 셀 수 있다.
예시
- normalize 옵션을 사용하면 % 로도 표현이 가능하다.
데이터프레임이름["column 이름"].value_counts(normalize=True)
예시
출처
https://hogni.tistory.com/5