1) 중복값 확인은 아래와 같이 할 수 있다
12행의 의미는 중복값을 제거한 컬럼의 길이를 구하라는 것.
둘이 같은 숫자면 중복값이 없다는 의미가 될 수 있다
숫자 형식 컬럼들만 뽑아서 count, mean, std, min 등을 계산해서 보여주는 함수라고 할 수 있다
여기에서 어떤 자료가 무의미할지, 유의미할지를 구분할 수 있다
예를 들어 표준편차 0, 평균 1인 값, 표준편차 0, 평균 80인 값들은 모두가 동일한 값을 갖고 있다는 의미라고 볼 수 있으니 무의미하다고 볼 수 있다
컬럼이 너무 많아서 중간의 값들이 안 보인다면
df.describe().T
를 이용해서 좌우가 바뀐 표를 출력할 수 있다
컬럼과 로우를 재구성하여 보여달라는 명령
여기서 소숫점까지 정리하고 싶다면
round(0)을 중간에 넣어준다
평균과 중간값의 차이
평균은 아웃라이어가 있으면 큰 영향을 받게 된다.
예를 들면 아래와 같은 상황을 들 수 있다