데이터 프레임의 기본 정보 출력: DataFrame 객체.info()
# 데이터프레임 df의 내용 확인
print(df.info())
첫 행에 데이터프레임 df 의 클래스 유형인 ‘pandas.core.frame.DataFrame’이 출력 된다.
행 인덱스, 열에 관한 정보(열의 이름,데이터 개수), 자료형이 출력 된다
데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우된다.
사전 처리 통해 데이터 품질을 높일 수 있다 (누락 데이터, 중복 데이터 등의 오류 수정)
유효한 데이터 값이 존재하지 않는 누락 데이터를 NaN(Not a Number)으로 표시한다.
info()메소드로 데이터프레임의 요약 정보를 출력하면
각 열에 속하는 데이터 중에서 유효한 (non-null, 즉 NaN 값이 아닌)값의 개수를 보여준다
위에 있는 표를 참고 하면 누락 데이터는 horsepower 6개 누락 데이터를 알 수 있다(계산식: 398-392)
누락데이터를 찾는 직접적인 방법으로 isnull() 메소드와 notnull() 메소드가 있다.
누락 데이터의 개수를 구할때,
isnull() 메소드 경우 반환되는 값이 참이면 1이고, 거짓이면 0으로 판별한다. 따라서 isnull()메소드를 실행하고 sum()메소드를 적용하면 참의 합을 구할 수 있다.
mean()메소드를 적용하면,NaN을 제외하고 평균을 구합니다.