누락 데이터 처리

는는·2022년 9월 29일
0

python

목록 보기
4/19
  • info() 메소드를 데이터 프레임에 적용하면 데이터 프레임에 관한 기본 정보를 화면에 출력한다

데이터 프레임의 기본 정보 출력: DataFrame 객체.info()

# 데이터프레임 df의 내용 확인
print(df.info())

첫 행에 데이터프레임 df 의 클래스 유형인 ‘pandas.core.frame.DataFrame’이 출력 된다.

행 인덱스, 열에 관한 정보(열의 이름,데이터 개수), 자료형이 출력 된다

  • 결측치

데이터 분석의 정확도는 분석 데이터의 품질에 의해 좌우된다.

사전 처리 통해 데이터 품질을 높일 수 있다 (누락 데이터, 중복 데이터 등의 오류 수정)

유효한 데이터 값이 존재하지 않는 누락 데이터를 NaN(Not a Number)으로 표시한다.

info()메소드로 데이터프레임의 요약 정보를 출력하면

각 열에 속하는 데이터 중에서 유효한 (non-null, 즉 NaN 값이 아닌)값의 개수를 보여준다

위에 있는 표를 참고 하면 누락 데이터는 horsepower 6개 누락 데이터를 알 수 있다(계산식: 398-392)

누락데이터를 찾는 직접적인 방법으로 isnull() 메소드와 notnull() 메소드가 있다.

  • isnull() : 누락 데이터면 True를 반환하고, 유효한 데이터가 존재하면 False를 반환한다.
  • notnull(): 유효한 데이터가 존재하면 Ture를 반환하고, 누락 데이터면 False를 반환한다.

누락 데이터의 개수를 구할때,

isnull() 메소드 경우 반환되는 값이 참이면 1이고, 거짓이면 0으로 판별한다. 따라서 isnull()메소드를 실행하고 sum()메소드를 적용하면 참의 합을 구할 수 있다.

mean()메소드를 적용하면,NaN을 제외하고 평균을 구합니다.

0개의 댓글