노드 10

안희상·2022년 1월 3일

노드 10 - 2 결측치(Missing Data)

총 데이터 건수 뽑기
print('전체 데이터 건수:', len(trade))

Data.Frame.isnull() - 데이터마다 결측치 여부를 True,False로 반환
DatatFrame.any(axis=1) - 행마다 하나라도 True가 있으면 True,그렇지 않으면 False를 반환

전자가 데이터를 뽑을 수 있는 형태로 바꾸고
후자가 행마다 그 형태(Bool)대로 값을 출력한다


trade.isnull().any(axis=1) 으로
윗 내용이

이렇게 출력된다

trade.[trade.isnull().any(axis=1)] 을 다시 입력하면 값이 True인 데이터만 추출해준다

dropna - 결측치를 삭제해주는 메서드
subset - 으로 특정 칼럼들을 선택
how - 선택한 컬럼 전부가 결측치인 행을 삭제하겠다는 의미로 'all'을 선택 ('any' 하나라도 결측치인 경우)
inplace - 해당 DataFrame 내부에 적용

결측치를 대체하기

노드 10 - 3 중복된 데이터

DataFrame.duplicated() - 중복된 데이터 여부를 Bool 로 처리 후 반환

중복된 데이터를 어떻게 처리할 것인가~

pandas.Dataframe
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html

keep: {'first', 'last', False} default 'first'
df.drop_duplicates(subset-['id], keep='last')
--> 중복된 자료중 마지막으로 입력된 것 빼고 모두 삭제
처음으로 입력된 자료를 살리고 싶다면 끝에 ',' 다음에 keep='first'
false : 모든 중복된 자원 삭제

여기서 subset이란: column label or sequence of labels, optional
only consider certain columns for identifying duplicates, by default use all of the columns

0개의 댓글