Chapter 03 - 데이터 정제하기
데이터 분석에서 데이터 정제는 필수입니다. 종종 많은 시간이 소요되어 간과하기 쉬운데요. 데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 합니다. 이번 장에서는 원활한 데이터 분석을 위해 수집된 데이터에 있는 문제점을 찾아 수정해 보겠습니다.
- 데이터프레임에서 불필요한 행과 열을 삭제하거나 데이터값을 바꾸는 방법을 배웁니다.
- 정규 표현식을 사용해 잘못된 값을 고치거나 누락된 값이 있는 경우 웹 스크랩핑하여 얻은 값으로 채웁니다.
p. 182의 확인 문제 2번 풀고 인증하기
Q. 아래 데이터프레임에서 'col1' 열의 합을 계산하는 명령으로 올바르지 않은 것은 무엇인가요?
col1 | col2 | col3 | |
---|---|---|---|
0 | 1 | a | NaN |
1 | 2 | NaN | NaN |
2 | 3 | c | 100.0 |
A. 4
[ 풀이: 실행 결과를 작성해보자 ]
1의 실행 결과는 다음과 같다.
6
2, 3의 실행 결과는 다음과 같다.
col1 6
dtype: int64
4의 실행 결과는 다음과 같다.
col3 100.0
dtype: float64
p. 219의 확인 문제 5번 풀고 인증하기
Q. 다음과 같은 데이터프레임에서 df.replace(r'ba.*', 'new', regex=True)의 결과는 무엇인가요?
A | B | |
---|---|---|
0 | bat | abc |
1 | foo | bar |
2 | bait | xyz |
A | B | |
---|---|---|
0 | new | abc |
1 | foo | new |
2 | new | xyz |
A | B | |
---|---|---|
0 | bat | abc |
1 | foo | bar |
2 | new | xyz |
A | B | |
---|---|---|
0 | new | abc |
1 | foo | new |
2 | newt | xyz |
A | B | |
---|---|---|
0 | bat | abc |
1 | foo | bar |
2 | new | xyz |
A. 1
[ 풀이: 생략 ]