[학습 모음] 3주차(1/16 ~ 1/24)

Kim Seohyun·2023년 1월 24일
0
post-thumbnail

진도

Chapter 03 - 데이터 정제하기
데이터 분석에서 데이터 정제는 필수입니다. 종종 많은 시간이 소요되어 간과하기 쉬운데요. 데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 합니다. 이번 장에서는 원활한 데이터 분석을 위해 수집된 데이터에 있는 문제점을 찾아 수정해 보겠습니다.

  • 데이터프레임에서 불필요한 행과 열을 삭제하거나 데이터값을 바꾸는 방법을 배웁니다.
  • 정규 표현식을 사용해 잘못된 값을 고치거나 누락된 값이 있는 경우 웹 스크랩핑하여 얻은 값으로 채웁니다.

학습 결과물

  1. 불필요한 데이터 삭제하기
  2. 잘못된 데이터 수정하기

기본 미션

p. 182의 확인 문제 2번 풀고 인증하기

Q. 아래 데이터프레임에서 'col1' 열의 합을 계산하는 명령으로 올바르지 않은 것은 무엇인가요?

col1col2col3
01aNaN
12NaNNaN
23c100.0
  1. df['col1'].sum()
  2. df.[['col1']].sum()
  3. df.loc[:, df.columns == 'col1'].sum()
  4. df.loc[:, [False,False,True]].sum()

A. 4
[ 풀이: 실행 결과를 작성해보자 ]
1의 실행 결과는 다음과 같다.
6
2, 3의 실행 결과는 다음과 같다.
col1 6
dtype: int64
4의 실행 결과는 다음과 같다.
col3 100.0
dtype: float64

선택 미션

p. 219의 확인 문제 5번 풀고 인증하기

Q. 다음과 같은 데이터프레임에서 df.replace(r'ba.*', 'new', regex=True)의 결과는 무엇인가요?

AB
0batabc
1foobar
2baitxyz
  1. AB
    0newabc
    1foonew
    2newxyz
  1. AB
    0batabc
    1foobar
    2newxyz
  1. AB
    0newabc
    1foonew
    2newtxyz
  1. AB
    0batabc
    1foobar
    2newxyz

A. 1
[ 풀이: 생략 ]

profile
EWHA Cyber Security 19

0개의 댓글