.get()
: 어떤 값을 가져오되, series안에 key가 없어서 value가 없을 경우 아무것도 반환하지 않음. 에러가 발생하지 않음!!
(즉, 없을 경우 예외처리를 함께해줌)
DataFrame의 각 Column은 "Series".
==> 즉, 각 컬럼별로 Series의 이점들을 활용할 수 있다
covid[covid['New cases'] > 100]
covid['New cases']>100
으로 결과를 확인했을 때는, True/Fasle가 같이 반환되는 결과값.
조건을 넣어서 반환한 값은 True인 값만 나열
헷갈리지 않도록 주의!
.unique()
: 범주형 자료에서 범주를 유니크하게 보여준다 == 범주의 종류를 확인할 수 있다
시리즈에 unique함수를 적용하면, 해당되는 컬럼의 데이터들을 중복없이 보여준다.
(이 메소드는 처음 알았는데, 이 편리한걸 왜 이제알았지..!)
.loc[row, col]
: 인덱스를 이용해서 가져오기
.iloc[rowidx, colidx]
: 숫자 인덱스를 이용해서 가져오기
.groupby()
table이 있을 때 3가지 과정을 거쳐서더 좋은 결과를 얻는 것을 목표로함
.groupby()
#split
coivd_by_region = covid['Confirmed'].groupby(by=covid['WHO Region'])
#apply & combine
covid_by_region.sum()
결과를 보고 특정 국가에서 높은 값이 나온것을 보고 표본수의 문제일 경우도 있다고 보고 covid_by_region.mean()
을 통해 검증
👉 이러한 과정을 통해서 새로운 insight를 뽑아낼 수 있음
결과값을 분석하는 것도 중요하니까 다양한 경우의 수를 생각해볼필요도 있을것같다. (역시 통계공부를 확실히해둘필요가..🙄)
본격적으로 데이터 다루기 들어가는것같아서 조금 신난다(~ ̄▽ ̄)~
예전에 pandas 배울때는 모든게 새로운거라 허겁지겁 배우느라 무작정 외우고 시험보는 느낌이여서 세세한것들이 조금 흐릿한것같기도 하다.
지금와서 생각해보면 .get()
이나 .unique()
도 배웠을텐데 교수님 죄송합니다.