Python Statistics 기초 02_05

하나·2024년 5월 16일
0

KDT 빅데이터

목록 보기
6/7

이론이나 spss로만 접해왔던 통계를 코드로 접했던 첫 날

Data EDA: 데이터를 여러 방법으로 탐색하는 과정.

  • EDA라는 것에 대해 처음 접하고 코드를 짜봤다. 코드를 작성하는것에 따라 다양하게 데이터가 분석되어 나오는 것이 신기했다.

여러 새로운 코드에 대해 학습했다.

# 데이터 프레임의 형태, 행/열을 보는 것
.shape
# 'year' 열의 값을 "/"를 기준으로 분할하여 첫 번째 부분을 새로운 열 'year_'에 저장
academic['year_'] = academic['year'].str.split("/", expand=True)[0]
# []안의 숫자는 리스트의 순서 의미. 
# split후 리스트화된 데이터를 가져오고자할 때 원하는 리스트의 번호 가져올 수 있게 하는 것.
academic['isoweek'] = academic['year'].str.split("/", expand=True)[1]
# 중복 포함 숫자 셈 -> count()
# 중복 불포함 숫자 셈 -> nunique()
# 어디에 조인할 것인지 결정 -> how
# 무슨 컬럼 기준으로 조인할 것인지 결정 -> on
# 'insurance_df' 데이터프레임의 모든 열에 대한 요약 통계를 계산
insurance_df.describe(include='all')
# corr() -> 범주형 데이터
# merge -> 데이터 가로로 합침
# concat -> 데이터 세로로 합침

데이터 분석 시 사용되는 여러 코드에 대해 많이 학습한 날이었다. 나중에 편하게 사용할 수 있도록 코드의 의미와 사용방법에 대해 익혀두어야 할 필요성을 느꼈다.


현재에서의 회고) 데이터 분석의 처음 단계에서 많이 사용하는 코드들을 다양하게 배웠던 것 같다. 아직도 자연스럽게 사용하지 못하는 코드들이 있지만 더 반복해서 내것으로 만들도록 노력해야될 것 같다.
profile
Start with hello world:)

0개의 댓글

관련 채용 정보