분석 목적을 설정하고, 그에 맞는 분석 방법을 선택하여 모델을 생성한 후 모델을 다듬는 과정을 통해 많은 양의 데이터가 필요하다는 것을 느꼈습니다. 또한, 데이터 분석시 종속변수와 유의미하다고 보이지 않던 변수들이 예측 및 평가시 영향을 미치는 경우도 있었고 그 반대
로지스틱 회귀분석이란? 종속 변수가 이항적인 경우(두 개의 범주를 가지는 경우)에 사용되는 통계적 분석 방법으로 종속 변수와 독립 변수간의 관계를 모델링하고 독립 변수의 값에 따라 종속 변수가 속하는 범주를 예측하는 데 사용됩니다. 분류 문제에 널리 활용되며 예측 모
시계열 분석이란? 시간에 따라 측정된 데이터의 패턴, 동향 및 예측을 이해하기 위한 통계적인 분석 방법으로 시계열 데이터로부터 추세, 계절성, 주기성 등의 패턴을 식별하고, 데이터의 특성을 이해하며, 예측 모델을 구축할 수 있다. 시계열 분석에는 다양한 기법들이 사용
\- 사용 데이터: state.x77 - names(): 인구수, 수입, 문맹률, 기대수명, 범죄율, 고졸, 결빙일수, 면적 <span style="color: state.x77 데이터 일부 확인
: 통계기반 데이터 분석 : 2023.03.15 ~ 2023.03.20 (평일 기준 3일) : 미국 50개 주에 대한 통계데이터에 대한 다중회귀분석 \- 전세계 코로나 발생 현황 데이터에 대한 시계열 분석 - 대상 기간: 2020.03 ~ 2022.07 (일별 데이터
동일한 데이터를 단순하게 전처리 한 후 구축하여 목록화한 "분석용 데이터 구축"과는 달리 본 프로젝트에서는 탐색적으로 데이터를 분석하여 인사이트를 도출 했다. 데이터에 대한 이해도 없이 분석을 진행할 경우, 본론에서 살펴 봤던 것 처럼 값을 잘못 판단해 옳지 않은 해
\- filter(): 특정 컬럼의 특정 값 추출 - select(): 필요한 컬럼만 선택 : 일별 데이터를 추출 하고자 하는 날의 전 날 데이터를 정제 : 2)-(1)의 정제과정을 365번 반복하기 위함 \- head() 사용: 상위 5개만, 정렬 기준 국가명 기준
: 탐색적 데이터 분석 : 2023.03.06 ~ 2023.03.14 (평일 기준 7일) : COVID-19 from CSSE : 2021.08. ~ 2022.07 (1년, 365일)
서로 다른 2 가지 방법으로 정보를 얻었지만 같은 결과물을 도출할 수 있었다. 그리고 이 결과로 코로나에 확산이 되어도 사망자의 수가 양의 상관관계를 이룬다고 할 수 없다. 연간 총 확진자와 총 사망자를 나타내는 20 개 국을 보았을 때 총 확진자수는 미국, 유럽 등
: 계산 전 결측치를 확인하여 에러 방지 \- select(): 필요한 컬럼만 선택 - group_by(): 기술 통계 전 국가 기준으로 묶어줌 - summarise(): 사용하여 확진자 및 사망자 sum \- merge(): 두 개의 데이터 프레임을 병합 \- mu
: 분석용 데이터 구축 : 2023.03.06 ~ 2023.03.14 (평일 기준 7일) : COVID-19 from CSSE : 2021.08. ~ 2022.07 (1년, 365일)| | 내용 |\|:---:\|:---:\|| 1 | 국가별(지역별X) 코로나 발생