# R

502개의 포스트
post-thumbnail

DATA SCIENCE (4)

재표본추출 방법 (Resampling Methods) : 훈련셋에서 반복적으로 표본을추출하고 각 표본에 관심있는 모델을 다시 적합하여 적합된 모델에 대해 추가적인 정보를 얻는것 resampling의 필요성 -Model assessment : 테스트 에러율 평가 -Mo

약 1시간 전
·
0개의 댓글
·
post-thumbnail

DATA SCIENCE (3)

: 주어진 데이터를 미리 정의된 클래스 레이블로 분류하는 문제를 다루는 기계 학습 방법Q1) 응급실에 오는 환자는 3가지 의료상태 중 어느 하나에 의한 증상을 가지고 있다. 이 환자는 어느 상태인가?Q2) 온라인 뱅킹 서비스는 사용자의 IP주소, 과거 거래이력 등을 바

약 7시간 전
·
0개의 댓글
·
post-thumbnail

DATA SCIENCE (2)

: 양적 반응변수를 예측하는 유용한 도구. Q1) 광고예산과 판매 사이에 상관관계는?Q2) 광고예산과 판매 사이에 얼마나 강한 상관관계가 있는가?Q3) 어느 매체가 판매에 기여하는가?Q4) 판매에 대한 각 매체의 효과를 얼마나 정확하게 추정할 수 있는가?....: 하나

약 12시간 전
·
0개의 댓글
·
post-thumbnail

DATA SCIENCE (1)

1. 통계 학습 : 데이터를 이해하기 위한 도구 > 지도 통계 학습(Supervised statistical learning) 데이터 (x,y)가 주어졌을 때, 통계 모델을 통해 f(x)를 찾아내는 활동 모델 f를 이용하여 새로운 값 x에 대해서 y값 예측 비지도

약 13시간 전
·
0개의 댓글
·
post-thumbnail

101일 차 - R, 외부데이터 불러오기, 데이터 변경 (23.05.26)

엑셀 파일을 읽기 위한 라이브러리 설치 ① View()로 테이블 읽기② str()③ data.frame 인지 확인④ 내용이 다 잘 있는지 확인rename( ) 사용data끼리 더하기

2일 전
·
0개의 댓글
·
post-thumbnail

100일 차 - R, 데이터프레임 (23.05.25)

테이블 형태의 데이터 객체컬럼은 벡터, 펙터(factor)등 서로 다른 속성을 가질 수 있음변수(열)는 길이는 모두 동일라이브러리(패키지) 다운로드결과

3일 전
·
0개의 댓글
·
post-thumbnail

99일 차 - R개념, 데이터프레임, 벡터, 리스트 (23.05.24)

📝 R 데이터 분석, 통계에 활용 오픈소스(GNU), 데이터의 처리, 통계 계산 및 분석, 그래픽스를 위한 프로그래밍 언어 📝 데이터프레임(data frame) 테이블 형태의 데이터 객체 컬럼은 벡터, 펙터(factor)등 서로 다른 속성을 가질 수 있음 변수

4일 전
·
0개의 댓글
·
post-thumbnail

Rcpp, Eigen 활용해서 R 패키지 만들기

usethis를 활용한 R 패키지 개발기

5일 전
·
0개의 댓글
·
post-thumbnail

R(2023-05-23)

R 다운로드https://posit.co/download/rstudio-desktop/CMD창에 입력 : winget install --id RProject.Rx = 5 를 R 문법으로 표현하면 x <- 5ls() : 선언한 변수를 확인해주는 함수 | 어

5일 전
·
0개의 댓글
·

[빅데이터 분석] R

빅데이터 분석 언어인 R 설치, 기본 문법, 분석 형태 등을 학습

2023년 5월 16일
·
0개의 댓글
·

[결론] 결론 도출

 분석 목적을 설정하고, 그에 맞는 분석 방법을 선택하여 모델을 생성한 후 모델을 다듬는 과정을 통해 많은 양의 데이터가 필요하다는 것을 느꼈습니다. 또한, 데이터 분석시 종속변수와 유의미하다고 보이지 않던 변수들이 예측 및 평가시 영향을 미치는 경우도 있었고 그 반대

2023년 5월 10일
·
0개의 댓글
·
post-thumbnail

[본론_3] 로지스틱 회귀분석

 로지스틱 회귀분석이란? 종속 변수가 이항적인 경우(두 개의 범주를 가지는 경우)에 사용되는 통계적 분석 방법으로 종속 변수와 독립 변수간의 관계를 모델링하고 독립 변수의 값에 따라 종속 변수가 속하는 범주를 예측하는 데 사용됩니다. 분류 문제에 널리 활용되며 예측 모

2023년 5월 10일
·
0개의 댓글
·
post-thumbnail

[본론_2] 시계열 분석

 시계열 분석이란? 시간에 따라 측정된 데이터의 패턴, 동향 및 예측을 이해하기 위한 통계적인 분석 방법으로 시계열 데이터로부터 추세, 계절성, 주기성 등의 패턴을 식별하고, 데이터의 특성을 이해하며, 예측 모델을 구축할 수 있다. 시계열 분석에는 다양한 기법들이 사용

2023년 5월 10일
·
0개의 댓글
·
post-thumbnail

[본론_1] 다중회귀 분석

 \- 사용 데이터: state.x77 - names(): 인구수, 수입, 문맹률, 기대수명, 범죄율, 고졸, 결빙일수, 면적                     <span style="color: state.x77 데이터 일부 확인

2023년 5월 10일
·
0개의 댓글
·

[서론] 소개

 : 통계기반 데이터 분석 : 2023.03.15 ~ 2023.03.20 (평일 기준 3일) : 미국 50개 주에 대한 통계데이터에 대한 다중회귀분석 \- 전세계 코로나 발생 현황 데이터에 대한 시계열 분석 - 대상 기간: 2020.03 ~ 2022.07 (일별 데이터

2023년 5월 10일
·
0개의 댓글
·

[결론] 결론 도출

 동일한 데이터를 단순하게 전처리 한 후 구축하여 목록화한 "분석용 데이터 구축"과는 달리 본 프로젝트에서는 탐색적으로 데이터를 분석하여 인사이트를 도출 했다. 데이터에 대한 이해도 없이 분석을 진행할 경우, 본론에서 살펴 봤던 것 처럼 값을 잘못 판단해 옳지 않은 해

2023년 5월 9일
·
0개의 댓글
·
post-thumbnail

[본론] 탐색적 데이터 분석

 \- filter(): 특정 컬럼의 특정 값 추출 - select(): 필요한 컬럼만 선택 : 일별 데이터를 추출 하고자 하는 날의 전 날 데이터를 정제 : 2)-(1)의 정제과정을 365번 반복하기 위함 \- head() 사용: 상위 5개만, 정렬 기준 국가명 기준

2023년 5월 9일
·
0개의 댓글
·

[서론] 소개

 : 탐색적 데이터 분석 : 2023.03.06 ~ 2023.03.14 (평일 기준 7일) : COVID-19 from CSSE : 2021.08. ~ 2022.07 (1년, 365일)

2023년 5월 9일
·
0개의 댓글
·

[결론] 결론 도출

 서로 다른 2 가지 방법으로 정보를 얻었지만 같은 결과물을 도출할 수 있었다. 그리고 이 결과로 코로나에 확산이 되어도 사망자의 수가 양의 상관관계를 이룬다고 할 수 없다. 연간 총 확진자와 총 사망자를 나타내는 20 개 국을 보았을 때 총 확진자수는 미국, 유럽 등

2023년 5월 9일
·
0개의 댓글
·
post-thumbnail

[본론] 분석용 데이터 구축

 : 계산 전 결측치를 확인하여 에러 방지 \- select(): 필요한 컬럼만 선택 - group_by(): 기술 통계 전 국가 기준으로 묶어줌 - summarise(): 사용하여 확진자 및 사망자 sum \- merge(): 두 개의 데이터 프레임을 병합 \- mu

2023년 5월 9일
·
0개의 댓글
·