EDA와 Feature Engineering에 관한 정리EDA1.1 EDA는 무엇의 줄임말인가?EDA는 Exploratory Data Analysis의 줄임말로 탐색적 데이터 분석이라고 한다.1.2 EDA는 왜 하는가?Data를 이해하고 관리 및 활용하기 쉽게 파악하게
ㅁData는 무슨 뜻인지 알고 있을거고, Manipulation은 조종하다는 뜻으로 이해하면 좋다. 데이터를 분석하기 좋도록 조종, 즉 조작, 수정 등으로 이해하면 좋을 듯하다.내가 원하는 데이터들이 우리가 보는 엑셀 파일 등에 하나로 다 들어가 있을 수가 없다. 왜냐
가설검정이라고 한다. 데이터를 분석을 하고 '\~~할 것이다.'라고 할 때 이러한 주장이 타당한지 아닌지를 확인하는 과정우리가 알고 싶은 것은 '모집단'의 특성이다. 하지만 모집단의 특성을 정확하게 알기란 불가능이다. 이 때 필요한 게 일부분을 추출해서 그 일부분(=s
t-test, chi-square test를 통해 우리는 1개 그룹, 2개 그룹의 값을 살펴 보았다.그러면 3개 이상의 그룹을 확인할 수는 없을까?2개 이상의 그룹을 확인하기위해 그룹1 vs 그룹2, 그룹2 vs 그룹3, 그룹1 vs 그룹3을 각각 하면 되지 않을까?
https://youtu.be/ArgTeYVuJUo벡터는 숫자 자료를 '배열'한 것. 그럼 배열은? 리스트의 자료 구조(Data Structure)의 형태알고리즘에서는 데이터를 분석하기 위해 데이터가 정렬된 벡터 형태를 필요로 한다.예) 집 값 분석 크기, 가
https://youtu.be/g-Hb26agBFg선형 변환은 임의의 두 벡터를 더하거나 스칼라 곱을 하는 것을 말한다. 두 벡터 공간 사이의 함수, 한 점을 한 벡터 공간에서 다른 벡터 공간으로 이동시키는데 그 이동규칙을 선형 변환이라고 한다.f를 활용해서
표 형태의 데이터를 의미한다.각각의 Row(행)에는 Observation(관측치), Column(열)에는 Variable(변수)가 있으며, 데이터끼리의 관계를 알 수 있다.각각의 열 내부에서는 데이터 타입이 모두 int, float, str 등 동일해야 한다.우리가 미
1. Multiple Regression(다중 회귀) 1.1 R-squared(결정계수) 구하는 방법: 의미: 실제치(y)&평균(y bar)와 추정치(y hat)&평균(y bar)를 비교하는 것. 회귀선이 얼마나 잘 추정하는지를 보여준다. 0과 1사이의 값으로 나타나는데, 1에 가까울수록 성능이 좋다고 볼 수 있다. 1.2 Train/Test data 나...
1. Ridge Regression 1.1 One-hot encoding 범주형 데이터를 분석할 수 있도록 인코딩해준다.(이진화) 컴퓨터가 이해할 수 있도록, 'Busan', 'Seoul', 'Daegu' 등을 0과 1로 표현함. pandas getdummies/cat
1. Logistic Regression 1.1 Training/Validation/Testing Data 훈련, 검증, 테스트 데이터로 나눠야하는 이유: Training(훈련): 훈련 데이터를 기준으로 모델을 학습(Fit)시킨다. Construct classifie
그림참조! root에서 시작해서 T/F를 통해 데이터를 구별한다.회귀/분류 모두에서 가능하다!선형회귀: 연속형 데이터 // 트리: 연속형, 범주형 둘 다 가능특성이 많으면 선형회귀, 트리 둘 다 '과적합'과 '연산량 증가'의 문제가 생긴다.비선형, 비단조(Non-Mon
다수의 기본 모델(weak-based learner)을 결정트리로 사용하는 앙상블모델트리를 랜덤하게 여러개 만들어 종합해서 다수결이나 평균과 같은 방법으로 타겟을 예측 결과를 반환bootstraping(=복원 추출)을 통해 여러 개의 결정트리를 사용하여 만든 앙상블 모
TP, TN, FP, FN으로 이루어진 매트릭스분류모델의 성능 평가지표실제 양성인데 검사 결과도 양성잘 맞춰서, Positive(1)를 잡아냈다.올바르게 1을 1이라고 예측. 찐양성, 찐양성실제 음성인데 검사 결과도 음성잘 맞춰서 Negative(0)를 잡아냈다.실제
1. Model Selection 1.1 Cross Validation 1.1.1 왜 하는가? 데이터의 크기가 작은 경우, Cross Validaion이어느 정도 해결해줄 수 있다. 서로 다른 Machine Learning 모델을 비교해주고, 얼마나 성능을 낼 수 있
링크텍스트
링크텍스트
실무에서 데이터과학자와 분석가들은 다음과 같은 프로세스를 거치며 프로젝트를 진행.비즈니스 문제실무자들과 대화를 통해 문제를 발견데이터 문제문제와 관련된 데이터를 발견데이터 문제 해결데이터 처리, 시각화머신러닝/통계비즈니스 문제 해결데이터 문제 해결을 통해 실무자들과 함
링크텍스트
링크텍스트
링크텍스트
521522523524