# RMSE
ML 02.다중선형회귀
키워드 훈련 데이터 & 테스트 데이터 다중선형회귀 과적합/과소적합 - 일반화 편향/분산 선형회귀모델의 목적 > 모델 학습에 사용한 훈련(train) 데이터를 잘 맞추는 모델이 아니라, 학습에 사용하지 않은 테스트(test) 데이터를 얼마나 잘 맞추는지 입니다. > 따라서, 데이터를 훈련/테스트 데이터로 나누어야 우리가 만든 모델의 예측 성능을 제대로 평가할 수 있습니다. training set : 모델을 학습시키기 위한 데이터셋 test set : 모델을 테스트하기 위한 데이터셋 다중선형회귀(Multiple Linear Regression) 2개 이상의 특성을 사용하는 선형회귀 모델 $y = \beta0 + \beta1x1 + \beta2x_2$ , 2개의 특성을 사용하는 다중선형회귀 계수들(coefficients or parameters) $β0~β2$ $β_1$과

RMSE 측정하는 데이터 분석 베이스라인( KFold, GradientBoostingRegressor, NGBRegressor, XGBRegressor, LGBMRegressor ,CatBoostRegressor)
데이터 분석 대회 준비 이번 시간에는 데이터 분석 대회를 준비하면서, 베이스라인 코드로 활용할 수 있는 코드를 살펴보도록 하겠습니다. 해당 코드는 RMSE를 평가 척도로 사용할 수 있는 베이스라인 코드입니다. Data Prepare 파일을 불러오고, 준비하는 라이브러리 파일 로드 속성 값 확인하기 컬럼 내 결측 확인 컬럼 삭제 컬럼 내 데이터 분포 파악 데이터 전처리 1 데이터 전처리 2 장르별 영화 관객수 평균값으로 랭크 인코딩 배급사별 영화 관객수 중위값 기준으로 배급사 랭크 인코딩 최종 데이터 병합 모델링 라이브러리 import 모델링 데이터 구성 10Fold로 교차검증 5가지 모델 사용 1) GradientBoostingRegressor 2) NGBRegressor **3) LGB

파이썬 머신러닝 완벽 가이드 - 6. Regression(1) (경사하강법, 평가지표, 선형회귀)
Regression 회귀 : 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관관계를 모델링 하는 기법 : 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀계수(Regression coefficients)를 찾아내는 것 회귀계수: 독립변수 값에 영향을 미치는 Wn | 독립변수 갯수 | 회귀 계수의 결합 | | --- | --- | | 1개 : 단일 회귀 | 선형 : 선형 회귀 | | 1개(n) ⁍ : 다항 회귀 | 선형 : 선형 회귀 | | 여러개 : 다중 회귀 | 비선형 : 비선형 회귀 | 선형 회귀 : 실제 값과 예측 값의 차이(오류의 제곱 값)를 최소화하는 직선형 회귀선을 최적화하는 방식 일반 선형 회귀 : 실제-예측값의 RSS(Residual잔여의 Sum of Squares)를 최소화할 수 있도록 회귀 계수를 최적화하며, 규제를 적용하지 않은 모델 릿지 : 선형 회귀 + L2 규제 ⇒ L2 : 상대적으로 큰 회귀 계수 값의 예측 영

넷플릭스 프라이즈 요점 정리
Netflix Prize? → 2006년 10월부터 2009년 7월까지 약 3년에 걸쳐 이어진 기계학습을 통한 영화 평가 데이터 예측 대회 → ‘collaborative filtering’, SVD를 활용한 SVD++는 이후 굉장히 많은 분야에서 활용 Cinematch 알고리즘보다 10% 이상 성능 향상이 대회의 주된 목표 영화 추천시스템 성능 평가 방법 : RMSE RMSE 실제값과 예측값의 차이를 제곱해 평균을 구한 후, 루트를 씌운 것  평균 제곱근 편차 $RMSE = \sqrt{\frac{1}{n}\sum{i=1}^n(yi - \hat{y_i})^2}$ 실제 값과 모델의 예측 값의 차이를 하나의 숫자로 나타냄 예측 대상 값에 영향을 받는다 (Scale-dependant) 같은 0.01의 에러값도 어떤 ypred와 yactual을 사용했느냐에 따라 다른 의미 가짐 ex) A 플랫폼: 1~10의 평점 / B 플랫폼: 1~100의 평점 ➡️ 두 플랫폼의 평점 스케일이 다르므로 같은 RMSE 값을 가진다해서 A,B 플랫폼이 동일하고 같은 추천 알고리즘을 사용
[AI 01] AI 기본 이론
Machine Learning의 원리와 기본 이론 01 Introduction to Machine Learning Machine learning의 Research 영역 ; 연구 조직 Machine learning의 Engineering 영역 ; 개발 조직 수학적인 알고리즘으로 기계에게 학습을 시키는 것이 Machine Learning. 수학이 아니라 사람의 뇌 구조처럼 구성해서 학습하는 것이 Deep Learning. > 머신 러닝(Machine Learning) : 인간이 개발한 알고리즘을 컴퓨터 언어를 통해 기계에게 학습시키는 행위. 많은 데이터로 문제를 알려주고 컴퓨터가 문제 해결 방법을 찾아내게 함. 02 머신 러닝의 종류 Supervised Learning(지도 학습) ; 문제(Feature)와 정답(Label)을 제공한다. Classification(분류) ; 고양이 사진을 Cat이라고 알려주면서 넣어주고, 개 사진

AIB: N231 Choose Your ML Problems
1. Choose Your ML Problems 실무에서 데이터과학자와 분석가들은 다음과 같은 프로세스를 거치며 프로젝트를 진행. 비즈니스 문제 실무자들과 대화를 통해 문제를 발견 데이터 문제 문제와 관련된 데이터를 발견 데이터 문제 해결 데이터 처리, 시각화 머신러닝/통계 비즈니스 문제 해결 데이터 문제 해결을 통해 실무자들과 함께 해결 1.1 우선 예측해야 하는 타겟을 명확히 정하고 그 분포를 살펴보기 1.1.1 지도학습(Supervised learning)에서는 예측할 타겟을 먼저 정합니다. 테이블 형태의 데이터세트인 경우 어떤 특성을 예측타겟으로 할지 먼저 정해야 합니다. 어떤 문제는 회귀/분류문제가 쉽게 구분이 안되는 경우도 있습니다. 이산형, 순서형, 범주형 타겟 특성도 회귀문제 또는 다중클래스분류 문제로도 볼 수 있습니다. 회귀, 다중클래스분류 문제들도 이진분류 문제로

[AI Bootcamp] N212 - Multiple Linear Regression
Session Review Train data - Test data 훈련데이터와 테스트데이터로 나누는 이유? 당연히 훈련한 데이터로 테스트까지 진행하면 모든 데이터를 설명 가능 but, 이것이 모델이 좋아서 잘 예측한 것인지 아니면 이미 이 데이터를 학습했기 때문에 잘하는 것인지 확인하기 어려움 ❗️시계열 데이터 시간이 모델에 중요한 요인으로 작용한다면 시간 순서에 따라, 오래된 데이터를 훈련데이터로, 비교적 최근의 데이터를 테스트데이터로 채택 -> 시간이 뒤죽박죽인 경우 제대로된 결과 나올 수 없음 BUT, 데이터에 시계열 데이터가 들어있다고 해서 무조건 시계열 중심으로 train, test를 나눠서는 안됨 -> 우리가 찾고자 하는 것이 어떤 특성을 중심으로 하는 것인지 (e.g. 미래의 집값을 예측하는 것인지 아니면 단순히 집값만 예측하면 되는 것인지)를 파악한 후 어떻게 데이터를 나눌지 결정 **Train data - Test da