profile
행정학도 경찰의 DataScientist 되기
post-thumbnail

따릉이 데이터 분석하기 (7) AutoML

이번 게시글을 끝으로 데이콘의 따릉이 데이터 분석 관련 포스팅을 마치고자 한다. 마지막 내용은 AutoML을 다룰 것인데, AutoML이란 이전에 살펴본 여러 종류의 모델들을 선택하고, hyperparameter들을 최적화하는 일련의 모든 과정들을 자동화하는 방법을 총

2022년 6월 15일
·
0개의 댓글
·
post-thumbnail

따릉이 데이터 분석하기 (6) SVM

이번 글에서는 대표적인 머신러닝 모델인 SVM(Support Vector Machine)을 이용해 따릉이 이용 데이터의 분석을 진행해보도록 하자. 본래 SVM은 classification의 목적을 위해 고안된 기법으로, 데이터들의 레이블을 분류하는 기준이 되는 초평면을

2022년 6월 10일
·
0개의 댓글
·

An overview of Statistical Learning

이번 게시글은 Statistical Learning, 즉 통계적 학습이론의 근간이 되는 추정 이론 중 Empirical risk 사용의 근거와 관련 이론에 대해 살펴보도록 하자. 내용은 대표적인 머신러닝 알고리즘인 Support Vector Machine의 공동 창시자

2022년 5월 29일
·
0개의 댓글
·
post-thumbnail

Support Vector Regression

이전 게시글에서 SVM의 작동 원리와 SVR, 즉 support vector regression이 SVM의 원리를 차용하여 생성되는 모델이라는 점에 대해 살펴보았다. 이번에는 paper "A Tutorial on Support Vector Regression(2003)

2022년 5월 24일
·
0개의 댓글
·

모델 성능 개선만이 전부일까

요새는 데이터사이언스에 대한 기틀을 잡고자 꾸준히 머신러닝 관련 공부를 하며, 이론 공부와 더불어 (가공되었지만 그래도 실생활에서 비롯된)몇몇 데이터셋을 대상으로 실제 데이터분석을 간간히 진행하고 있다. 하지만 분석도 해보고, 이와 관련되어 포스팅도 진행하며(ex. 따

2022년 5월 20일
·
0개의 댓글
·
post-thumbnail

Support Vector Machine

이전에 Linear Classification에서 Fischer's LDA에 대해 다룬 적 있었다. 이는 특성공간에서 데이터들을 분류하기 위한 선형 경계를 만드는 것인데, support vector classifier/machine은 이와 유사하나 비선형인 결정경계를

2022년 5월 10일
·
0개의 댓글
·
post-thumbnail

따릉이 데이터 분석하기 (5) Tree

이번에는 Tree 관련 모델들로 주어진 데이터셋을 훈련시켜보고 이를 검증해보도록 하자. 저번 Transformation 데이터 분석 과정과 마찬가지로 scikit-learn의 Pipeline을 이용해 데이터 전처리부터 모델링까지의 파이프라인을 구성해보도록 하겠다. Da

2022년 4월 22일
·
0개의 댓글
·
post-thumbnail

Random Forest

Random Forest는 Bagging배깅 방식을 이용한 Tree algorithm의 일종이다. 즉, 서로 상관관계가 없는(de-correlated, randomized) tree들을 매우 많이 생성하여, 이들의 평균값을 바탕으로 분류 혹은 회귀를 진행하는 알고리즘이

2022년 4월 18일
·
0개의 댓글
·
post-thumbnail

Gradient Boosting Machine

이번 글에서는 Boosting 알고리즘과 관련하여, 특히 함수추정과 예측 문제에서 뛰어난 성능을 보이는 Gradient Boosting Machine에 대해 살펴보고자 한다. 여기서는 GBM을 제안한 Jerome H. Friedman의 Greedy Function Ap

2022년 4월 18일
·
0개의 댓글
·

Boosting Tree

이전에 Regression Tree와 Classification Tree(CART) 모형에 대해 살펴보았는데, Tree에 대해서도 boosting algorithm을 적용할 수 있다. Tree 모델은 기본적으로 partition된 region $Rm$들에 대한 예측값

2022년 4월 17일
·
0개의 댓글
·
post-thumbnail

Boosting

Boosting부스팅 은 21세기부터 statistical learning의 주요한 모델로 사용되고 있는 방법이다. 초기에는 분류 모델에 주로 이용되었으나, 회귀 문제에까지 확장되어 사용된다. Boosting 방법들의 핵심 아이디어는 기본적인 Ensemble 기법, 즉

2022년 4월 17일
·
0개의 댓글
·
post-thumbnail

Tree

Tree를 이용한 알고리즘은 기본적으로 Feature space특성공간을 직사각형들의 집합으로 분할partition하고, 각 집합들에 대해 매우 간단한 모델(e.g. constant)을 적용하는 원리이다. Tree를 기반으로 한 알고리즘에는 CART, ID3, C4.5

2022년 4월 14일
·
0개의 댓글
·
post-thumbnail

따릉이 데이터 분석하기 (4) Transformation

이번에는 PCA를 비롯해 예측변수의 데이터셋을 변환시키는transformation 여러 가지 방법들에 대해 다루어보도록 하겠다. 대표적으로 PCA는 기본적인 회귀문제에 응용되어 PCR로 사용되거나, 고차원 문제의 차원 축소 기법으로 필수적인 역할을 한다. 여기서는 우선

2022년 4월 12일
·
0개의 댓글
·
post-thumbnail

따릉이 데이터 분석하기 (3) Shrinkage Methods

이번 글에서는 Linear regression을 계속 다룰 것인데, 그중에서도 regularization method나 spline regression과 같은 변형된 방법들을 다루어보고자 한다(역시 Regression 문제가 Linear Model로 다루기 최적인듯 하

2022년 4월 11일
·
0개의 댓글
·
post-thumbnail

따릉이 데이터 분석하기 (2) Linear Regression

먼저, 앞서 살펴본 따릉이 데이터셋을 이용해 가장 간단한 Linear Regression Model을 구현해보도록 하자. Python에는 statsmodels라는 패키지가 있는데, 이는 R에서 사용하는 형태로 통계분석을 가능하게 해주는 패키지이다(공식 문서 참고). 이

2022년 4월 11일
·
0개의 댓글
·
post-thumbnail

Partial Regression

Linear Regression model에서 예측변수가 여러개일 때, 즉 multiple linear regression인 경우 각각의 변수 고유의 영향력을 파악하는 방법으로 partial regression이 있다(Partial Least Square algorit

2022년 4월 9일
·
0개의 댓글
·

Bootstrap

Bootstrap 방법은 정확도(accuracy)를 측정하기 위해 사용되는 일반적인 방법이다. Cross-validation과 마찬가지로 bootstrap은 (conditional) test error $\\text{Err}\_\\mathcal T$ 를 추정하기 위해

2022년 4월 3일
·
0개의 댓글
·
post-thumbnail

Cross Validation

Cross-validation교차검증은 prediction error을 추정하는 과정에서 가장 널리 사용되는 방법 중 하나이다. 딥러닝을 포함한 대부분의 머신러닝 영역에서 기본적으로 교차검증을 사용하며, 또한 대부분의 패키지 역시 이와 관련된 메서드를 포함한다. 이번

2022년 4월 3일
·
0개의 댓글
·

Model Assessment

우리가 어떤 머신러닝 모델을 만들었을 때, 모델의 성능은 어떻게 측정할 수 있을까🤔? 간단히 생각해보면, 서로 다른 데이터셋들에 대해 모델의 정확도를 측정하고, 이들을 종합해서 지표화하면 될 것이다(이때 데이터셋들은 확률적으로 독립이어야 할 것이다). 모델의 성능을

2022년 3월 31일
·
0개의 댓글
·

Entropy and Cross-entropy

엔트로피는 확률론에 기반한 정보이론에서 매우 중요하게 쓰이는 개념이다. 확률변수random variable $\\xi$ 가(random element 참고) density $f\\geq 0$ 을 가진다고 하자 (✅ density function은 Radon-Nikody

2022년 3월 27일
·
0개의 댓글
·