profile
강승구

[알고리즘] 퀵 정렬 (Quick Sort)

유클리드 호제법은 두 수의 최대공약수를 구하는 알고리즘이다.유클리드(Euclid)에 의해 기원전 300년경에 발견된 가장 오래된 알고리즘이다.최대공약수는 두 자연수의 공통된 약수 중 가장 큰 수를 의미한다.최소공배수는 두 자연수의 공통된 배수 중 가장 작은 수를 의미한

약 16시간 전
·
0개의 댓글
·

앙상블 (Ensemble) 기법

앙상블 기법이란 여러개의 분류 모델을 생성하고 그 예측값을 결합하여 더욱 정확한 결과를 도출해내는 기법을 말한다.이는 하나의 강력한 모델을 생성하는것이 아닌 보다 약한 모델 여러개를 조합하여 더 정확한 예측을 하는데 도움을 주는 방식이다.앙상블 기법은 일반적으로 보팅(

약 21시간 전
·
0개의 댓글
·

DBSCAN

K-Means나 Hierarchical 클러스터링의 경우 군집간의 거리를 이용하여 클러스터링을 하는 방법인데, DBSCAN은 점이 세밀하게 몰려 있어서 밀도가 높은 부분을 클러스터링 하는 방식이다. 쉽게 설명하면, 어느점을 기준으로 반경 x내에 점이 n개 이상 있으면

4일 전
·
0개의 댓글
·

K-means clustering

데이터에 label이 붙어 있다면 데이터와 label을 기반으로 예측이나 분류를 수행하는 모델을 만들 수 있고 이를 지도학습이라고 한다. 그러나 실제로는 label이 없는 경우가 더 많다. 비지도 학습은 label이 없는 데이터 안에서 패턴과 구조를 발견하는 머신러닝의

4일 전
·
0개의 댓글
·

차원 축소 (Dimensionality reduction)

차원의 저주란 차원이 증가하면서 학습데이터 수가 차원 수보다 적어져서 성능이 저하되는 현상을 말한다. 차원이 증가할수록 변수가 증가하고, 개별 차원 내에서 학습할 데이터 수가 적어진다.하지만 변수가 증가한다고 반드시 차원의 저주가 발생하는 것은 아니다. 관측치보다 변수

4일 전
·
0개의 댓글
·

Non-Linear Model

4일 전
·
0개의 댓글
·

Resampling Methods

Resampling Methods란 training data의 서로 다른 부분 집합을 사용하여 동일한 통계 모델을 여러번 fitting 하는 것을 의미한다.Resampling Methods는 모델 평가(model assessment), 모델 선택(model select

4일 전
·
0개의 댓글
·

Classification

4일 전
·
0개의 댓글
·

로지스틱 회귀 (Logistic Regression)

로지스틱 회귀(Logistic Regression)는 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘이다.스팸 메일 분류기 같은 예시를 생각하면 쉽

4일 전
·
0개의 댓글
·

다중 선형회귀 (Multiple Linear Regression)

다중 선형 회귀(Multiple Linear Regression, MLR)는 여러 개의 독립 변수와 하나의 종속 변수의 선형 관계를 모델링하는 것이다. 기본적인 원리는 단순 선형 회귀와 비슷하지만 차이점이라면 종속변수의 개수가 2개 이상이므로 회귀 방정식에 차이가 있다. 단순 선형회귀에서의 회귀 방정식은 $y=b{0} + b{1}x$ 로 표현할 수 있다...

4일 전
·
0개의 댓글
·

단순 선형회귀 (Simple Linear Regression)

머신러닝의 목적은 데이터의 알려진 속성들을 학습하여 예측 모델을 만드는데 있다. 이때 찾아 낼 수 있는 가장 직관적이고 간단한 모델은 선(line)이다. 선형회귀란 데이터를 가장 잘 대변하는 최적의 선을 찾은 과정이다. 이러한 선은 주어져 있지 않은 점의 함수값을 보간

5일 전
·
0개의 댓글
·

Over fitting, Under fitting

일반적으로 모델을 만들 때에는 데이터를, training set과 test set으로 나누어 사용한다. training set을 반복적으로 학습함으로써 실제 데이터와 가장 유사한 결과를 만들어 내는 것을 목표로 하고 있다. 트레이닝 데이터와 테스트 데이터가 비슷하다면

5일 전
·
0개의 댓글
·

회귀모델 성능 평가지표

실제 정답 값과 예측 값의 차이를 절댓값으로 변환한 뒤 합산하여 평균을 구한다.특이값이 많은 경우에 주로 사용된다.값이 낮을수록 좋다.img장점직관점임정답 및 예측 값과 같은 단위를 가짐단점실제 정답보다 낮게 예측했는지, 높게 했는지를 파악하기 힘듦스케일 의존적임(sc

5일 전
·
0개의 댓글
·

Training set, Validation set, Test set

Training set은 모델을 학습하는데 사용된다. Training set으로 모델을 만든 뒤 동일한 데이터로 성능을 평가해보기도 하지만, 이는 cheating이 되기 때문에 유효한 평가는 아니다. 마치 모의고사와 동일한 수능 문제지를 만들어 대입 점수를 매기는 것과

5일 전
·
0개의 댓글
·

Weight Initialization

신경망 모델 학습의 목적은 Loss(error)을 최소화하는 과정이다. 이를 위해서 loss function에 대해 gradient descent를 수행했다.만약에 어떤 데이터셋의 loss function 그래프가 아래와 같이 생겼다고 했을때 동일하게 gradient

5일 전
·
0개의 댓글
·

CNN

CNN은 Convolutional Neural Networks의 약자로 딥러닝에서 주로 이미지나 영상 데이터를 처리할 때 쓰이는 Neural Network 모델이다. CNN이 나오기 이전, 이미지 인식은 2차원으로 된 이미지(채널까지 포함해서 3차원)를 1차원배열로 바

5일 전
·
0개의 댓글
·

백준 4779 - 칸토어집합 (C++)

5일 전
·
0개의 댓글
·

백준 20301 - 반전요세푸스 (C++)

이 문제에서는 방향을 바꿔가며 사람을 삭제해야 하기 때문에 양 끝에서 push, pop이 모두 가능한 deque를 사용해 풀었다.순방향일 때는 앞에서 k-1명을 pop 하고 뒤에 push 하면 된다.그럼 deque의 front에는 우리가 제거해야 할 k번째 사람이 남고

5일 전
·
0개의 댓글
·

[자료구조] 힙 (Heap)

컴퓨터 내부에서 동일한 자원을 요구하는 여러 프로그램이 있는 경우에는 우선순위를 부여해서 관리한다. 대부분의 운영체제에는 작업들의 우선순위를 부여할 수 있는 기능이 있는데 예를 들면 CPU나 다른 자원을 무겁게 사용하면서 며칠동안 수행해야할 작업이 있다면 다른 작업들의

6일 전
·
0개의 댓글
·

백준 11279 - 최대힙 (C++)

STL

6일 전
·
0개의 댓글
·