머신 러닝 : 명시적으로 프로그래밍하지 않고도 컴퓨터에 학습할 수 있는 능력을 부여하는 것명시적인 프로그램에 의해서가 아니라, 주어진 데이터를 통해 규칙을 찾는 것머신 러닝(딥러닝)의 주요 역사아더 사뮤엘(Arthur Samuel)처음으로 machine learning
Iris Classification : 아이리스 꽃의 품종을 맞추는 문제, 머신 러닝의 기초 예제로 많이 활용된다.IRIS : 프랑스의 국화, 꽃말 (좋은 소식, 잘 전해 주세요, 사랑의 메시지)Versicolor, Virqinica, Setosa 3가지 품종 구분(꽃
Decision Tree : 분류 및 회귀에 사용되는 비모수 지도 학습 방법목표는 데이터 특성에서 추론된 간단한 결정 규칙을 학습하여 대상 변수의 값을 예측하는 모델을 만드는 것입니다. 트리는 조각별 상수 근사값으로 볼 수 있습니다.데이터 전처리를 하든 하지않든 큰 영
과적합(Overfitting) : 기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것을 뜻한다. 일반적으로 학습 데이타는 실제 데이타의 부분 집합이므로 학습데이타에 대해서는 오차가 감소하지만 실제 데이터에 대해서는 오
생존자 예측1910년대 당시 최대 여객선 타이타닉 : 영국에서 미국 뉴욕으로 가던 국제선컬럼의 의미남성이 여성의 2배 정도이다.여성은 350명 정도의 생존자가 있었고 남성은 150명 정도의 생존자가 있었다.여성의 생존 인원의 2배의 남성이 사망하였다.남성의 생존 가능성
Label Encoder : 카테고리 피처를 코드형 숫자 값으로 변환sklearn에서는 숫자만 사용가능하므로 카테고리들을 숫자로 변환해야한다.또는 숫자를 문자로 역변환 시킬 수 있다.min-max Scaler : $x\`~=~{{x-min(x)}\\over{max(x)
Wine : 분류 문제에서 Iris 꽃 데이터만큼 알려지진 않았지만 많이 사요오딘다.인류 역사상 최초의 술로 알려져있다.기원전 7000년 무렵 조지아-아르메이나-터키 동북부(코카서스)에서 흔적 발견플라톤 : '신이 인간에게 내려준 선물 중 포도주만큼 위대한 가치를 지닌
지금까지 jupyter notebook 상황에서 데이터의 전처리와 여러 알고리즘을 반복 실행했다.하이퍼파라미터의 튜닝 과정을 번갈아 하게되면 실행 순서에 혼돈이 있을 수 있다.클래스로 진행할수도 있지만 sklearn의 Pipeline 기능을 사용할 수 있다.Pipeli
교차 검증(Cross Validation) : 모델의 학습 과정에서 학습 / 검증데이터를 나눌때 단순히 1번 나누는게 아니라 K번 나누고 각각의 학습 모델의 성능을 비교하는 방법과적합 확인데이터에 적용한 모델의 성능을 정확히 표현하기 위해서도 유용하다.hold out
\[데이터 수집/가공/변환 -> 모델 학습/예측 -> 모델 평가] 과정 반복대부분 다양한 모델, 다양한 파라미터를 두고, 상대적으로 비교한다.회귀 모델의 경우 : 실제 값과 에러치를 가지고 계산예측 결과 : 연속된 수치분류 모델의 경우 : 정확도(Accuracy), 오
다항 함수 : $f(x) = 3x^{2} + 2$계수 : $3x^{2}$에서의 3, 입력값의 계수변수 : $3x^{2}$에서의 x, 입력값차수 : $3x^{2}$에서의 2, 식에서의 최고 차항상수 : $2$지수 함수 : $f(x) = a^x$밑수 : $a^x$에서의 a
일반적인 문제 해결 절차문제 파악 -> 규칙 선정 -> 평가 -> (에러 분석) -> ...(반복)... -> 출시데이터 기반 문제 해결 절차문제 파악 -> ML/DL 알고리즘 훈련(데이터 사용) -> 평가 -> (에러 분석) -> ...(반복)... -> 출시모델 스
Cost Function : 원래의 값과 가장 오차가 작은 가설함수 를 도출하기 위해 사용되는 함수가설 함수의 형태를 결정짓는 것은 매개변수 $\\theta$선형 회귀의 경우 : $J(\\theta{0}, \\theta{1}) = {1 \\over 2m}\\sum{i=
Logistic Regression : 분류기에 사용, 이진 분류 문제(대상이 범주형인 경우)에 사용회귀 모델이 아닌 분류 모델로 로지스틱 회귀는 이진 및 선형 분류 문제에 대한 간단하고 효율적인 방법악성 종양을 찾는 경우$h{\\theta}(x)=\\theta{0}+
정밀도(Precision)과 재현율(Recall)을 조정하는 방법결정 임계값을 조정해 조정할 수 있지만, 두 개는 상호 보완적인 평가지표이기 때문에 하나가 오르면 다른 하나가 떨어지기 쉽다.classification_report : 평가 지표를 한번에 볼 수 있다.co
집중할 것은 기법이 아닌 데이터!앙상블(Ensemble) : 여러 개의 분류기를 생성하고 그 예측을 결합하여 정확한 최종 예측을 기대하는 기법목표 : 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측 값을 얻는것정형 데이터를 대상으로 하는 분
Boosting Algorithm : 머신러닝 앙상블 기법 중 하나로 sequential한 weak learner(약한 모델)들을 여러 개 결합하여 예측 혹은 분류 성능을 높이는 알고리즘Boosting : 여러 개의 (약한)분류기가 순차적으로 학습하며, 앞에서 학습한
HAR 데이터를 이용해 각 부스팅 기법 실행GBM(Gradient Boosting Machine)여러 개의 약한 학습기(week learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여해 오류를 개선하는 방식가중치를 업데이트할 때 경사 하강법(G
KNN(K Nearest Neighber) : 분류나 회귀에 사용되는 비모수 방식새로운 데이터가 있을 때, 기존 데이터의 그룹 중 어떤 그룹에 속하는지를 분류하는 문제k는 몇 번째 가까운 데이터까지 볼 것인가를 정하는 수치k에 따라 결과가 바뀐다. 단위에 따라 바뀔
신용카드 부정 사용자 검출금융 데이터는 구하기 어려움(개인 정보가 많기 때문이다.)이상 징후 검출 등 머신 러닝의 이용 분야 중 하나이다.Kaggle 데이터 사용신용카드 사기 검출 분류 실습용 데이터class 컬럼이 사기 유무 의미class 컬럼의 불균형이 극심해서 전
JDK 다운로드 및 환경변수 설정JAVA_HOMEpip install konlpy : 한글 자연어 처리pip install tweepy==3.10.0conda install -y -c conda-forge jpype1==1.0.2conda install -y -c co
nltk 토큰(빈도수 포함) 분석토큰 빈도별 그래프특정 단어의 빈도 확인특정 단어가 등장하는 위치 확인연어(collocation) : 함께 위치하는 단어들이란 뜻으로, 어휘의 조합 또는 짝을 이루는 말을 일컫는다.빈도 분포 확인나이브 베이즈 분류기계 학습 분야에서 특성
두 점 사이의 거리를 구하는 것 : 유클리드 거리($\\sqrt{a^{2}+b^{2}}$)문장을 점처럼 일종의 벡터로 표현할 수 있다면 거리를 구하여 유사한 문장을 찾을 수 있다.CountVectorizer, TfidfVectorizer 등으로 문장을 벡터로 변환할 수
Principal Component Analysis(PCA) : 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내 주는 요소를 찾아내는 방법통계 데이터 분석(주성분 찾기), 데이터 압축(차원 감소), 노이즈 제거 등 다양한 분야에서 사용차원 축소(dimen
olivetti 데이터AT&T와 캠브리지 대학의 공동 연구 데이터얼굴 인식용으로 사용 가능특정 인물의 데이터(10장)만 이용하여 PCA 실습으로 사용결과 그리기10장의 사진은 아래 3장으로 모두 표현할 수 있다.shape 조정재합성
HAR 데이터 읽기몇 가지 동작은 잘 구분되지만 나머지는 겹쳐있어 구분하기 힘들 것으로 보인다.RandomForestNIST 데이터 셋(National Insitute of Standards and Technology)필기체 인식을 위해 수집한 자료들MNIST 데이터
비지도 학습 : 정답 라벨있는 지도 학습과 달리 정답 라벨이 없는 데이터를 비슷한 특징끼리 군집화하여 새로운 데이터에 대한 결과를 예측하는 방법, 라벨이 없은 데이터로부터 패턴이나 형태를 찾아야하기 때문에 난이도가 있다.군집(Clustering) : 비슷한 샘플을 모음