시리즈

ML

1.[머신러닝] 데이터관찰, Decision Tree, scikit learn, 데이터 나누기

머신러닝 머신러닝은 명시적인 프로그램에 의해서가 아니라 주어진 데이터를 통해 규칙을 찾는 것 꽃잎, 꽃받침의 길이/너비 정보를 이용해서 iris의 3종 품종을 구분할 수 있을까? Iris의 품종 분류 를 주제로 실습해보자. 데이터관찰 Decision Tree 분

2023년 9월 19일

2.[머신러닝] 타이타닉 생존자 예측

타이타닉 생존자를 예측해보자데이터 https://github.com/PinkWink/ML_tutorial/tree/master/dataset컬럼명pclass : 객실등급survived : 생존 유무sex : 성별age : 나이sibsp : 형제 or 부부의 수

2023년 9월 20일

3.[머신러닝] encoder, scaler

간단한 예제문자를 숫자로 또는 숫자를 문자로 바꿔주는데 사용간단한 예제$x'=x-min(x)/(max(x)-min(x))$결과를 보면 A,B컬럼에서 각각 max,min,range를 뽑아와서 2개씩 값을 가진다. 이제 적용시켜보자최댓값 -> 1, 최솟값 -> 0, 나머지

2023년 9월 20일

4.[머신러닝] 와인데이터분석

데이터 불러오기red_wine, white_wine 합치기(단, red, white 구분해주는 컬럼 추가 red는 1, white는 0)quality컬럼은 어떻게 구성돼있나?판다스에서 특정 컬럼 값의 개수 세는 법등급 histogram레드/화이트 와인별 등급 histo

2023년 9월 20일

5.[머신러닝] 모델평가

실제 값과 에러치를 계산회귀모델 : 예측의 결과가연속된 값으로 나타나는 것평가항목정확도(accuracy), 오차행렬(confusion matrix), 정밀도(precision), 재현율(recall),F1 score, ROC AUC분류모델 : 고양이인지 강아지인지 구분

2023년 9월 21일

6.[머신러닝] 기초수학, boxplot

기초수학 다양한 함수 형태의 그래프를 그려보자. 다항함수 $y = 3x^2 + 2$ 다항함수의 x축 평행 이동 지수함수 $y=a^x$ 지수 증가를 그래프로 표

2023년 9월 21일

7.[머신러닝] 선형회귀, 통계적회귀, 보스턴 집값 분석

회귀 특성값 결과가 연속적인 값을 갖는다. 선형회귀 주어진 학습 데이터와 가장 잘 맞는 hypothesis함수 h를 찾는 문제 간단한 데이터로 선형회귀를 실습해보자 잔차확인 결정계수 R-Squared을 구해보자 결정계수 R-Squared : 예측값으로부터의 오차

2023년 9월 22일

8.[머신러닝] Logistic regression, 앙상블 기법

logistic regression는 분류문제이다시그모이드 함수에 직선의 함수를 넣어서 결과를 판정한다.분류 문제는 0 또는 1로 예측해야 하나, linear regression을 그대로 적용하면 예측값($h\_θ(x)$)은 0보다 작거나 1보다 큰 값을 가질 수 있다

2023년 9월 25일

9.[머신러닝] kNN, 앙상블 기법-GBM, XGBoost, LightGBM

Boosting 여러개의 (약한)분류기가 순차적으로 학습을 하면서 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해 다음 분류기가 가중치를 인가해서 학습을 이어 진행하는 방식 예측 성능이 뛰어나서 앙상블 학습을 주도한다 그래디언트부스트, XGBoost(eXtra Gra

2023년 9월 29일

10.[머신러닝] 신용카드 부정사용 검출

데이터 출처데이터 개요신용카드 사기 검출 분류 실습용 데이터class 컬럼 : 사기 유무 (0, 1)Amount : 거래금액class 컬럼의 불균형이 심해서 전체 데이터의 약 0.172%가 1(사기)을 가짐금융 데이터이므로 기업 보안상 대다수의 특성 이름은 삭제데이터를

2023년 9월 29일

11.[머신러닝] 자연어 처리(NLP - Natural Language Processing)

한글은 형태소 분석이 필요하다엘리스 데이터로 실습wc = WordCloud( background_color = 'white', max_words = 2000, mask = alice_mask, stopwords = stopwords)wc = wc.generate(

2023년 10월 5일

12.[머신러닝] PCA(Principal Component Analysis)

PCA란? 데이터 집합 내에 존재하는 각 데이터의 차이를 가장 잘 나타내 주는 요소를 찾아 내는 방법 통계 데이터 분석(주성분 찾기), 데이터 압축(차원감소), 노이즈 제거 등 다양한 분야에서 사용 차원축소(dimensionality reduction)와 변수추출(f

2023년 10월 5일

13.[머신러닝] PCA -eigenface, kNN, MNIST

Olivetti 데이터로 실습을 해보자20번인 데이터를 불러오자2개의 성분으로 분석해보자결과 확인더 흐리게 나온다원점과 두 개의 eigen face 10장의 사진은 이 세장으로 모두 표현할 수 있다먼저 가중치를 선정한다첫번째 성분의 변화를 보자표정이 변하는 것 같다두번

2023년 10월 6일

14.[머신러닝] 네이버 책 가격 회귀분석, clustering, 이미지 분할

가격 정보를 얻기 위해 API를 이용한다페이지와 가격은 연관이 있어 보인다출판사별 편중이 심한 것 같아서 출판사별로 보면,box출판사별로 예측하는 것이 더 좋아보이긴 하다비지도 학습군집 Clustering : 비슷한 샘플을 모음이상치 탐지 Outier detection

2023년 10월 8일