# sklearn

96개의 포스트

Sklearn preprocessing LabelEncoder

참고자료 : scikit(https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html사용 예시sklearn.preprocessing.LabelEncoder()를

5일 전
·
0개의 댓글
·

library 정리

선형 회귀(linear regression)sklearn.linear_model.LinearRegression()KNNsklearn.neighbors.KNeighborsRegressor(n_neighbors=5) \- n_neighbors : 이웃 개수 지정평균 절댓값

2022년 9월 27일
·
0개의 댓글
·

[SKlearn]pipeline에서 열마다 다른 작업 처리해주기

참고한 블로그 : https://databuzz-team.github.io/2018/11/11/make_pipeline/

2022년 9월 13일
·
0개의 댓글
·
post-thumbnail

[SKlearn]Scikit-learn

사이킷런은 파이썬의 머신러닝 라이브러리로 다양한 머신러닝 알고리즘을 사용할 수 있다. 사이킷런을 이용해 머신러닝을 사용하는 작업의 대부분은 데이터를 정제하는 작업이다. 사이킷런 자체에서 머신러닝을 위한 알고리즘을 제공하고 있기 때문에 사용자는 이 알고리즘에 넣어줄 데이

2022년 9월 1일
·
0개의 댓글
·
post-thumbnail

[ML] 재귀적 특성 제거 RFE

RFECV : 자동적으로 최선의 특성을 선택하고 싶을 때 사용할 수 있는 feature selection 방법.

2022년 8월 24일
·
0개의 댓글
·
post-thumbnail

선형회귀(보스턴 주택데이터)

큰일 났다. 한 게 하나도 없는 거 같은데 벌써 방학이 한 달도 안 남았다..... 그건 그렇고 요즘 너무 더워서 밖에 나가기 너무너무 싫다. 하지만 말복에는 꼭 나갈 것이다. 삼계탕이 먹고 싶다. 끄덕.

2022년 7월 28일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - 고객 세그먼테이션 구현 실습

데이터 출처: https://archive.ics.uci.edu/ml/datasets/online+retail고객 세그먼테이션: 다양한 기준으로 고객을 분류하는 기법사는 지역, 결혼 여부, 성별, 소득, 직업, 월별 사용액, 최근 구매 상품, 구매 주기,

2022년 7월 21일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - DBSCAN

DBSCAN, Density Based Spatial Clustering of Applications with Noise특정 공간 내에 데이터 밀도 차이 기반 알고리즘으로 하고 있어서 복잡한 기하학적 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행여러 데이터에

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - Gaussian Mixture Model

Gaussian Mixture Model, Mixture of Gaussian, GMM, MoG거리기반 K-Means의 문제점\-> K-Means는 특정 중심점을 기반으로 거리적으로 퍼져있는 데이터 세트에 군집화를 적용하면 효율적인데 그 반대는 비효율적이다.예를 들어보

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - Mean Shift Clustering

Mean Shift Clustering 개요 K-Means랑 유사한데 차이점은 K-means는 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, Mean Shift는 중심을 데이터가 모여있는 밀도가 가장 높은 곳으로 이동 시킴 특징 KDE (Kernel

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - 실루엣 분석 (Silhouette Analysis)

실루엣 분석: 각 군집 간의 거리가 얼마나 효율적으로 분리돼 있는지를 나타내는 것 다른 방법으로는 Elbow Method가 있음 (Inertia)실루엣 계수 (Silhouette Coefficient)각각의 샘플마다 계산$a$: 나와 나와 같은 군집에 속한 샘플들 사이

2022년 7월 20일
·
0개의 댓글
·
post-thumbnail

[ML] 군집화 - K-Means Clustering

군집화 개요 Clustering 데이터 포인트들을 별개의 군집으로 그룹화 하는 것을 의미 유사성이 높은 데이터들을 동일한 그룹으로 분류하고 서로 다른 군집들이 상이하게 그룹화 군집화 활용 분야 고객, 마켓, 브랜드, 사회 경제 활동 세분화 이미지 검출, 세분화,

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

[ML] 차원 축소 - SVD (Singular Value Decomposition)

SVD, Singular Value Decomposition, 특이값 분해앞에서 배운 고윳값 분해와 비교해보자고윳값 분해$$C = P\\Sigma P^T $$$$C = \\left\\begin{matrix} e_1 & e_2 & ... & e_n\\end{matrix}

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

[ML] 차원 축소 - LDA (Linear Discriminant Analysis)

LDA, Linear Discriminant Analysis, 선형 판별 분석PCA와 매우 유사함PCA처럼 입력 데이터 세트를 저차원 공간에 투영해 차원을 축소하는 기법중요한 차이는 LDA는 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

[ML] 차원 축소 - PCA 실습

scikit-learn은 sklearn.decomposition.PCA 클래스 제공n_componets: PCA 축의 개수 (변환 차원)PCA 이전에 입력 데이터의 개별 Feature에 대해 스케일링 필수! PCA는 여러 Feature들의 값을 연산해야 하므로, Fea

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 캐글 경연 주택 가격 예측

평가지표로는 RMSLE를 사용하자. $$ RMSLE = \sqrt{\frac{1}{n}\sum{i=1}^N(log(Yi+1)-log(\hat{Y_i}+1))^2} $$ 데이터 전처리 > 데이터 탐색 후 전처리를 진행하자 여러가지 전처리를 해보기 위해 원본 데이터는

2022년 7월 18일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 자전거 대여 수요 예측

Bike Sharing Demand 데이터 데이터 출처: https://www.kaggle.com/c/bike-sharing-demand 데이터 가공과 사전 작업 >칼럼 설명 datetime: hourly date + timestamp season: 1 = 봄,

2022년 7월 18일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 회귀 트리 (Regression Tree)

scikit-learn의 결정 트리와 결정 트리 기반의 앙상블 알고리즘은 분류 말고 회귀도 가능함트리가 CART (Classification and Regression Tree)를 기반으로 만들어졌기 때문CART 회귀 트리는 분류와 유사하게 분할, 최종 분할이 완료된

2022년 7월 17일
·
0개의 댓글
·
post-thumbnail

[ML] 회귀 - 로지스틱 회귀 (Logistic Regression)

로지스틱 회귀 개요 로지스틱 회귀 개요 로지스틱 회귀는 이름은 회귀인데, 분류에 사용됨 종속변수가 범주형 변수일 때 사용하는 것이 로지스틱 회귀 시그모이드 함수 우선 시그모이드 함수를 먼저 알아보자 (로지스틱 함수라고도 함) $$ Sigmoid(x) = \fr

2022년 7월 17일
·
0개의 댓글
·