# AI study

파이썬 머신러닝 완벽 가이드 - 9. Text Analytics(1) (Encoding, Vectorize)
TA(Text Analytics or Text Mining)비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 발전머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다.텍

파이썬 머신러닝 완벽 가이드 - 8. Clustering(2) (평균 이동, GMM, DBSCAN, 예제 실습)
: K-평균과 유사하게, 군집의 중심을 지속적으로 움직이면서 군집화를 수행함: 그러나, K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해,: 평균 이동은 데이터가 모여있는 밀도가 가장 높은 곳으로 이동시키면서 군집화하는 방법평균 이동 군집화는 데이터

파이썬 머신러닝 완벽 가이드 - 8. Clustering(1) (K-Mean, Cluster Evaluation)
분류와 유사해보일 수 있지만 성격이 다르다. 데이터 내에 숨어있는 별도의 그룹을 찾아서 의미를 부여하거나, 동일한 분류값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나, 서로 다른 분류값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가진다.(거리기반 군집화)

파이썬 머신러닝 완벽 가이드 - 7. Dimension Reduction(2) (SVD, NMF)
: PCA와 유사. 정방 행렬뿐만 아니라 행과 열의 크기가 다른 행렬에도 적용 가능Full SVD$A = U \\sum V^T$$A$ : 행렬, $U$, $V$: 특이벡터(Singular vector)로 된 행렬, $\\sum$ : 대각행렬$\\sum$ : 대각행렬

파이썬 머신러닝 완벽 가이드 - 7. Dimension Reduction(1) (PCA, LDA)
: 매우 많은 피처로 구성된 다차원 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것다차원 데이터 세트의 문제점차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지고, 희소한Sparse 구조를 가져 예측 신뢰도가 떨어진다.다중공선성 문제(독립

파이썬 머신러닝 완벽 가이드 - 6. Regression(2) (규제, 로지스틱회귀, 회귀 트리 및 예제)
: $w^2$에 대해 패널티를 부여하는 방식. 주요 생성 파라미터는 alpha로, alpha가 커질 수록 회귀 계수 값을 작게 만든다.$RSS(w) + alpha\*||w||\_2^2$ 식을 최소화하는 w를 찾는 것: $|w|$에 패널티를 부여하는 방식. 불필요한 회귀

파이썬 머신러닝 완벽 가이드 - 6. Regression(1) (경사하강법, 평가지표, 선형회귀)
: 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관관계를 모델링 하는 기법: 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀계수(Regression coefficients)를 찾아내는 것회귀계수: 독립변수 값에 영향을 미치는 Wn선형 회귀 : 실제

파이썬 머신러닝 완벽 가이드 - 5. Classification(3) (예제 및 스태킹)
EDA 중, head, info, describe 사용이상치 발생 ⇒ 제일 많은 걸로 대체하는 방법론도 있음LGBMClassifier( . . . boost_from_average=False) : 레이블값 매우 불균형한 경우 False, if True ⇒ 재현률 및 R

파이썬 머신러닝 완벽 가이드 - 5. Classification(2) (앙상블)
: 여러 개의 분류기(classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법→ 보팅Voting, 배깅Bagging, 부스팅Boosting + 스태킹Stacking보팅 : 서로 다른 알고리즘을 가진 분류기 결합배깅 : 같은 유형의

파이썬 머신러닝 완벽 가이드 - 5. Classification(1) (결정트리)
Classification 분류 : 학습 데이터로 주어진 데이터의 피처와 레이블 값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 나이브 베이즈 Naive

파이썬 머신러닝 완벽 가이드 - 4. Evaluation
실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표$$⁍ $$특히 정확도는 불균형한 레이블 값 분포에서는, 적합한 평가 지표가 아님ex) MNIST 데이터 셋을 다중분류에서 이진분류로 바꾸면 (7을 True, 나머지를 False) ⇒ 0과 1중 0을 찍으면 90

파이썬 머신러닝 완벽 가이드 - 3. Scikit-Learn
Classifier 분류: DecisionTreeClassifier, RandomForestClassifier, GradientBoostingClassifier, GaussianNB, SVCRegressor 회귀: LinearRegression, Ridge, Lasso

파이썬 머신러닝 완벽 가이드 - 2. Pandas
read_csv() : ,, read_table() : \\t, read_fwf() : 고정길이 파일value_counts(): 해당 칼럼 값의 유형과 건수 확인 (Series 객체에만 정의)describe() : agg류 연산 보여줌2차원 이하의 데이터들만 변환 가

파이썬 머신러닝 완벽 가이드 - 1. Numpy
데이터 타입: ndarrayarray(): 인자를 받아 ndarray로 변환arange(): 연속된 숫자(정수)를 ndarray로 변환 예) np.arange(10): 0~9의 숫자를 ndarray로 만듦 zeros(): shape 값을 입력하면 0으로 채운 뒤 해

[파이썬 머신러닝 완벽가이드] 분류 - 3
분류 알고리즘 앙상블 앙상블이란? 여러개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 말합니다. 앙상블의 유형으로는 일반적으로 보팅(Voting) 배깅(Bagging) 부스팅(Boosting) 으로 구분
[파이썬 머신러닝 완벽가이드] 분류 - 2
지난 번에 이어서 결정트리 모델의 특징에 대해서 알아보겠습니다.결정모델의 장점은 쉽고 직관적이라는 점 입니다. 룰이 명확하고 시각화로 표현까지 가능합니다. 또한 균일도만 신경쓰면 각 피처의 스케일링과 정규화 같은 전처리 작업의 영향도가 크지 않습니다.단점으로는 과적합으

[파이썬 머신러닝 완벽가이드] 분류 - 1
머신러닝을 배울 때 가장 먼저 접할 수 있는 분류 알고리즘에 대해 정리해 보았습니다.분류 알고리즘은 학습 데이터로 주어진 데이터의 피쳐와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 모델에 새로운 데이터가 주어졌을 때 미지의 레이블 값을 예측하는 것입니다.