데이터 타입: ndarrayarray(): 인자를 받아 ndarray로 변환arange(): 연속된 숫자(정수)를 ndarray로 변환 예) np.arange(10): 0~9의 숫자를 ndarray로 만듦 zeros(): shape 값을 입력하면 0으로 채운 뒤 해
read_csv() : ,, read_table() : \\t, read_fwf() : 고정길이 파일value_counts(): 해당 칼럼 값의 유형과 건수 확인 (Series 객체에만 정의)describe() : agg류 연산 보여줌2차원 이하의 데이터들만 변환 가
Classifier 분류: DecisionTreeClassifier, RandomForestClassifier, GradientBoostingClassifier, GaussianNB, SVCRegressor 회귀: LinearRegression, Ridge, Lasso
실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표$$⁍ $$특히 정확도는 불균형한 레이블 값 분포에서는, 적합한 평가 지표가 아님ex) MNIST 데이터 셋을 다중분류에서 이진분류로 바꾸면 (7을 True, 나머지를 False) ⇒ 0과 1중 0을 찍으면 90
Classification 분류 : 학습 데이터로 주어진 데이터의 피처와 레이블 값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 나이브 베이즈 Naive
: 여러 개의 분류기(classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법→ 보팅Voting, 배깅Bagging, 부스팅Boosting + 스태킹Stacking보팅 : 서로 다른 알고리즘을 가진 분류기 결합배깅 : 같은 유형의
EDA 중, head, info, describe 사용이상치 발생 ⇒ 제일 많은 걸로 대체하는 방법론도 있음LGBMClassifier( . . . boost_from_average=False) : 레이블값 매우 불균형한 경우 False, if True ⇒ 재현률 및 R
: 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관관계를 모델링 하는 기법: 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀계수(Regression coefficients)를 찾아내는 것회귀계수: 독립변수 값에 영향을 미치는 Wn선형 회귀 : 실제
: $w^2$에 대해 패널티를 부여하는 방식. 주요 생성 파라미터는 alpha로, alpha가 커질 수록 회귀 계수 값을 작게 만든다.$RSS(w) + alpha\*||w||\_2^2$ 식을 최소화하는 w를 찾는 것: $|w|$에 패널티를 부여하는 방식. 불필요한 회귀
: 매우 많은 피처로 구성된 다차원 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것다차원 데이터 세트의 문제점차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지고, 희소한Sparse 구조를 가져 예측 신뢰도가 떨어진다.다중공선성 문제(독립
: PCA와 유사. 정방 행렬뿐만 아니라 행과 열의 크기가 다른 행렬에도 적용 가능Full SVD$A = U \\sum V^T$$A$ : 행렬, $U$, $V$: 특이벡터(Singular vector)로 된 행렬, $\\sum$ : 대각행렬$\\sum$ : 대각행렬
분류와 유사해보일 수 있지만 성격이 다르다. 데이터 내에 숨어있는 별도의 그룹을 찾아서 의미를 부여하거나, 동일한 분류값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나, 서로 다른 분류값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가진다.(거리기반 군집화)
: K-평균과 유사하게, 군집의 중심을 지속적으로 움직이면서 군집화를 수행함: 그러나, K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해,: 평균 이동은 데이터가 모여있는 밀도가 가장 높은 곳으로 이동시키면서 군집화하는 방법평균 이동 군집화는 데이터
TA(Text Analytics or Text Mining)비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 발전머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다.텍