의사결정트리(Dcision Tree)엔트로피의 이해의사결정트리를 만드는 과정1\. 엔트로피가 가장 많이 줄어드는 방법으로 데이터를 나눈다2\. 다른 속성 기준으로 다시 데이터를 나눈다3\. 엔트로피가 0이 될 때까지 나눈다.4\. leaf에 도달한다.엔트로피가 0이 될
최소제곱추정
데이터거리 거리행렬의 산정방법 거리가 무엇인지 정확히 정의해야함 수식으로 나타낼 수 있어야 함 * 가장 많이 쓰이고 기초적인 거리는? * 유클리드 거리 맨하튼 거리 민콥스키 거리 군집분석의 3가지 종류 Dendrogram : 거리 행렬을 통해 데이터 포인트를
주변 k개의 속성 조사k값은 주관적이기 때문에 정해줘야함여러 k값으로 테스훈련 데이터에 target 값 존재어떤 공은 색깔을 알 수 없음속성값 = 1개(색상)레벨값 = 2개(빨강, 파랑)k=5(주관적인 가정)물음표를 중심으로 가까운 이웃을 k개 만큼 선택!이웃의 속성
베이즈 정리
SVM 알고리즘분류수행, 회귀수행비선형적이고 고차원 공간에서도 탁월한 성능을 보임☞ 단점: 알고리즘 자체가 수학적인 이론이라서 좀 어려운 모델☞ 장점: 현실세계의 모델에서 복잡한 문제를 푸는 능력이 좋은 모델Support Vertor Machine은 Margin을 최대
형태소 분석텍스트는 문장으로 구성되고, 문장은 단어들로 구성된다.형태소 분석기 종류KoNLPy꼬꼬마TwitterKomoran텍스트 마이닝의 목적에 따라서 주관적으로 라이브러리를 선택한다.TF-IDF의 의의변수로서 역할을 하지 못하는 단어들을 제거하는 전처리 작업 필요빈
고차원-> 저차원으로 바꾸는 이유는?: 고차원에서 일어나는 차원의 저주 문제를 피하기 위함PCA(주성분 분석): 기존 원본 데이터의 최대한 정보를 살리면서 차원이 축소된 새로운 좌표 체계를 만들어 표현원본데이터 = X스코어 행렬 = U부하 행렬 = V대각 행렬 = D★
Wholsale은 슈퍼에서 물건을 구매한 데이터이고구매 형태를 통한 패턴 분석패턴만 분석하는 것으로 마무리 = 비감독학습차원숙소components 2 - 2개의 데이터로 정한 이유 - 그래프가 2차원이기 때문StandardScaler로 정규화 시킴pca정규화8개의 차원
sign 함수 : 최초의 신경망의 활성화 함수 이 값이 어느정도 이상이되면 출력이 되지만 아니면 무시됨 이론적으로 거의 모든 다항식으로 설명할 수 있게 됨 활성화 함수의 종류사인 함수스텝 함수시그모이드 함수 : 신경망에서 사용소프트 맥스 함수Gradient Des