대표값. 자료의 중심점평균, 중앙값, 최빈값 등무게중심을 나타내는 값.계산이 쉬움. 각 자료에 하나의 값을 가진다.이상치 있을 경우 신뢰 어려움. (극단적인 값에 민감)데이터를 순서대로 나열할 때 가운데에 있는 값.가장 많이 나타나는 값.평균/중앙값과 달리 존재하지
이산 확률 변수에서 특정 값에 대한 확률 나타냄.베르누이 분포: 어떤 시행을 해서 어떤 일이 일어나거나 안 일어나거나에 대한 분포. 확률 = $$p$$평균 = $$p$$분산 = $$pq \\ (\\because q = 1-p)$$이항 분포: 연속 n번 해서 k번 성공할
표본공간의 원소를 실수로 대응한 값확률적인 과정(무작위 실험)의 결과를 수치적으로 표현하는 변수예) 동전을 5번 던졌을 때 앞면이 x번 나올 확률 (이는 이항 분포를 따른다.)확률 분포: 확률 변수와 그 값이 나올 수 있는 확률로 대응시켜 표시하는 것$$E(a) = a
통계적 추론: 모집단에 대해 모르는 것을 알아내려고 통계학을 이용하여 추측하는 과정. 추정과 가설검정으로 나뉨.점 추정: 특별한 값 하나를 추정구간 추정: 이 안에 있을 것이다 하는 구간을 추정신뢰도: 그 구간 안에 있을 확률대수의 법칙: 시행 횟수가 많을 수록, 표본
연속형 두 변수간의 직선적(선형적) 관계 정도를 검정하는 통계 분석 방법.두 개의 숫자형 데이터를 직교 좌표계에 표시하여 두 변수 간의 관계를 나타냄.산점도를 통해 확인할 수 있는 것1\. 두 변수 간에 선형 관계가 있는가2\. 두 변수 간에 함수 관계(직선 혹은 곡선
상관 분석을 통해 인과 관계는 알 수 없다.이를 알아보는 것이 회귀 분석이다.회귀 분석은 관찰된 연속형 변수들에 대해 변수들 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다.회귀 분석은 두 변수의 관계를 설명하고 예측할 수 있다.$$y = ax + b$$라고
데이터 전처리는 무조건 한다.왜냐하면 분석에서 요구하는 형태와 크기가 다를 수 있기 때문존재하지 않고 비어 있는 상태DB에서의 NULL값데이터를 채울 필요가 있다.수작업특정값평균값가장 가능성이 높은 값(회귀분석, 보간법)해당 데이터 행을 제거이상하게 튀어 있는 거탐지
Filtering데이터 걸러내기Sampling데이터 추출차원 축소 -> 차원의 저주: 데이터의 feature개수 늘어날 수록 공간의 크기가 기하급수적으로 늘어남. 필요한 데이터 수도 늘어남.층화 추출그룹에서 일정한 비율로 선택계통 추출첫번째 요소는 무작위로 선정한 후
행 열 별 요약된 값으로 정렬해서 분석을 하고자 할 때 사용컬럼 형태로 되어 있는 것을 행 형태로 바꿀 때 사용이미 수집된 변수 활용해서 새로운 변수 생성하는 경우주관적일 수 있으며 논리적 타당성을 갖추어 개발해야 함.원 데이터를 분석 Needs에 맞게 종합한 변수빈도
작고 덜 복잡한 모델로도 성능 좋게 낼 수 있음more flexibilitysimpler modelsbetter results상관 계수회귀 계수 p-value 의사 결정 트리Feature Selection Feature 쳐내기Feature Extractionraw da
예측 대상이 연속형 수치 데이터인 경우MSE, RMSE, MAE, MAPE...혼동 행렬은 특정 클래스에 대해서 (ex 암이냐?) 맞다(Positive) 아니다(Negative) 중 하나로 예측한 결과와 실제 정답의 경우를 나타낸 행렬각 셀의 설명혼동 행렬의 각 셀에서
이진 분류Maximize Likelihood, Minimize Cross-entropy가 목표MSE 약점: Local Minimum 생김Cross Entropy 사용하면 최저점 찾을 수도?기본은 0.5임계값을 낮추면 Recall 높아짐올리면 Precision 높아짐종속
Test 데이터와 가까운 k개의 Train 데이터의 y값을 비교분류와 회귀 문제를 모두 다룰 수 있음.분류: class 다수결로 결과 class 예측회귀: 평균값으로 결과값 예측 (정확도 떨어짐)비모수 적인 방식(통계적 방식 아님)구체적인 데이터를 가지고 예측을 요청할
Bayes 법칙에 기반한 분류 기법각 클래스에 속할 확률이 독립이라고 가정현실적이지 않기 때문에 naive 라는 이름 붙음각 클래스에 속할 확률(사후확률)을 구하고 거기서 가장 큰 확률을 가지는 클래스로 분류하는 전략.베이즈 정리에서 분모 지우고 $$P(B|A_i)P(