MSE (Mean Squared Error) RMSE (Root Mean Squared Error) MAE (Mean Absolute Error) R² (R Square) Mean Square Percentage Error (MSPE) Mean Absolute
데이터 분석에서 자주 사용되는 분석 기법 중에 코호트(동질 집단) 분석이 있다. 코호트란 ‘특정 기간 동안 공통된 특성이나 경험을 갖는 사용자 집단‘을 의미한다.
리소스(파일 등)를 사용하고 있는 도중에 에러가 나서 실행이 멈추게 되면 리소스 점유를 해제(close)하지 못할 수도 있다. 이를 방지하기 위해 파이썬에는 finally라는 구문이 있다. finally는 try문이 성공하든 실패하든 항상 실행된다. 보통 리소스를 해제
1. .strip() : 양쪽 공백 지우기 > 2. .split() : 문자열 나누기 - 리스트 형태로 단어가 나누어짐. > >
Airflow는 Python 코드로 워크플로우(workflow)를 작성하고, 스케쥴링, 모니터링 하는 플랫폼이다. Airflow를 통해서 데이터엔지니어링의 ETL 작업을 자동화하고, DAG(Directed Acyclic Graph) 형태의 워크플로우 작성이 가능하다.
T-SNE (t-distributed stochastic neighbor embedding)라고 불리는 방법은 높은 차원의 복잡한 데이터를 2차원에 차원 축소하는 방법입니다.
선형판별분석(Linear Discriminant Analysis, LDA)는 Classification(분류모델)과 Dimensional Reduction(차원 축소)까지 동시에 사용하는 알고리즘이다.LDA는 PCA와 유사하게 입력 데이터 세트를 저차원 공간으로 투영(
1. MDS(다차원 스케일링) 이란? MDS는, 기본적으로 출력이 없는 입력 상태에서의 스케일 문제를 해결하는 것으로 Unsupervised Learning(비지도 학습) 범주에 들어간다. PCA로 차원 축소가 가능하지만, MDS를 사용해서도 차원 축소가 가능하다.
1. PCA(Principal Component Analysis) - 주성분 분석이란? 주성분이란 전체 데이터(독립변수들)의 분산을 가장 잘 설명하는 성분을 말한다. 변수의 개수 = 차원의 개수 e.g.) iris 데이터에서, 4개의 독립변인들이 하나의 공간에 표현되
exp = e^ 입니다.즉, 둘 다 지수 함수(exponential function)이다.예를 들면,ln(x) = 2 일 때,x = e^2 = 7.4x = exp(2) = 7.4ln x = yx = e^ylog x = yx = 10^y
다른 변수에 영향을 받지 않는 독립적인 변수를 독립 변수, 다른 변수에 영향을 받는 변수를 종속 변수라고 하는데, 함숫값을 결정할 때 2개 이상의 독립 변수가 필요한 함수를 다변수 함수라고 합니다. w=f(x, y, z, ...)와 같은 형태로 쓰는데, 이러한 다변수
1. 상용로그의 뜻 기본적으로 숫자에서 10진법을 사용하는 것처럼, 밑이 10인 로그를 일상적으로 많이 사용하는 로그라고 하여 '상용로그'라고 하고 밑은 생략해도 된다는 것이다. 2.진수에 따른 상용로그의 값 일반적으로 상용로그의 값이란
a, b: 상수 벡터A: 상수 행렬y, z: x와 함수관계를 갖는 벡터 출처 : https://darkpgmr.tistory.com/141
임계치(threshold): 어떠한 값이 활성화되기 위한 최소값을 임계치라고 한다.가중치(weight): 퍼셉트론의 학습 목표는 학습 벡터를 두 부류로 선형 분류하기 위한 선형 경계를 찾는 것이다. 가중치는 이러한 선형 경계의 방향성 또는 형태를 나타내는 값이다.바이어
넘파이 배열을 만들어줌꺽쇠괄호(square brackets)안에 꺽쇠 괄호들을 정의한 경우에는 배열의 각각의 행이 배열로 정의된 행렬이 된다.condition이 참인 곳에는 x값을 대입하고, 그렇지 않은 곳에는 y값을 대입한다.
쉽게 말하면 평균(mean) 에 대한 오차이이다. 즉 , 실제 데이타 값이 평균을 기준으로 할때 얼마나 들쭉 날쭉하냐를 나타내는 것이다. 평균이 m이고, 표준편차가 3이라고 할때, 실제 값은 m+-3 값이라는 것이다.먼저 편차랑, 원래의 값에서 평균을 뺀 값인데, 편차
여러 음식에 대하여 '빵이다'와 '빵이 아니다'를 구분한다고 하자. 각 클래스는 TP, FN, FP, TN으로 나뉘어 진다. 이에 대하여, 두 단어 중 앞 단어는 결과, 뒤 단어는 가정이라고 생각하면 쉽다.