23년도 첫 공모전이자 대학원 입학 전 마지막 공모전으로 경찰대학 치안정책연구소 등에서 주관한 치안 데이터 기반의 공모전 지역치안데이터분석경진대회에 참가하게 되었다. 평소 도메인 지식이 치안이나 교통쪽에 한정되어 있기도 하고, 결국 안전한 사회를 위해 데이터를 활용하고
상태공간모형(State-Space Model, 이하 SSM)은 Markov chain을 기반으로 하는 시계열 모형의 일종이지만, 실제 관측가능한 observation 데이터와 hidden state data가 결합하여 만들어진다.상태공간모형은 다음과 같이 정의된다. 각
시계열 자료는 ${x\_{t}: t=1\\ldots T}$ 형태로 discrete하게 주어진다. 반면, 파동함수(cosine, sine function)를 이용해 시계열 자료를 근사하는 방법이 있는데, 이러한 형태로 주어진 자료를 spectral 하다고 한다. Spec
Measure Theory를 기반으로 한 조건부 기댓값 및 조건부 확률을 정의해보도록 하자. 일반적으로 measure를 다루지 않는 통계학에서는 조건부 확률을 먼저 정의하고, 이후에 조건부 기댓값을 조건부 확률을 이용해 정의하는데 measure를 이용하면 좀 더 엄밀한
시계열 모형에는 다양한 구조가 존재하는데, 여기서는 가장 기본적인 MA model(이동평균 모형)에 대해 다루어보도록 하자. MA는 Moving Average(이동평균)의 약자인데, 각 시점의 확률변수는 이전 시점들의 White Noise들로 구성된다. MA(q) 모델
우리말로 정상성이라고 정의하는 Stationarity는 시계열 분석을 수행하기 위해 가정해야 하는 가장 중요한 도구이다. 회귀분석에 비유하자면, 회귀모형의 오차항(흔히 $\\epsilon$으로 나타나는)이 정규성을 가진다고 가정하는 것과 비슷하다. 가장 단순한 (단변량
이전에 graph의 markov property을 살펴보며 markov property 하에서(parent 노드가 주어질 때 다른 노드들과의 조건부 독립성) graphical model을 다음과 같은 markov chain 형태로 나타낼 수 있음을 알았다.$$p(\\m
MCMC라고도 하는 Markov Chain Monte Carlo 기법은 확률분포에서 샘플을 추출하는 여러 종류의 알고리즘을 일컫는다. 다양한 머신러닝 이론들이 등장하며, 기존 통계학에서 다룰 수 없을 정도의 수만-수백만 개의 변수 및 파라미터를 사용하는 모델들 역시 등
Mixture Model은 Latent Variable Model(LVM)의 일종이다. 여기서 LVM은 관측된 변수들간의 상관관계를 숨겨진 공통원인(common cause)에서 비롯된 것으로 가정한 모델이다. LVM을 이용하면, 차원축소(ex. PCA)를 수행하는 것과
Gaussian Process(줄여서 GP라고도 한다)는 비모수방법의 일종으로, 사전분포를 표현하여 베이즈 정리를 바탕으로 사후확률을 추론하는 기법으로 사용된다. 길이 $N$의 가우시안 랜덤 벡터(Gaussian Random Vector)란$$\\mathbf{f} =
통계학, 머신러닝 등 이론 공부 및 코딩 공부를 시작한 뒤로 나의 실력을 검증하고, 또 경험을 쌓을 기회가 필요하다고 생각해왔다. 그래서 참여할 공모전이나 프로젝트를 알아보던 중에 위 대회를 알게 되었다. 평소 스마트시티와 관련된 비전을 갖고있던 나에게는 도시데이터를
Multivariate LSTM-FCN 이번 글에서는 저번에 살펴본 단변량 시계열 분류모형인 LSTM-FCN을 다변량으로 확장한 Multivariate LSTM-FCN을 살펴보도록 할 것이다. 모형의 근본적인 구조는 LSTM-FCN과 동일하지만 convolutiona
최근 공모전 준비로(추후에 마무리 후 포스팅 예정) Time Series Classification 기법들에 대해 알아보면서, 딥러닝(RNN, CNN) 기반의 방법중 하나인 LSTM-FCN을 알게 되었다. RNN의 개념부터 LSTM-FCN으로 시계열을 처리하는 네트워크
이번 글에서는 저번에 이어 노드가 여러개인 multivariate causal model에 대해 계속 다루어보도록 할텐데, 그래피컬 모델과 관련된 중요한 개념중 하나인 Markov property, equivalence, blanket 등 개념에 대해 다루어보도록 할
Multivariate Causal Models 이전까지는 변수가 2개인 SCM, 즉 원인-결과의 SCM을 살펴보았었다. 이제부터는 변수가 여러개인(multivariate) causal model들에 대해 살펴보도록 하자. 우선, cause-effect 모델도 포함되지
이번 게시글에서는 저번에 이어 다른 Cause-Effect 모델들과 이들의 식별가능성에 대해 계속 살펴보도록 하자.Post-nonlinear model은 이전에 살펴본 Nonlinear ANM의 일반화된 모델이다. 결합분포 $P\_{X,Y}$가 X에서 Y로의 post-
AutoML의 존재에 대해서는 머신러닝을 본격적으로 공부하기 시작한 시점부터 알고 있었다. 그러나, 개인적인 생각으로 머신러닝의 과정을 자동화하는 것에 의존하기보다 모델을 직접 공부해보고, 최적화 과정이 각각 어떻게 이루어지는지 살펴보는 것이 더 중요하다고 생각되었기에
이번 게시글을 끝으로 데이콘의 따릉이 데이터 분석 관련 포스팅을 마치고자 한다. 마지막 내용은 AutoML을 다룰 것인데, AutoML이란 이전에 살펴본 여러 종류의 모델들을 선택하고, hyperparameter들을 최적화하는 일련의 모든 과정들을 자동화하는 방법을 총
이전 게시글에서는 single parameter model에서 이루어지는 bayesian inference의 대략적인 과정과, 그 과정에서 관찰되는 conjugate prior-posterior distribution에 대해 살펴보았다. 이번에는 prior distri
통계적 학습이론(Statistical Learning)의 관점에서 살펴보면, 가장 간단한 케이스인 cause-effect model을 학습하는 것 조차 어려움이 존재한다. Statistical Learning은 소위 주어진 관측값 $(X,Y)\_{i=1\\ldots,N