인공지능, 머신러닝, 딥러닝은 현업과 학습 과정에서 매우 자주 등장한다.하지만 이 세 용어가 정확히 어떤 관계인지 명확히 이해하지 못한 채 사용하는 경우가 많다.결론부터 말하면, 이 세 개념은 서로 다른 기술이 아니라 포함 관계에 있다.인공지능(AI): 가장 큰 개념머
시계열 분석을 공부하다 보면 거의 반드시 마주치는 단어가 정상성(Stationarity) 이다.많은 설명이 “평균과 분산이 일정한 상태”라고 짧게 끝나지만,이 한 문장만으로는 왜 중요한지, 어디서 문제가 생기는지를 이해하기 어렵다.정상성은 단순한 정의가 아니라 시계열
시계열 데이터(Time Series)는 시간의 흐름에 따라 관측된 데이터다.이 데이터의 핵심 특징은 다음 한 문장으로 요약할 수 있다.현재 값은 과거 값들과 독립적이지 않다따라서 시계열 예측 모델의 본질적인 차이는 결국 하나로 귀결된다.과거 정보를 어떻게 기억하고, 어
시계열 데이터 전처리와 통계적 진단시계열 데이터(Time Series Data)는시간의 흐름에 따라 순차적으로 관측된 데이터를 의미한다.수학적으로는 시간 ( t )에 대해 정의된 확률 변수 ( X_t )의 집합으로 표현된다.이 정의에서 중요한 점은 다음 두 가지다.각
비시계열 데이터는각 관측값(행)이 시간 순서에 의존하지 않는 데이터를 의미한다.대표적인 예시는 다음과 같다.고객 정보 테이블실험 결과 데이터설문조사 데이터정적인 특성 기반 데이터셋이러한 데이터는 일반적으로행 단위 분석을 전제로 한다.비시계열 데이터 분석은다음 가정을 암
시계열 데이터에서 스케일링은단순히 값의 크기를 맞추는 문제가 아니다.시간 흐름을 보존하면서미래 정보를 사용하지 않는 것이 핵심이다.시계열 데이터는 다음이 절대 금지다.이 경우,미래 시점의 통계량이 과거 학습에 사용된다이는 모델 성능을 비현실적으로 부풀린다.시계열 스케일
피처 셀렉션은 흔히“중요한 피처만 남기는 작업”으로 설명되지만, 이 표현은 본질을 충분히 담지 못한다. 보다 정확히 말하면 피처 셀렉션은모델이 학습해야 할 입력 공간(input space)의 차원과 구조를 통제하는 과정이다. 모델은 입력 공간 위에서 함수 근사를 수행한
머신러닝 모델은 기본적으로 다음 가정을 전제로 한다.입력 샘플들은 서로 독립(i.i.d.)각 샘플은 고정 길이의 벡터순서 정보는 구조적으로 존재하지 않음이 가정은 시계열 데이터와 정면으로 충돌한다.따라서 머신러닝에서 시계열을 사용하려면,시계열의 “시간적 구조”를 직접
머신러닝 기반 시계열 접근은 공통된 특징을 가진다.시계열 → 특징(feature) 추출고정 길이 벡터 → 회귀 문제시간 의존성은 간접적으로만 존재RNN 계열 모델은 이 접근에 대한 명확한 문제의식에서 출발한다.“왜 시간 정보를 사람이 요약해야 하는가?”“순서 자체를 모
RNN / LSTM / GRU는순서를 순차적으로 처리한다는 명확한 장점을 가졌지만, 그만큼 명확한 한계도 있었다.병렬화가 어렵다시퀀스가 길어질수록 비효율적이다이 문제를 해결하려는 방향에서다음과 같은 시계열 모델들이 등장한다.시간 축 위에서 패턴을 “국소적으로” 훑는다이
핵심 질문예측값이 실제값과 얼마나 가까운가?→ 오차(error)의 크기를 어떻게 정의하고 측정할 것인가회귀 모델은 연속적인 값을 예측한다.따라서 평가의 핵심은 예측값 (\\hat{y}) 와 실제값 (y) 사이의 차이를어떤 방식으로 집계하느냐에 있다.가장 직관적인 오차