[내일배움캠프] DAY49

채은·2026년 2월 5일

내일배움캠프_QAQC_4기

목록 보기

39/60

9:00 ~ 11:00 : 태블로 강의
11:00 ~ 12:30 : 시계열 세션
12:30 ~ 13:00 : 태블로 강의
14:00 ~ 15:00 : 시계열 복습
15:00 ~ 17:00 : 태블로 세션
17:00 ~ 18:00 : 태블로, 시계열 관련 레퍼런스 찾기
19:00 ~ 20:00 : ADsP
20:00 ~ 21:00 : 오후 스크럼 및 TIL 작성

코드카타

이상한 문자 만들기

def solution(s):
    words = s.split(' ')
    result_words = []
    
    for word in words:
        converted_word = ""
        for index, char in enumerate(word):
            if index % 2 == 0:
                converted_word += char.upper()
            else:
                converted_word += char.lower()
        
        result_words.append(converted_word)
    
    return ' '.join(result_words)

시계열 세션

정상성 검정 및 차수 결정

▶정상성 Stationarity
시간에 따라 통계적 성질이 변하지 않는 상태
정상성이 없다? 예측이 안됨. 뭐랑 뭐가 상관이 있는건지 알 수가 없으셈

정상성의 3조건
=> 평균, 분산, 고분산
여기서 평균이랑 분산만 맞춰주면 공분산은 보통 따라옴

▶단위근 Unit Root
자기회귀 계수 Φ가 1인 경우
Φ = 과거를 얼마나 잊어버리는가. 망각의 계수
Φ < 1 : 잊어버림. 정상성
Φ = 1 : 안 잊어버림. 비정상성
애가 있으면 인과관계를 잘못 해석할 가능성이 높음

▶평활법 및 시계열 분해
평활법: 최근 데이터에 가중치
시계열 분해: 추세, 계절성, 잔차 분리

승법모델보다는 가법모델이 좀 더 이론에 잘 들어맞음
그래서 가법모델 적용할라고 로그 변환해서 가법 모델로 분해하는듯

▶정상성 검정 및 차수 결정
ADF로 검정하고 ACF, PACF로 차수 정하기

▶ADF Augmented Dickey-Fuller 검정
H0: 단위근 존재. 시계열이 비정상성을 띤다
H1: 단위근 없다. 시계열이 정상성!
여기서 p value가 0.05보다 작아서 정상성을 확보해야한다~
0.05보다 크다? 그러면 차분을 하든 어쩓든 다른 처리가 필요햐다~

▶ACF, PACF
모델의 차수 결정에 힌트를 주는 친구들
차수? -> p(AR)와 q(MA)
뚝뚝 끊긴 부분을 보고 차수를 결정함
근데 이건 솔직히 사람마다 다르게 볼 수 있는 부분이긴 함....

▶시계열 Feature Engineering

아무거나 다 만들어서 영향력을 훑어봐야함
난사하기 일단 양치기 하는거임
그 다음에 유의미한 거 추려서 쓰는 거임

최적 모델 탐색 및 모델 검증

▶최적 모델 탐색 오토 아리마

일단 지금은 노란색 표시된 부분만 보기

보라색 네모부분이 [] 빈 대괄호다? 아리마, 사리마 모델이 더 적합
채워져있으면 아리맥스, 사리맥스가 더 적합

▶모델 검증
잔차 진단 & 융박스
잔차 진단 - 눈으로 보고 판단
융박스 - p-value > 0.05 면 성공

이상적인 잔차 형태

일정한 패턴이 보이면 안됨

▶예측 및 성능지표 확인

무조건 0에 가까울 수록 좋음

스마트 팩토리

스마트 팩토리, 푸리에 변환(어렵다고 하심...)
피지컬 AI까지 다 적용이 많이 된다면 공장에 아예 사람이 없어질지도..

▶현장 주요 센서와 데이터 종류

도메인마다 어떤 데이터가 수집되는지, 어떤 데이터가 중요한지 다름
알아서 찾아보기

▶스마트 팩토리의 데이터 흐름
디지털 트윈 - 아직까지 제대로 구축된 곳은 없긴함

사용 용이성을 생각할 줄 알아야함
내가 만든 결과를 회사에 판다고 생각해야함

ERP에서도 대시보드 굉장히 많이 만든다고 함

▶현장의 변수
어려운 부분임.
내가 가려는 분야에서는 어떤 데이터가 많이 수집이 되는지 파악해야함
데이터에 맞게 적용할 줄 알아야 한다~

1) 다중 샘플링 레이트 (Multi-rate Sampling)
2) 하드웨어 의존적 데이터 노이즈 (EMI/Spike)
3) 비정상성(Non-stationarity)과 Concept Drift
4) 타임스탬프 불일치 (Time Synchronization)
이런 변수들이 있다~~

프로젝트 할 때 적용해보라고 하심