중간에 추가된 일
중간에 취소된 일
오늘은 새로운 개념을 많이 배웠다.
시계열 데이터(Time Series Data)
시간이 흐름에 따라 관측된 데이터로, 특정 시간 단위(시간, 일, 주, 월, 연 등) 에 따라 수집된 값을 포함합니다. 즉, 데이터 포인트가 시간 순서대로 정렬되어 있으며, 시간의 흐름이 데이터 분석의 중요한 요소로 작용합니다. 간격이 일정하지 않을 수도 있으며, 이를 불균등 시계열(Irregular Time Series)라고 합니다.
하이퍼 파라미터(Hyper Parameter)
모델을 학습하기 전에 사용자가 직접 값을 설정해줘야 하는 변수입니다.(사전 설정 변수)
동일한 모델이더라도 어떤 값을 설정하느냐에 따라 모델 성능이 달라질 수 있습니다.
하드 클러스터링 /소프트 클러스터링
데이터를 분류할 때 두가지 관점이 있다.
각각에 대한 확률을 구한뒤 해당 데이터에 대해 모든 확률이 혼재한 상태로 구분하는 것을 소프트 클러스터링이다.
예를 들면 한 바구니안에 사과 3 오렌지 6개 키위1개가 들어 있을때 바구니안에서 오렌지를 하나 잡으면 30퍼센트로 사과거나 10퍼센트로 키위일 수 있다.
반대로 각확률중 가장 높은 과일로 정해버리는 하드 클로스터링이 있다.
예를 들면 위와 같은 바구니안에서 오렌지가 나올확률이 60퍼센트나 되므로 여기서 과일을 꺼내면 오렌지! 라고 정하는 방식이다.
※오늘의 튜터님 팁
모델링에 익숙해지기 전까지 sklearn의 공식 문서를 보면서 익히는게 좋다.
머신러닝 심화강의에 머신러닝 빌드업강의.. 머신러닝 특강.. 하루종일 머신러닝 머신러닝 머신러닝🤢🤮
죽을 것 같다. 배우는 단계라 코드가 눈에 들어오지도 않는데, 새로 배우는 개념이 너무많아 정리하는데만 시간이 꼬박 걸린다. 금요일 프로젝트 전에는 다 익히고 싶은데.. 가능할까? 😱