
비율척도에는 절대0을 포함하는 값이 들어감

r제곱값의 경우 adjust 된 값은 과적합을 방지하기 위해 쓸데없는 변수가 많으면 페널티를 줌
왜냐면 단순히 변수가 많으면 r제곱값은 높아지기 때문.
밑 p-value를 보면 상당히 낮은 값이고 이는 0.5보다 적기에 2번 설명은 맞는다.
그리고 3번이 답인 이유는 r제곱값은 speed 변수의 변동성을 설명한게 아니라 speed 라는 변수 자체의 설명력이 아니라 dist 라는 종속변수를 설명하는 값이기 때문이다. 애초에 speed와 dist의 관계를 증명하려한거지 speed 자체가 설명력이 있냐를 판단하려 한것이 아니기 때문이다.

엔트로피(Entropy)는 정보 이론에서 사용되는 개념으로, 주로 데이터의 불확실성이나 불규칙성을 측정하는 데 사용됩니다. 기계 학습 모형의 성과 평가에 직접적으로 사용되는 도구는 아닙니다.
반면, 결정계수(①), 실루엣 지수(②), ROC 그래프(④)는 모두 모형 성과 평가에 사용되는 대표적인 방법입니다.
각 항목 설명:
결정계수 (R²): 주로 회귀 분석에서 모델이 데이터를 얼마나 잘 설명하는지를 평가하는 지표입니다.
실루엣 지수: 군집화 알고리즘의 성과를 평가하는 지표로, 각 데이터 포인트가 잘 클러스터되었는지를 평가합니다.
엔트로피(Entropy): 주로 정보 이론에서 불확실성의 정도를 측정하는 데 사용되며, 분류 모델에서는 교차 엔트로피 손실과 같은 형태로 간접적으로 사용될 수 있지만, 직접적인 성과 평가 지표로는 사용되지 않습니다.
ROC 그래프: 이진 분류 모델의 성능을 평가하는 데 사용되며, True Positive Rate와 False Positive Rate를 비교합니다.

일단 디지털화 됐다가 통합됐다가 서로 분리되어 연결되는 추세

phase 안에 task안에 step임
input,output으로 구성된건 step임
step은 작업단위를 쪼갤 수 있는 마지막 계층이고 WBS의 워크 패키지에 해당됨

성숙한 사람은 날씨의 영향을 안받으니 오히려 비조아
분석 성숙도:비즈니스/조직및역량/IT부문(비조아)
준비도의 경우 중국화 준비도에 기여한 인물이 이번엔 기업을 중국화하려고 기업인을 한다고 떠올리면 된다. 문데인기업인
분석 준비도:문화/데이터/기법/인프라/업무/인력미조직

이미 문제를 정의하고 내려오는거라 문제탐색이 우선되지는 않음



지도학습: 로지스틱회귀, 신경망모형,의사결정나무
비지도학습: 군집분석,SOM,연관분석
또한 의사결정나무는 하향식

시계열 데이터의 정상성(Stationarity)
데이터의 통계적 특성(평균, 분산, 자기공분산 등)이 시간에 따라 변하지 않는다는 것을 의미한다. 데이터가 시간에 따라 일정한 패턴을 유지
비정상성 : 시간에 따라 통계적 특성이 변화


퍼셉트론은 인공신경망과 관련있다.

오즈(odds)
로지스틱 회귀분석에서는 회귀계수는 해당 변수 1증가함에 따른 오즈(odds)의 변화량을 의미

부스팅은 일반적 개념인데 반해 AdaBoost는 알고리즘이다. 틀린부분을 보완한다는 부분은 비슷하나, 부스팅의 경우 모델끼리의 연결을 중요시하고 그래서 앞 모델이 놓친 걸 뒷사람이 보완하는 릴레이 학습느낌이면, AdaBoost의 경우는 틀린 부분을 중점적으로 다음 모델이 가중치를 크게 두고 푸는 차이가 있다.
모든 데이터를 알고 있으면 모분산
두 변수가 함께 어떻게 변하는지를 알려면 공분산
결과가 y or n 처럼 둘 중 하나일 때, 그 발생활률을 예측해서 분류하는 통계 분석 방법
확률이 0.5이상이면 1 아니면 0으로 예측 여기서 쓰이는게 시그모이드 함수