선형회귀분석에서 분설을 할 때 Note[2] numerical problems가 발생한다면 다시 실행 : 문제가 있다는 의미
파이썬은 객체와 구조가 일반 프로그래밍 언어와 다르기 때문에 웹/앱 프로그래밍에는 적합하지 않음.
자료구조 알고리즘 : 스택과 큐를 확실히 인지
__init__ : 객체를 만들고 자동으로 생성되게하는 생성자. class에서 init 변수를 설정하면 vscode의 getter setter가 자동으로 정의해줌
주성분 분석의 정확도를 높이기 위해서는 표준화(데이터 정규화) 필수
표준화 : 각 특성들의 단위를 무시하고 값으로 단순 비교할 수 있게 변경
독립변수만 뽑은 DF를 주로 x_train이라고 명명
표준화는 StandardScaler를 사용해 진행
pca_df는 원본 데이터가 아닌 새로운 값으로 변수와 데이터가 무엇을 의미하는지 모르기 때문에 바로 분석에 사용할 수 없다.
컴퓨터의 소숫점 처리 : GPU
컴퓨터의 랜덤값 처리 : CPU
머신러닝 : 종속변수, 독립변수 DF을 나눈다.
통계 : 종속/독립변수 DF을 나눌 필요 없음.
주성분 분석 : 종속변수에 영향을 크게 미치는 요소를 찾기 해 특정 변수의 value를 역순으로 정렬 후 시각화한 경우 급하강 직전 변수를 취한다(보통 70~80% 지점까지의 변수를 취함) - 여기서는 설명력(R-squared 값)이 다소 떨어짐
예측값 생성을 위해 독립변수를 할당
명목형 변수 확인을 위해 unique 또는 value_counts 사용
ols_result 전 set(list(std_df.index))를 사용해 index의 값들을 확인