Day47

김재현·2023년 7월 26일

JUPYTER/DL/ML

목록 보기

24/73

선형회귀분석에서 분설을 할 때 Note[2] numerical problems가 발생한다면 다시 실행 : 문제가 있다는 의미

파이썬은 객체와 구조가 일반 프로그래밍 언어와 다르기 때문에 웹/앱 프로그래밍에는 적합하지 않음.

자료구조 알고리즘 : 스택과 큐를 확실히 인지

__init__ : 객체를 만들고 자동으로 생성되게하는 생성자. class에서 init 변수를 설정하면 vscode의 getter setter가 자동으로 정의해줌

주성분 분석의 정확도를 높이기 위해서는 표준화(데이터 정규화) 필수

표준화 : 각 특성들의 단위를 무시하고 값으로 단순 비교할 수 있게 변경

독립변수만 뽑은 DF를 주로 x_train이라고 명명
표준화는 StandardScaler를 사용해 진행

pca_df는 원본 데이터가 아닌 새로운 값으로 변수와 데이터가 무엇을 의미하는지 모르기 때문에 바로 분석에 사용할 수 없다.

컴퓨터의 소숫점 처리 : GPU
컴퓨터의 랜덤값 처리 : CPU

명목형 변수 표준화
회귀분석에서의 명목형 변수(회귀분석에서 영향을 미치지 않음).
회귀분석은 서열척도(수치형) 데이터만 들어감.
명목형 변수가 들어갈 경우 통제요인으로 추가한다. 단, 무조건 넣는것이 아닌 가설검정(t-test 검정, 분산분석)이 통과 되었을 때 통제 요인으로 추가가 가능.
즉, 각 카테고리로 나누었을 때 카테고리의 평균이 유의미한 값을 가질 경우에만 통제요인으로 삽입 가능.

머신러닝 : 종속변수, 독립변수 DF을 나눈다.
통계 : 종속/독립변수 DF을 나눌 필요 없음.

주성분 분석 : 종속변수에 영향을 크게 미치는 요소를 찾기 해 특정 변수의 value를 역순으로 정렬 후 시각화한 경우 급하강 직전 변수를 취한다(보통 70~80% 지점까지의 변수를 취함) - 여기서는 설명력(R-squared 값)이 다소 떨어짐

예측값 생성을 위해 독립변수를 할당
명목형 변수 확인을 위해 unique 또는 value_counts 사용
ols_result 전 set(list(std_df.index))를 사용해 index의 값들을 확인