💡왜도
Positive Skewness는 오른쪽 꼬리가 왼쪽보다 더 길 때를 의미하고 평균(Mean)과 중위수(Median)가 최빈값(Mode)보다 크는 것을 의미
Negative Skewness 왼쪽 꼬리가 오른쪽보다 더 길 때를 의미하고 평균(Mean)과 중위수(Median)가 최빈값(Mode)보다 작는 것을 의미
🤔왜도, 첨도의 정확한 수치까지 알아야 할까?
💡결측치
결측치가 많다고 삭제하는 것이 무조건 나은 방법은 아님
이상치, 특이값을 찾는다면 오히려 신호가 될 수 있음
범주형 값이라면 결측치가 많더라도 채우지 않고 인코딩하면 나머지 없는 값은 0으로 채움. 대신 희소 행렬이 생성됨
수치 데이터인데 결측치라면 잘못 채웠을 때 오해할 수 있으니 주의
💡상관관계, 수치형 변수 대체
💡log 변환
🤔plt.show()
를 사용하면 가끔씩 그래프가 중복되서 나오는 이유?
plt.show()
를 했을 때 주피터 버전에 따라 중복 출력이 될 수도 있는데 이때는 plt.show()
를 지우고 사용💡squared features (Polynomials)
sklearn.PolynomialFeatures
를 사용해도 되지만 직접 제곱해도 됨💡범주형 변수 살펴보기
💡정리 - 수치형 변수 전처리
💡정리 - 범주형 변수 전처리
💡선형회귀
선형회귀 : 종속변수 y와 한 개 이상의 독립변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법
선형 예측 함수를 사용해 회귀식 모델링, 알려지지 않은 파라미터는 데이터로부터 추정
다른 모델들에 비해 단순, 빠름
조정할 파라미터가 적음
이상치 영향을 크게 받음
데이터가 수치형 변수로만 이루어진 경우, 경향성이 뚜렷한 경우 사용하기 좋음
선형회귀의 단점을 보완한 Lasso
, Ridge
, ElasticNet
과 같은 모델들이 있음
💡데이터 살펴보기
회사 보안상 이슈 문제 등으로 익명화된 데이터를 제공하기도 함
변수를 살펴보고 변별력이 없는 변수(단일한 값만 가지고 있는 변수)를 삭제
기술통계를 구했을 때 수치데이터가 너무 많다면 heatmap으로 시각화해서 볼수도 있음
sns.heatmap(train.select_dtypes(include=np.number).drop(columns="y"), cmap="Blues")
SQL 용량이 너무 크다면 데이터 파일형태로 추출해서 파이썬으로 분석하는 형태로 진행하기도 함
네카라는 옛말…개발자가 뽑는 '진짜' 신의 직장은 '몰두센'
https://n.news.naver.com/article/009/0004952030
JD의 GCP(Google Cloud Platform), AWS, MS Azure, ELK(Elasticsearch, Logstash, Kibana) 는 클라우드 제품군 이름으로 해당 제품군을 사용하는 회사라고 보면 됨
ETL
전통적으로 다양한 데이터를 추출(E)해서, 원하는 형식으로 변환(T)하여, 저장(L)하는 기술
ELT
ETL과 달리 데이터를 추출(E)한 이후에 변환없이 그대로 저장(L)한 후 원하는 방식으로 변환(T)하는 방식
ETL vs ELT : 최근 트렌드 변화
https://blog.naver.com/freepsw/222276087707
클라우드 머신러닝 플랫폼 선택 기준 12가지
https://www.itworld.co.kr/news/160710