멋쟁이 사자처럼 AI스쿨 7기, 박조은 강사님 강의
RFM 기법에서도 종종 사용되는 방법으로 비즈니스 분석에서 다룰 예정이다..cat.codes -> Ordinal Encoding 방식 : 순서가 있는 명목형 데이터에 사용. ex) 1분기 ,2분기, 3분기, 4분기
get_dummies -> One-hot-encoding 방식 : 순서가 없는 명목형 데이터. 좋아하는 음료, 주류의 종류 등
예를들어 iris 꽃의 품종이 3가지인데, 이 값을 label로 지정할 때 예전 사이킷런에서는 꼭 인코딩 해줘야만 동작이 되었다.
버전이 업데이트 되면서 범주값을 그대로 입력해도 잘 동작한다.
딥러닝 등에 사용할 때 label 값을 인코딩해주어야 하는데, 그 때도 사이킷런을 함께 사용하기도 한다.
Q. LabelEncoder, OrdinalEncoder의 입력값의 차이?
LabelEncoder 입력이 1차원 y 값, OrdinalEncoder 입력이 2차원 X 값
X 독립변수, 시험의 문제, 2차원 array 형태, 학습할 피처
y 종속변수, 레이블, target, 정답, 시험의 답안, 1차원 벡터
💡 label_name = " " 1차원 y 값 / feature_names = [" ", " ", " "] 2차원 array X값 으로 이해하니 쉽게 이해가 되었다!
0401번 실습 파일에 X, y 가 설명되어 있다.
딥러닝에서는 x를 보통 소문자로 사용하는데, 아마도 추측하기로는 x에 꼭 2차원만 들어가는게 아니라서로 보여진다. 2차원 이상도 들어간다. ex) 이미지
Q. 인코더 3가지의 공통점은 ? 범주형 데이터를 수치형 데이터로
test에는 fit을 해주지 않는 것에 주의min_frequency 기능도 추가. 기타 값에 대해 따로 전처리 해주지 않아도 기타로 처리해 준다.관심표현 : 2016년 DAU가 300만. 요즘 DAU가 어느 정도 되는지?
AB테스트 : 오바마 대통령 투표 버튼 색을 빨간색, 파란색/ 버튼의 높이
Q. SQL로 관리하는 데이터와 파일로 관리하는 데이터는 어떻게 구분해서 관리할까?
"데이터를 통해 서비스에 몇 명이 접속하는지, 그분들이 얼마나 많은 상품을 조회하고 얼만큼 구매로 이어지는지 확인할 수 있거든요. 그 과정을 통해 어느 페이지에서 사람들이 이탈하는지도 확인할 수 있었죠."
10/10문제
X는 feature, 독립변수, 2차원 array 형태, 학습할 피처, 예) 시험의 문제