# labelencoder

제로베이스 데이터취업스쿨 DAY52 머신러닝5~8
결정나무에서는 이런 전처리는 의미를 가지지 않는다. 주로 Cost Function을 최적화할 때 유효화할 때가 있다.  FacetGrid grid = sns.FacetGrid(titanic, row="pclass", col="sex", height=4, aspect=2) grid.map(plt.hist, "age", alpha=0.8, bins=20) grid.add_legend(); plotly.express import plotly.express as px fig = px.histogram(titanic, x="age") fig.show(); cut pd.cut(titanic["age"], bins=[0,7,15,30,60,100], include_lowest=True, labels=["baby", "teen", "young", "adult", "old"]) _3장 12

Decision Tree(Feat. Titanic)
해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다 타이타닉 생존자분석 개요 영화의 마지막 장면에 판자에 위즐렛을 남겨놓고 죽은 디카프리오에 대해서 말이 많았다 판자 위에 같이 있었다면 죽지 않을 것이라는 말이 있었다 데이터분석을 통해서 디카프리오가 생존할 수 있었는지 예측해보자 목표 디카프리오 생존율 예측하기 절차 1. 데이터 이해 2. 생존율 분석 3. 타이타닉의 진실 4. DecisionTree 활용 5. 주인공 생존율 예측 타이타닉 데이터 가져오기 1) 데이터 이해 칼럼 확인 pclass : 객실등급 survived : 생존유무 sex : 성별 age : 나이 sibsp : 형제
데이터 인코딩
컴퓨터에서 인코딩이란 컴퓨터에서 연산이 가능하도록 범주형자료,명목형자료와 같은 변수를 0또는 1 로 인코딩하여 머신러닝 알고리즘에서 사용가능하도록 데이터를 변환하는 것 사이킷런 머신러닝 알고리즘은 문자열 값을 입력 값으로 허용하지 않습니다. 그러므로 문자열 값들을 숫자 형으로 변환하는 인코딩 작업이 필요합니다. 머신러닝에서의 인코딩 방식을 대표적으로 레이블 인코딩, 원-핫 인코딩 두 가지가 있습니다. 각각의 인코딩 방식에 대해 공부해 보겠습니다 레이블 인코딩 레이블 인코딩은 데이터프레임의 열을 숫자값으로 변환하는 방법입니다. 인코딩 변환값: [0 1 4 5 3 3 2 2] 인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터'] 디코딩 원본 값: ['TV' '냉장고' '전자렌지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서'] classes_ : 0번부터 순서대로 어떤 문자열이 변환된 것인지 보여줍니다. inverse_tra