결측치 처리
train['Age'].fillna(0).describe()
train['Age'].fillna(train["Age"].mean()).describe()
Label Encoding
train['Sex'].value_counts()
from sklearn.preprocessing import LabelEncoder
LabelEncoder.fit_transform(train['Embarked'])
One Hot Encoding
drop: 열 삭제
dropna: 열단위 또는 행단위 삭제
# Size에 있는 결측치만 지우기
rent_df.dropna(subset = ['Size']) # 행단위로 지움
rent_df.dropna(1) # 열단위로 지움/ axis 축, na가 있는 열을 모두 삭제(BHK, Size 모두 삭제)
rent_df.drop("BHK", axis=1) #열 삭제
결측 데이터가 데이터에 비해 많이 적을 경우 삭제를 하는 것이 좋음
결측치에 데이터를 채우게 될 경우 boxplot을 확인하는 것이 좋음
Boxlot을 확인 후 mean보다는 median을 쓰는게 좋다고 결정
X = rent_df.drop('Rent', axis = 1) # Rent만 제외한 컬럼(독립변수) / 다차원일 경우 대문자
y = rent_df['Rent'] # Rent만 저장한 컬럼(종속변수) / 일차원일 경우 소문자
선형 회귀(Linear Regiression)
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)
pred = lr.predict(X_test)
평가 지표 만들기