Logistic Regression
분류?? 회귀?? 악성 종양을 찾는 문제

Linear Regression을 분류 문제에 적용할 수 있을까?

Linear Regression으로는 분류하는 게 적용하기 힘들듯 하다

모델 재설정

Logistic Function - 간단히 확인

Hypothesis 함수의 결과에 따른 분류

분류 문제용 hypothesis

Decision Boundary 1

Decision Boundary 2

Cost Function은 어떻게?

Logistic Regression에서 Cost Function을 재정의

Learning 알고리즘은 동일

Logistic Reg. Cost Function의 그래프

와인데이터를 이용한 실습
와인 데이터 불러오기

맛 등급 추가

간단 로지스틱 회귀 테스트

스케일러까지 적용해서 파이프라인 구축

AUC 그래프를 이용한 모델간 비교 (Decision Tree 와 Logistic Regression)

PIMA 인디언 당뇨병 예측
PIMA 인디언 문제?

PIMA 인디언 당뇨병 문제

본래 강가에서 수렵하던 가난한 소수 인디언
(사진은 PIMA 인디언과 무관한 예시 자료)

이 중, 미국 쪽 PIMA 인디언은 미국 정부에 의해 강제 이주 후 식량을 배급 받음

데이터 원본 (Kaggle)

PinkWink’s GitHub에 보관 중인 데이터 사용

Data의 컬럼의 의미

데이터 읽기&확인

float으로 데이터 변환

상관관계 확인

결측치 처리
결측치는 데이터에 따라 그 정의가 다르다. 지금은 0이라는 숫자가 혈압에 있다는 것은 확실히 문제가 된다.
⤷ 의학적 지식과 PIMA 인디언에 대한 정보가 없으므로 일단 평균값으로 대체

Pipeline을 만들고 몇몇 수치를 확인
그러나 상대적 의미를 가질 수 없어서 이 수치 자체를 평가할 수는 없다.

다변수 방정식의 각 계수 값을 확인

중요한 feature에 대해 차트 생성
• 포도당, BMI 등은 당뇨에 영향을 미치는 정도가 높다.
• 혈압은 예측에 부정적 영향을 준다.
• 연령이 BMI보다 츨력 변수와 더 관련되어 있었지만, 모델은 BMI와 Glucose에 더 의존함.
