12주차 마지막 날
3주만 더 있으면 방학이고, 방학이 끝나면 3학년 2학기이고 연말이라 시간이 빠르게 갈 것

대학교때 배워야 하는 건 케어에서 벗어나 스스로 찾아가고 책임을 지고 하는 것 아닐까

24시간 중에서 일을 몇시간 하는지
주어진 시간 내 반 정도는 일하면서 보냄
반 이라는 시간 동안 어떤 일을 하면서 보낼지.. 가 중요

하고싶은 일을 찾고 보람된 일을 찾아야!

답을 구하는 건 없음 부딪히는 것!

머신러닝 학습법

  1. 지도학습
    문제은행 같이 문제가 주어지고 해답을 알고있는 경우 학습

ex. 와인과 같이 데이터 셋 안에 답이 있는 경우
어떤 독립변수에 대해서는 연비, 와인 등급이 얼마야~

x1, x2, x3가 들어갔을때 y가 뭔지에 대한 값이 있었음

이에 따른 추세선을 그림

  1. 비지도학습

  2. 강화학습

분류(classification) 분석: 참, 거짓 등과 같이 두 가지 중 하나를 선택

클래스를 나누는 여러가지 방법 => 오늘은 회귀분석
선형을 배웠으나 로지스틱(2가지로 나눔) 회귀를 쓴다.

로지스틱 회귀 => 분류 분석을 위함

추세선을 구한 후 결과 값을 예측하자

선형 회귀의 경우 정답이랑 예측값 사이 편차를 구했음
=> 차이를 구한 후 제곱 하고 제곱근을 함~

차이를 보는 것이 아닌, 맞는지 아닌지 확인

오차 행렬을 사용

로지스틱 회귀를 하는 이유는 분류 분석을 위함이다.

내가 만든 시스템의 예측정확도를 제시해줘야
1. 정밀도
2. 재현율
3. F1 스코어

실제 네거티브한 값 중 네거티브를 찾는 비율?
재현율 => 실제 posivite 한 값 중 positive를 찾는 비율

기준을 낮게 잡으면 다 암이라고 응답, 높게 잡으면 다 암이 아니라고 응답

결정 트리 분석

분석미리보기

목표: 스마트폰으로 수집한 센서 데이터를 분석해 사람의 움직임에 대한 분류 모델을 생성하고 새로운 데이터에 대한 움직임 유형을 예측해 분류한다.

핵심 개념: 결정트리, 정보 이득 지수, 지니 계수, Graphviz 패키지

데이터 준비: 센서데이터인 UCI Machine Learning Repository에서 다운로드

class가 여러개 일 경우 어떻게 분류?

데이터셋이 어떤 거지?
볼 필요가 있음

스마트폰안에는 imu라는 센서가 있음
imu => 3개의 가속도 센서, 3개의 자이로스코프(각 가속도 측정), 3개의 마그네틱 센서가 있음(지구 중력가속도 측정=9.8)
스마트폰을 기울였을 경우 x,y,z축에서 축의 변화가 있을 것
걸었을때, 움직였을 때 각이 변하는 속도

자기장 => 실내, 실외 변화 있음

서있을때, 걸을때, 앉을 때의 값이 변하는데 변하는 값의 최대, 최소, 평균을 구해서 모아논 데이터셋임

해당 데이터셋 다운로드 링크
https://archive.ics.uci.edu/ml/machine-learning-databases/00240/

결정을 위한 트리임

독립변수 feature 자체에 날개,털의 여부,날 수 있는지의 여부
class_label 자체가 다람쥐, 나무늘보 등의 데이터가 있을 것

how to make 트리?
엔트로피라는 개념이 나온다.
바구니안에 노란색 공, 빨간색 공이 막 섞여있을 경우 혼잡도가 높아지므로 엔트로피가 높아짐

날개가 있는지 만을 가지고 훈련 데이터를 분류함.
트리가 깊어지고 feature가 많아질수록 훈련 데이터를 가를 수 있음

train_set가지고 예상문제를 외웠을 경우, 새로운 유형의 문제에서는 틀릴 가능성이 있기에, 너무 깊이 들어가지 않게끔(오버피팅되지 않게끔) 한계를 설정함

그러나 결정 트리는 잘 안쓰고 Ramdom Forest를 잘 사용함

트리를 여러개 만들어서
feature 개수가 100개 있다고 가정.
(100개의 feature 중 random하게 70개만 골라 tree만듦) * n번

=> 다양한 종류의 트리가 나올 것

random forest의 경우 학습하는데 시간이 오래 걸리되, 학습의 결과가 정확도가 높을 것

profile
모든 건 zero 부터, 차근차근 헛둘헛둘

0개의 댓글

관련 채용 정보

Powered by GraphCDN, the GraphQL CDN