12주차 마지막 날
3주만 더 있으면 방학이고, 방학이 끝나면 3학년 2학기이고 연말이라 시간이 빠르게 갈 것
대학교때 배워야 하는 건 케어에서 벗어나 스스로 찾아가고 책임을 지고 하는 것 아닐까
24시간 중에서 일을 몇시간 하는지
주어진 시간 내 반 정도는 일하면서 보냄
반 이라는 시간 동안 어떤 일을 하면서 보낼지.. 가 중요
하고싶은 일을 찾고 보람된 일을 찾아야!
답을 구하는 건 없음 부딪히는 것!
ex. 와인과 같이 데이터 셋 안에 답이 있는 경우
어떤 독립변수에 대해서는 연비, 와인 등급이 얼마야~
x1, x2, x3가 들어갔을때 y가 뭔지에 대한 값이 있었음
이에 따른 추세선을 그림
비지도학습
강화학습
분류(classification) 분석: 참, 거짓 등과 같이 두 가지 중 하나를 선택
클래스를 나누는 여러가지 방법 => 오늘은 회귀분석
선형을 배웠으나 로지스틱(2가지로 나눔) 회귀를 쓴다.
로지스틱 회귀 => 분류 분석을 위함
추세선을 구한 후 결과 값을 예측하자
선형 회귀의 경우 정답이랑 예측값 사이 편차를 구했음
=> 차이를 구한 후 제곱 하고 제곱근을 함~
차이를 보는 것이 아닌, 맞는지 아닌지 확인
오차 행렬
을 사용
로지스틱 회귀를 하는 이유는 분류 분석을 위함이다.
내가 만든 시스템의 예측정확도를 제시해줘야
1. 정밀도
2. 재현율
3. F1 스코어
실제 네거티브한 값 중 네거티브를 찾는 비율?
재현율 => 실제 posivite 한 값 중 positive를 찾는 비율
기준을 낮게 잡으면 다 암이라고 응답, 높게 잡으면 다 암이 아니라고 응답
목표: 스마트폰으로 수집한 센서 데이터를 분석해 사람의 움직임에 대한 분류 모델을 생성하고 새로운 데이터에 대한 움직임 유형을 예측해 분류한다.
핵심 개념: 결정트리, 정보 이득 지수, 지니 계수, Graphviz 패키지
데이터 준비: 센서데이터인 UCI Machine Learning Repository에서 다운로드
class가 여러개 일 경우 어떻게 분류?
데이터셋이 어떤 거지?
볼 필요가 있음
스마트폰안에는 imu라는 센서가 있음
imu => 3개의 가속도 센서, 3개의 자이로스코프(각 가속도 측정), 3개의 마그네틱 센서가 있음(지구 중력가속도 측정=9.8)
스마트폰을 기울였을 경우 x,y,z축에서 축의 변화가 있을 것
걸었을때, 움직였을 때 각이 변하는 속도
자기장 => 실내, 실외 변화 있음
서있을때, 걸을때, 앉을 때의 값이 변하는데 변하는 값의 최대, 최소, 평균을 구해서 모아논 데이터셋임
해당 데이터셋 다운로드 링크
https://archive.ics.uci.edu/ml/machine-learning-databases/00240/
결정을 위한 트리임
독립변수 feature 자체에 날개,털의 여부,날 수 있는지의 여부
class_label 자체가 다람쥐, 나무늘보 등의 데이터가 있을 것
how to make 트리?
엔트로피라는 개념이 나온다.
바구니안에 노란색 공, 빨간색 공이 막 섞여있을 경우 혼잡도가 높아지므로 엔트로피가 높아짐
날개가 있는지 만을 가지고 훈련 데이터를 분류함.
트리가 깊어지고 feature가 많아질수록 훈련 데이터를 가를 수 있음
train_set가지고 예상문제를 외웠을 경우, 새로운 유형의 문제에서는 틀릴 가능성이 있기에, 너무 깊이 들어가지 않게끔(오버피팅되지 않게끔) 한계를 설정함
그러나 결정 트리는 잘 안쓰고 Ramdom Forest를 잘 사용함
트리를 여러개 만들어서
feature 개수가 100개 있다고 가정.
(100개의 feature 중 random하게 70개만 골라 tree만듦) * n번
=> 다양한 종류의 트리가 나올 것
random forest의 경우 학습하는데 시간이 오래 걸리되, 학습의 결과가 정확도가 높을 것