230404 [AI]

JUNHO YEOM·2023년 4월 4일
0

AI

목록 보기
2/4

Regression => ANN(Artificial Neural Network) => Deep Learning
회귀에 대해서 알아보고, ANN에 대해서 알아본 다음, Deep Learning으로 넘어갈 꺼에요


Regression


Linear Regression

선형 회귀

Logistic Regression

Sigmoid 사용 했어요, 이항 분류 문제에서 사용되는 통계적 기법

Logistic Regression 분류

Binary Classification: 이진 분류
Multinomial: 다항 분류

사실 Binary Classification인지 Multinomial인지를 구분하는 방법은 t를 보면 알 수 있어요
t의 종류가 2개 -> Binary Classification
t의 종류가 3개이상 -> Multinomial


Multinomial

𝑥₁(성적)𝑥₂(출석)𝑡
105A
95A
51B
42B
13C

A인지 아닌지, B인지 아닌지, C인지 아닌지
Sigmoid를 통해서 Binary Classification을 3번 하면 알 수 있을 것 같아요.
그럼 A, B, C의 각각의 확률값이 나오겠죠??
그런데, A+B+C를 더하면 1을 넘어갈 수 있어요
이것을 약간 변경해요

번호ABC확률
10.70.40.11.2
20.60.30.11.0

우리는 각각 구해서 확률이 100%가 넘는 1번의 확률에서
전체에 대한 확률로 변환시켜서 확률의 총 합이 100%가 되게하는
작업을 수행해야 하는데 이것을 할 수 있게 해주는 것이
SoftMax에요


Multinomial(다중분류)은

𝑡
A
A
B
B
C

ABC
100
100
010
010
001

t Data를 변형해서 바꿔주었어요
Class를 Column으로 주고 자신의 값에 대한 Label을 1로, 나머지를 0으로 변경했어요

One-hot Encoding 방식

원핫인코딩은 범주형 데이터를 수치형 데이터로 변환하여, 머신러닝 알고리즘이 이를 이해하고 처리할 수 있게 하기 위해서 수행합니다.

𝑡

|A
|A|
|B|
|B|
|C

결과

𝑥₁(성적)𝑥₂(출석)𝑡₁𝑡₂𝑡₃
105100
95100
51010
42010
13001

ABC
0.70.30.2
0.60.70.8
0.20.20.6
0.40.10.1
0.10.90.2


비정형 데이터

비정형 데이터를 사용해 보아요

비정형 데이터의 대표적인 예제: 이미지
비정형 데이터는 ML로는 한계가 있어요.
비정형 데이터를 가지고 예측 하려면 DL을 해야 해요.

MNIST

이미지 데이터셋을 이용한 다중분류 문제
사람이 손글씨로 숫자를 쓴 이미지

https://www.kaggle.com/competitions/digit-recognizer/data
Kaggle에서 Digit Recognizer의 Data를 다운 받았어요

기본적으로 이미지는 3차원 Data에요

픽셀 위치 x, y값, 색을 표현하는 RGB값

3차원 Data는 연산이 너무 많아서 힘들어요 ㅠㅠ
그래서 주로 흑백을 사용해요

gray scale로 표현해요. 크기를 줄이기 위해

현업에서도 RGB값을 빼버리고 흑백으로 만들어요
Data크기를 줄이기 위해서에요

784개의 pixel을 1차원으로 만들기 위해서 1열로 세워요
그림하나가 1차원이 되는 것이고,
그림들의 모임은 2차원이 되는 것이에요


데이터의 반복 횟수를 늘려서 정확도를 늘리고자 할 때 발생할 수 있는 문제가 있어요.
반복을 많이하면 우리가 가진 Data에 너무 잘 맞아 떨어지게 학습하여서 과적합이라는 현상이 발생해요

머신러닝 모델이 가진 가장 조심해야할 현상
오버 피팅 현상
과적합: 적합도가 과하다


Deep Learning의 두가지

Vision
NLP

0개의 댓글