레이블링 : 라벨을 붙이는 것, 즉 데이터의 정답을 표시
머신러닝 : 기계가 데이터에 대해 예측을 진행하고, 레이블(정답)으로 채점한 뒤 스스로 피드백을 진행하는 과정
에포크 : 주어진 훈련 데이터를 한바퀴 도는 것
인공지능 : 인간의 지능을 모방한 인공적인 지능
ex) 아이폰 시리나 구글 번역기같은 자연어처리, 전문 지식으로 진단하는 전문가 시스템, 카메라로 사물을 인식하고 분류하는 컴퓨터 비전
머신러닝 : 인공지능에 포함, '학습'을 통해 예측을 수행하는 모든 기계
딥러닝 : 머신러닝의 일종으로 신경망 구조로 학습하는 머신러닝, 순전파, 역전파의 과정을 거침
CNN(Convolutional neural network) : 합성곱 신경망
RNN(Recurrent neural network) : 순환 신경망
GAN(Generative adversarial network) : 데이터 생성에 활용
트랜스포머(Transformer) : 최근 높은 성능으로 많은 분야에서 연구되고 있음
예측하려는 값이 연속 값이면 회귀문제이며, 예측하려는 값이 이산 값이면 분류문제이다.
데이터에 레이블이 있다면 지도학습이고 데이터에 레이블이 없다면 비지도학습이다. 최근에는 반지도학습이라는 방법도 입지를 다지고 있다.
타겟 : 예측하고자 하는 변수
특성 : 타겟을 예측하는 데 사용되는 특징 변수들
가중치 : 특성이 타겟에 얼마나 영향을 미치는지에 대한 중요도
오차(error) : 데이터와 회귀직선 사이의 거리를 의미
error = 예측 y - 실제 y
비용(cost) : 오차 제곱 합
평균 제곱 오차(MSE, Mean Square Error) : 데이터 1개 당 평균 오차제곱합
-편향(bias)을 수식에 포함해 원점에서 해방될 수 있는 자유를 주기도 함
-최소제곱법(least square method)를 사용하여 예측직선을 찾을 수 있다.
은닉층 : 입력과 출력을 제외한 층들
노드들이 각각 비선형변환을 거치지 않는다면 아무리 깊게 층을 쌓더라도 효과 x
비선형 변환을 시켜주는 대표적인 비선형 함수(= 활성화 함수) : 시그모이드(sigmoid), ReLU
시그모이드 : 값이 큰 음수가 들어올 때 0에 매우 가까운 수를 반환하고, 0에 가까운 수가 들어올 때 0과 1의 중간인 0.5에 가까운 수를 반환하고, 값이 큰 양수가 들어올 때 1에 매우 가까운 수를 반환하는 것을 볼 수 있다. 일종의 스위치 역할을 하는 것
기울기 소실(gradient vanishing) : 시그모이드는 층이 더 쌓이고 깊어질 수록 기울기(gradient) 값이 0에 가까워지게 된다. 즉 신경망이 깊어질 때 학습이 잘 이루어지지 않는 현상이 발생하는 것
원-핫 인코딩(one-hot encoding) : 값끼리 비교할 수 없을 때 0과 1을 사용하여 나타내는 것
정규화(normalization, scaling) : 특성들의 범위를 비슷하게 맞춰주는 것, 표준편차 등의 통계치 활용
최적값(optimum) : 학습을 통해 도달하고자 하는 목적지, 최솟값(minimum)
학습률(learning rate) : 기울기에 작은 상수를 곱하는 것, 매 업데이트마다 학습을 얼마나 시킬지 결정함 - 하이퍼파라미터(hyperparameter) : 여러번 시도해 찾아내야하는 변수
경사하강법 : 편미분을 통해 간단하게 기울기를 계산하고 업데이트해 최솟값으로 나아가는 방식
지역 최솟값(local minimum) : 주변 지역에서는 최소이지만 전체에서는 최소가 아닌 부분
->지역 최솟값 문제를 해결하기 위해 가속도를 함께 나타나는 아담, 모멘텀 등의 옵티마이저를 사용한다.
업스케일링(up-scaling) : 연속된 은닉층의 노드 개수가 점점 많아지는 경우로 적은 특성들로부터 많은 특성들을 추출해내는 구조
다운스케일링(down-scaling) : 업스케일링과 반대
오토인코더(auto encoder) : 다운스케일링과 업스케일링 순서대로 연결한 것
순전파(forward propagation) : 데이터를 입력으로 받아서 예측을 출력하는 것
역전파(backpropagation) : 거꾸로 왼쪽으로 계산해가는 것, 피드백
연쇄 법칙(chain rule) : a-b 기울기 * b-c 기울기 = a-c 기울기
[참고 : 비전공자를 위한 딥러닝(윤준호)]