기술 예시 : 얼굴 인식 카메라, 화질 개선, 이미지 자동 태깅
컴퓨터는 이미지를 각 픽셀 값을 가진 숫자 배열로 인식
이미지 전처리
가로 세로 픽셀 사이즈를 표현하는 해상도 통일
색을 표현하는 방식 통일(RGV, HSV, Gray-scale 등)
기존 다층 퍼셉트론 기반 신경망의 이미지 처리 방식
합성곱 신경망(Convolution Neural network)
Stride : 필터를 이동시키는 거리 설정
Padding : 원본 이미지의 상하좌우에 한 줄 씩 추가해서 모서리에 위치한 의미있는 값을 영향력있게 만듦
(CNN + Pooling) + (FC + AF)
Convolution Layer 와 Pooling Layer : 특징을 추출 (Pooling Layer : noise를 줄인다)
Fully-Connected Layer + Activate Function : 분류Pooling Layer를 처리할 때마다 이미지의 크기가 크게 줄어들기 때문에 Layer 수가 많아져도 빠른 학습이 가능하다.
예시 : 기계 번역 모델 ex)papago..., 음성 인식
자연어 처리 과정
1. 자연어 전 처리 2. Word Embedding 3. Modeling
자연어 전 처리 방법
Word Embedding : Bag of Words에서 부여된 index로 정의된 토큰에 의미를 부여하는 방식, 단어의 특징을 나타내기 위해 사용
기존 MLP 모델의 한계 :2차원 data > n*1꼴의 1차원으로 바꾸어서 input. 이 과정에서 vector 내의 특징이 사라지고, 문장들 간의 관계 역시 무너지게 된다. >>RNN모델의 등장
퍼셉트론과 비슷하게 작동 (input 데이터를 받아 Y를 출력 ), input data는 embedding data가 벡터 형태로 입력
출력 값을 두 갈래로 나뉘어 신경망에게 '기억'하는 기능을 부여, 다음 input data 입력시 이전 데이터가 함께 고려되며 학습
- 최종 데이터는 Fully connected layer를 통해 판단
Summary
- Embedding : 자연어 전처리를 통해 정리된 데이터의 특징을 추출
- RNN : 앞서 사용된 토큰에 대한 y값을 다음 training에 함께 고려하여 학습
- Activation function : 최종 데이터 처리 후 label 출력