Deep Learning of Representations: Looking Forward

김동하·2023년 12월 11일

paper_review

목록 보기

3/11

https://arxiv.org/abs/1305.0445

핵심 요약

딥 러닝 알고리즘을 훨씬 더 큰 모델과 데이터 세트로 확장하고, 잘못된 컨디셔닝 또는 로컬 최소값으로 인한 최적화의 어려움을 줄입니다.
보다 효율적이고 강력한 추론 및 샘플링 절차를 설계하고 관찰된 데이터의 기저에 있는 변동 요소를 분리하는 방법을 학습합니다.
또한 이러한 과제를 극복하기위한 몇 가지 미래 지향적 인 연구 방향을 제안합니다.

1. Background on Deep Learning

딥 러닝은 기계 학습 연구 커뮤니티에서 새롭게 부상하는 접근 방식입니다. 그들은 컴퓨터 비전 및 자연어 처리와 같은 여러 전통적인 AI 응용 프로그램에서 중요한 경험적 성공을 거두었습니다.
많은 Machine learning 방법의 성능은 적용되는 데이터 표현(Representation)또는 Feature의 선택에 따라 크게 달라집니다. 이러한 이유로 Machine learning 알고리즘을 배포하는 실제 노력의 대부분은 효과적인 기계 학습을 지원할 수 있는 데이터의 수작업 표현을 생성하는 전처리 파이프라인 설계에 사용됩니다. 이러한 Feature 엔지니어링은 중요하지만 많은 기존 학습 알고리즘의 약점, 즉 데이터에서 차별적인 정보를 추출하고 구성할 수 없다는 점을 강조합니다.
Feature 엔지니어링은 인간의 독창성과 사전 지식을 활용하여 이러한 약점을 보완하는 방법입니다. 기계 학습의 범위와 적용 용이성을 확장하려면 학습 알고리즘을 Feature 엔지니어링에 덜 의존하도록 하여 새로운 애플리케이션을 더 빠르게 구축하고 작성자가 인공 지능(AI)으로 발전할 수 있도록 하는 것이 중요합니다.
Representation 학습 알고리즘은 설명 요소(factor) 또는 특징(feature)을 발견합니다. 딥러닝 알고리즘은 데이터의 보다 추상적인 측면을 나타내는 상위 레벨의 feature를 사용하여 여러 레벨의 표현을 발견하는 특정 종류의 Representation 학습 절차입니다. 처음에는 더 깊은 Representation을 얻기 위해 비지도 Representation 학습 알고리즘을 쌓는 데 중점을 두었습니다.
전이 학습(Transfer learning)은 통계적 강점을 공유하고 Task 간에 Knowledge를 전달하기 위해 서로 다른 학습 Task 간의 공통점을 활용하는 학습 알고리즘의 기능입니다.

2. Quick Overview of Deep Learning Algorithms

모든 딥 러닝 방법론의 중심 개념은 이미지, 비디오 및 오디오 신호와 같은 원시 데이터 보다 추상적인 표현(representation) 즉 데이터의 의미론적인 내용이 더 유용하다는 믿음과 함께 자동화 된 추상화의 발견입니다. 딥러닝 알고리즘은 여러 레벨의 표현을 학습하는 속성을 가진 표현 학습의 특별한 케이스입니다.

2.1. Deep Supervised Nets, Convolutional Nets, Dropout

적절한 초기화를 통해 Deep Supervised Nets를 훈련 할 수 있으며, 그래디언트가 잘 흐르고 유용한 정보를 전달하기에 충분하다는 것을 발견하였습니다. Deep Nets에 대한 순전히 Supervised learning을 통한 이러한 좋은 결과는 대량의 레이블이 지정된 데이터를 사용할 수 있을 때 특히 명확 해 보이며 음성 인식에 큰 성공을 거두었습니다.
딥 러닝을 음성, 이미지 및 자연어 처리에 성공적으로 적용하기 위한 핵심 요소 중 하나가 컨볼 루션 아키텍처의 사용입니다. 컨벌루션 레이어과 풀링 레이어를 번갈아 가며 사용합니다. 컨벌루션 네트워크의 히든 계층에 있는 단위는 공간적 또는 시간적 위치와 연관되며 원시 입력 값의 특정 윈도우에 있는 값에만 의존합니다. 또한 컨볼루션 레이어의 유닛는 서로 다른 위치에 있는 동일한 타입의 다른 유닛과 매개 변수를 공유하는 반면 각 위치에서 서로 다른 타입의 유닛을 모두 찾습니다.
풀링 레이어의 유닛는 하위 레이어에서 유닛의 출력을 집계(aggregation)하여 서로 다른 인근의 공간 위치 또는 서로 다른 유닛 타입에 대해 집계합니다.
객체 인식 분야에서 성공에 대한 또 다른 핵심 요소는 드롭아웃에 대한 아이디어입니다. 히든 유닛의 너무 강한 공동 적응을 방지하는 확률적으로 꺼진(마스킹된) 경우에도 유용하게 feature를 계산해야 합니다. 매개 변수를 공유하는 기하 급수적으로 많은 수의 모델 (다른 마스킹 패턴, 즉 전체 네트워크의 하위 집합에 해당)에 대한 강력한 regularizer처럼 작동합니다.

2.2. Unsupervised or Supervised Layer-wise Pre-Training

딥 러닝 연구의 주요 결과 중 하나는 비선형성의 심층구성이 초기화에 매우 민감할 수 있다는 것입니다. 즉 일부 초기화는 학습 후 훨씬 더 좋거나 훨씬 더 나쁜 결과를 초래할 수 있다는 것입니다. 민감도를 줄이는 데 유용한 것으로 밝혀진 첫 번째 접근 방식은 greedy layer-wise pre-training을 기반으로 합니다.

아이디어는 하위 레이어(맨 위)에서 시작하여 한 번에 하나의 레이어를 학습하여 현재 추가된 레이어에 대한 명확한 학습 목표가 있도록 하는 것입니다(일반적으로 여러 비선형성 레이어을 통해 오류 그래디언트를 역전파를 할 필요가 없음). 비지도 사전 학습을 사용하면 각 레이어가 이전 계층의 출력으로 생성된 값의 분포를 모델링하도록 훈련됩니다. 다시 말하지만, 더 깊은 레이어에 대한 입력으로 재사용할 수 있는 새 표현을 얻습니다.

2.3. Directed and Undirected Graphical Models with Anonymous Latent Variables

Anonymous Latent Variables은 미리 정의된 해석 가능한 개념의 관점에서 미리 정의된 의미 체계가 없는 잠재 변수입니다. 대신 컴퓨터가 데이터에 존재하는 기본 설명 요소를 발견하는 수단으로 사용됩니다. 익명이 아닌 잠재 변수는 정의하기에 충분한 사전 지식이 있을 때 매우 유용할 수 있지만, 익명 잠재 변수는 복잡한 확률적 구조를 발견하도록 하는 데 매우 유용하다고 생각합니다.

섹션 3은 방향성(Direct) 또는 무방향성(Undirect) 그래픽 모델을 기반으로 한 표현 학습 절차를 검토합니다. 섹션 2.5에서는 희소 코딩에 대해 자세히 설명합니다.

명심해야 할 중요한 점은 Directed Graphical Model은 후반부를 계산할 때 서로 다른 요소가 서로 경쟁하는 경향이 있다는 것입니다. 불행히도 특별한 경우를 제외하고 이로 인해 계산 비용이 많이 드는 추론이 발생합니다.

2.4. Regularized Auto-Encoders

오토 인코더는 학습 기준에 다음과 같은 재구성 오류의 형태를 포함합니다.

$||r(x)-x||^{2}$
$r(\cdot)$ : 학습된 재구성 함수, 다음과 같이 $r(x)=g(f(x))$ 분해 됨.
$f(\cdot)$ : 인코딩 함수, $g(\cdot)$ : 디코딩 함수

아이디어는 오토 인코더가 학습에서 재구성 오류가 적어야 하지만 입력의 다른 대부분의 구성에서 재구성 오류가 높아야 한다는 것입니다. 오토 인코더는 단순히 ID 기능을 학습하지 못하도록 정규화해야 합니다. 정규화 된 오토 인코더에는 입력보다 히든 유닛이 적은 오래된 bottleneck 오토 인코더(PCA)와 디노이즈 오토 인코더가 있습니다. 재구성 오류의 최소화와 정규화기(regularizer) 사이의 줄다리기는 중간 표현이 학습을 구별하는 데 필요한 변형, 즉 데이터 생성 분포가 집중되는 매니폴드(저차원 영역)의 변형 방향을 대부분 캡처해야 함을 의미합니다.

정규화 된 오토 인코더에 확률론적 해석을 부여하고 암시적으로 학습된 Dense 모델에서 샘플링하는 데 사용할 수 있습니다. 정규화된 오토 인코더에 대한 확률적 해석이 있지만 이 해석에는 중간 익명 잠재 변수의 정의가 포함되지 않습니다. 대신, 입력을 즉시 매핑하는 인코딩 함수의 구성을 기반으로 합니다. 결과적으로, 추론에서 다루기 쉬운 문제는 단일 레이어 오토 인코더를 적층하여 얻은 딥 오토 인코더를 사용하더라도 문제가 없습니다.

2.5. parse Coding and PSD

희소 코딩은 변수와 잠재 변수 사이의 선형 관계를 갖는 특정 종류의 방향성 그래픽 모델입니다. 희소 코딩은 실제로 생성 모델로는 그다지 좋지 않지만 Unsupervised Feature learning에는 성공적이었습니다. 하지만 희소 코딩은 RBM 및 희소 오토 인코더보다 더 나은 학습 알고리즘은 아닌 것으로 보여집니다. 또한 희소 코딩은 스파이크와 슬래브 희소 코딩 알고리즘으로 일반화 될 수 있습니다.
희소 코딩에 대한 또 다른 흥미로운 변형은 예측 스파스 코딩(PSD) 알고리즘과 희소 코딩과 오토 인코더의 속성을 결합한 변형입니다. 희소 코딩은 매개변수(parametric) "생성" 디코더(잠재 변수 값을 변수 값에 매핑)와 비모수(non-parametic) 인코더(재구성 오류를 최소화하고 잠재 변수의 로그 우선 순위를 빼는 잠재 변수 값 찾기)만 있는 것으로 볼 수 있습니다. PSD는 매개변수 인코더를 추가하고 생성 모델과 공동으로 학습하여 매개변수 인코더의 출력이 입력을 잘 재구성하는 잠재 변수 값에 가깝도록 합니다.

3. Scaling Computations

3.1. Scaling Computations: The Challenge

지난 몇 년 동안 딥 러닝은 숫자에서 자연 이미지의 객체 인식으로 이동했으며 ImageNet 데이터 세트에서 SOTA를 달성하였습니다. 28x28 그레이 레벨 MNIST 이미지에서 256x256 RGB 이미지로 스케일링을 달성하기 위해 연구자들은 컨벌루션 아키텍처를 활용했습니다. 그리고 그 풀링 유닛은 더 낮은 레이어에서 더 높은 레이어로 이동할 때 공간 해상도를 줄입니다. 또한 GPU 기술을 활용하여 1~2배의 계산 속도를 높였습니다. GPU, 멀티코어 머신 및 클러스터에서 볼 수 있는 것과 같은 병렬 처리를 통해 컴퓨팅 성능은 계속 증가할 것입니다 . 잠재적으로 거대한 모델을 처리 할 수 있도록 허용합니다.

3.2. Scaling Computations: Solution Paths

Parallel Updates: Asynchronous SGD
- 비동기식 SGD의 모델은 여러 버전을 병렬로 훈련하고 각각 다른 노드에서 실행하고 데이터의 다른 하위 집합을 확인하지만 서로 다른 노드를 유지하는 비동기식 잠금 없는 공유 메커니즘을 사용합니다. 동기식은 대부분의 노드가 공유가 완료될 때까지 시간을 보내고 가장 느린 노드를 기다리기 때문에 너무 비효율적입니다.
Sparse Updates
- 여기서 제안하는 한 가지 아이디어는 Sparse update를 얻기 위해 학습 알고리즘을 변경하는 것입니다. 업데이트의 희소성 양이 크면 노드 간에 교환해야 하는 매개변수가 훨씬 적습니다. 그라디언트가 매우 희소 한 경우 Sparse update를 얻을 수 있습니다. 이 그래디언트 희소성은 신경망에서 경로를 선택하는 접근 방식에서 발생할 수 있습니다. 이러한 방법은 충분한 희소성을 제공하지 않지만 두 가지 방법으로 이를 달성할 수 있습니다. 우선 그래디언트 벡터의 가장 큰 요소에만 주의를 기울이도록 선택할 수 있습니다. 그리고 제안 된 라인을 따라 아키텍처를 변경할 수 있습니다.
Conditional Computation
- 우리가 제안한 중심 아이디어는 조건부 계산의 아이디어입니다. 경로를 독립적으로 무작위로 삭제하는 대신 학습되고 최적화된 방식으로 삭제합니다. 높은 수준의 조건부 계산에서는 일부 매개변수는 자주 사용되는 반면 다른 매개변수는 매우 드물게 사용되므로 추정하는 데 더 많은 데이터가 필요합니다. 따라서 각 매개변수로 들어가는 학습 신호의 양에 따라 트레이드 오프 및 적절한 정규화가 설정되어야 합니다. 흥미롭게도, 조건부 계산은 희박한 그래디언트를 달성하는 데 도움이 되며 조건부 계산의 부수적인 이점이 더 쉽고 빠른 최적화라는 증거를 제공합니다.

4. Optimization

4.1. Optimization: The Challenge

점점 더 큰 데이터 세트를 고려할 때 학습 오류와 일반화 오류가 수렴됩니다. 또한 딥 러닝에 대한 실험 결과의 많은 증거는 딥 네트워크 학습에 어려운 최적화가 포함됨을 나타냅니다. 로컬 최소값으로 인한 어려움과 불량 조건으로 인한 어려움은 아직 명확하지 않습니다. 또한 더 나은 최적화는 스케일링 계산에 영향을 미칠 수도 있습니다.

4.2. Optimization: Solution Paths

Diminishing Returns with Larger Networks
- 더 큰 모델이 근본적으로 훈련하기 더 어려울 수 있습니다. 아마도 매개변수 사이에 더 많은 2차 상호작용이 있어 Hessian 행렬의 조건 수가 증가하기 때문일 것입니다. 딥 러닝을 위한 교육 및 최적화 절차의 확장 동작을 개선하기 위해 다양한 방법의 효과를 측정하는 유용한 지표를 제공할 수 있습니다.
Changing the learning procedure and the architecture
- 단일 딥 네트워크의 기본 최적화 난이도와 관련하여 세 가지 유형 솔루션을 고려해야 합니다.
  - 향상된 범용 최적화 알고리즘
    - adaptive learning rates
    - online natural gradient
    - large-minibatch second order methods
  - 아키텍처 변경(changing) 또는 출력이 생성되는 방식
    - 전처리, 학습 목표 및 아키텍처의 변경
    - 경사 하강법
  - 딥 지도(supervised) 네트워크를 위한 정류기(rectifier) 비선형성을 활용
- 딥 네트워크의 학습 난이도를 이해하고 줄이는 데 유용한 관련 개념을 훈련 신호(역전파 기울기)가 집중된 방식으로 흐르도록 하는 것이 중요합니다.

5. Inference and Sampling

추론과 관련된 과제는 샘플링이며, 잠재 변수가 있는 확률 모델, 에너지 기반 모델 또는 Markov Random Fields(무방향 그래픽 모델)에서 정규화된 지수가 확률을 제공하는 매개변수화 된 에너지 함수 $P(x)$ 또는 $(h,x)$ 로 정의됩니다.

5.1. Inference and Sampling: The Challenge

이러한 모든 추론 및 샘플링 기술과 관련된 몇 가지 과제가 있습니다. 첫 번째 과제는 실용적이고 계산적인 것이고 이들 모두 학스 속도를 상당히 늦출 수 있는 반복적인 절차입니다.

Potential Huge Number of Modes
- 추론 및 샘플링에 대한 현재 알려진 모든 접근 방식은 관심 분포 및 형식에 대해 매우 강력한 명시적 또는 암시적 가정을 하고 있습니다. 예를 들어 모호한 속성 또는 카테고리를 가진 여러 개체의 존재를 포함하여 매우 모호한 원시 입력 장면의 많은 변수를 나타내 보겠습니다. 예를 들어 사람 5 명의 모호한 이진 속성 20 개의 옷차림 방식을 선택하고 100 사이의 각 요소(데이터 베이스 10000명)에 대한 카테고리 선택을 합니다. 그리고 인수 분해할 수 없다고 가정합니다. 하나의 옷을 입는 것을 결정해야 하는 경우, $P(y|x)=\sum_hP(y|h)P(h|x)$ 이고, $h$ 는 충분한 원시 입력 장면의 변수를 나타냅니다. 명백한 복잡성에도 불구하고 계산할 수 있고 예제를 통해 배울 수 있는 다루기 쉬운 함수가 있다고 가정합니다.
Mixing Between Modes
- manifold hypothesis는 데이터에 존재하는 자연 클래스(예: 시각적 개체 범주)가 분포가 집중되는 저차원 영역17(즉, 매니폴드(manifolds))과 연관되어 있으며 다른 클래스 매니폴드는 밀도가 매우 낮은 영역으로 잘 분리되어 있음을 나타냅니다. 여기서 모드라고 생각하는 것은 단일 점 이상일 수 있으며 전체(저차원) 매니폴드 일 수 있습니다. 모드 간의 느린 혼합은 연속 샘플이 상관되는 경향이 있고(동일한 모드에 속함) 한 모드에서 다른 모드로 이동하는 데 매우 많은 연속 샘플링 단계가 필요하고 모든 모드를 커버하는 데 훨씬 더 많은 수의 샘플링 단계가 필요함을 의미합니다.

5.2. Inference and Sampling: Solution Paths

믹싱이 더 쉬운 공간으로 이동
- 높은 수준의 계층: 더 깊은 표현 수준에서 모드 간의 혼합이 더 쉽습니다. 이것은 높은 수준의 표현 공간에서 실행한 다음 원시 입력 공간에서 다시 투영하여 해당 수준에서 샘플을 얻음으로써 달성 됩니다.
근사 추론 학습 및 풍부한 사후 예측
- 잠재(latent) 변수의 실제 값을 얻는 아이디어를 고수한다면, 유망한 경로는 대략적인 추론 학습, 즉 학습된 근사 추론 메커니즘을 최적화하여 수행합니다. 학습된 근사 추론은 예측 희소 코딩(PSD) 알고리즘에서도 중요합니다.
- 확률적 그래픽 모델의 전통적인 관점은 모델링(모델 정의), 최적화(매개변수 조정), 추론 및 샘플링 사이의 명확한 구분을 기반으로 합니다. 이 모듈화는 분명한 장점이 있지만 차선책일 수 있습니다. 학습을 추론으로 가져오고 근사 추론과 "생성 모델" 자체를 함께 학습함으로써 일반적인 목적보다 훨씬 더 효율적이고 정확할 수 있는 추론 메커니즘을 얻을 수 있습니다. 학습된 근사 추론의 아이디어는 추론과 관련하여 순전히 계산적인 문제를 처리하는 데 도움이 될 수 있습니다. 즉, 어느 정도 추론 속도를 높이는 데 도움이 될 수 있지만 일반적으로 근사 추론 매개변수는 모델 매개변수와 별도로 유지합니다.
필요한 주변화를 수행하는 방법을 학습하여 추론을 완전히 피함
- 잠재 변수가 있는 확률 모델에 관한 전통적인 생각에서 훨씬 더 급진적인 출발을 고려할 것을 논문은 제안합니다. 사후를 포착하기 위한 조건부 RBM과 같은 마지막 제안에서도 실제로 결정이나 예측을 내려야 할 때 최적의 의사 결정을 위해 잠재 변수를 무시하는 것이 필요하다는 관찰에 의해 동기가 부여됩니다.
- 문제를 해결하기 위해 잠재 변수의 실제 값을 샘플링, 열거 또는 나타내는 것을 피함으로써 명시적 추론을 완전히 피할 것을 논문은 제안합니다. 남은 유일한 근사 오차는 함수 근사로 인한 것입니다. 이는 근사 추론과 함수 근사의 합성이 매우 해로울 수 있기 때문에 중요할 수 있습니다. $Q_{\theta=f(x)}(h)$ 에 제안한 바와 같이 매개 변수 $\theta=f(x)$ 를 사용합니다. 그런 다음 직접 이동하는 대신 처리하기 어려운 합을 근사하고 건너뛰는 대략적인 결정 모델을 학습하는 것을 상상할 수 있습니다.
- 잠재 변수의 많은 구성을 명시적으로 거칠 필요 없이 확률 모델의 이점을 얻을 것을 논문은 제안합니다. 학습하는 동안 관찰된 각 하위 집합에 대해 중요한 요구 사항은 의 모든 선택에 대한 모든 예측을 모델링하는 데 동일한 매개변수가 사용된다는 것입니다. 이를 위해 모델 매개변수를 최대화에 해당하는 학습에 매핑하는 계산을 지정할 수 있습니다.
- 근사 추론은 더 이상 다른 것에 대한 근사가 아니라 모델 자체의 정의입니다. 이것은 대략적인 추론이 좋지 않을 수 있다는 문제를 제거하기 때문에 실제로 좋은 소식입니다. 우리가 걱정해야 할 유일한 것은 생성하는 매개 변수화 된 계산 그래프가 알 수 없는 데이터 생성 분포를 캡처하기에 충분히 풍부한지(또는 과적합 될 수 있는지), 그리고 매개변수를 최적화하는 것이 쉬운지 어려운지 여부입니다. 이러한 경우 학습된 근사 추론에 사용되는 "템플릿"에 동기를 부여하는 잠재 변수가 있지만 여기서 제안하는 것은 이러한 잠재 변수를 실제 잠재 요인으로 생각하는 것을 중단하는 것입니다.
- 조건부 RBM이 이미 연구되었지만 정규화 된 자동 인코더가 부트가 하는 조건부 분포는 여전히 연구해야 합니다.
- 요약하면, 여기서 제안하는 것은 근사 추론에 대한 이전 작업과 달리 학습된 근사 추론 메커니즘이 실제로 잠재 변수 분포, 모드 또는 예상 값을 근사한다는 주장을 삭제하는 것입니다. 대신 관찰된 변수에 대한 대략적인 추론만 고려하고 이 메커니즘 자체가 일부 근사가 아닌 모델이라고 생각하고 훈련합니다. 잠재 변수에 대한 대략적인 주변화 해석을 제거함으로써 우리는 강한 제약에서 벗어나 모든 질문/답변 하위 집합에서 매개변수를 공유할 수 있어야 한다는 요구 사항이 있는 매개 변수화 된 계산을 하게 됩니다.

6. Disentangling

6.1. Disentangling: The Challenge

이미지는 하나 이상의 광원, 개체 모양 및 이미지에 있는 다양한 표면의 재료 속성 간의 상호 작용으로 구성됩니다. 불변의 피처 학습과 설명 요소를 분리하는 학습이 관련되지만 별개의 목표를 구별하는 것이 중요합니다. 핵심적인 차이점은 정보의 보존입니다. 불변 기능은 정의에 따라 불변 방향으로 민감도가 감소했습니다. 이것은 당면한 작업에 도움이 되지 않는 데이터의 변동에 둔감한 피처를 구축하는 목표입니다.
딥 러닝 방법의 맥락에서 자주 발생하는 것처럼 학습되는 피처(feature) 세트는 관련 피처의 고유한 하위 집합을 가질 수 있는 여러 작업에서 사용될 수 있습니다. 이와 같은 고려 사항은 피처 학습에 대한 가장 강력한 접근 방식이 가능한 한 많은 요소를 분리하고 데이터에 대한 정보를 최대한 적게 폐기하는 것이라는 결론에 도달합니다.
근본적인 변동 요인을 훨씬 더 잘 풀 수 있는 딥 러닝 알고리즘은 엄청난 영향을 미칠 것입니다. 예를 들어, 기본 요소가 학습된 표현의 간단한 변환, 이상적으로는 표현의 몇 가지 요소에만 의존하는 변환에서 "추측"될 수 있다고 가정합니다. 그것이 근본적인 요인을 풀어주는 표현으로 우리가 의미하는 것입니다. 지도 학습이 이러한 선형 요소를 빠르게 학습하고 관련 있는 표현 부분을 확대할 수 있기 때문에 새로운 지도 학습을 훨씬 쉽게 할 수 있습니다.

6.2. Disentangling: Solution Paths

더 깊은 representation이 더 잘 풀림
- sparse convolutional RBM과 sparse denoising auto-encoder가 히든 유닛에서 입력보다 더 큰 분리 정도를 달성한다는 실험이 있습니다. 여기서 발견한 것은 일부 히든 유닛이 알려진 변동 요인에 특히 민감한 반면 다른 히든 유닛에는 다소 둔감하다는 것입니다.
- 또 다른 실험에서는 더 깊은 표현이 모드 간 빠른 혼합에 더 적합한 것으로 경험적으로 발견되었습니다.
- 일부 표현 알고리즘이 더 얽히지 않은 표현으로 이동하는 경향이 있는 이유에 대한 명확한 이해가 아직 없으며 이것이 충분하지 않다는 것을 시사하는 다른 실험적 관찰이 있습니다. 현재 알고리즘의 변형이 결국 작업에서 성공할 수도 있고 완전히 다른 비지도 학습 알고리즘이 필요할 수도 있습니다.
Disentangling Factors of Variation에 대한 Generic Priors
- generic priors list
  - Smoothnes: 학습 되는 **function $f$ 를 s.t. $x\approx y$ 로 가정하면 일반적으로 $f(x)\approx f(y)$ 를 의미합니다. **
  - Multiple explanatory factors: 데이터 생성 분포는 다양한 기본 요인에 의해 생성되며, 대부분 한 요인에 대해 학습한 내용은 다른 요인의 많은 구성에서 일반화됩니다. 목표는 이러한 기본 변동 요인을 복구하거나 최소한 풀어주는 것입니다. 이 가정은 분산 표현의 개념 뒤에 있습니다.
  - A hierarchical organization of explanatory factors: 계층 구조에서 더 추상적인 개념은 더 높고 덜 추상적인 개념으로 정의됩니다. 이 가정은 깊은 표현으로 활용됩니다.
  - Semi-supervised learning: 머신러닝의 한 범주로 목표 값이 표시된 데이터와 표시되지 않은 데이터를 모두 훈련에 사용하는 것을 말합니다.
  - Shared factors across tasks: 일반적으로 많은 학습 작업이 있는 경우 Task는 다른 Task와 공유되는 요인으로 설명되므로 Task 간에 통계적 강점을 공유할 수 있습니다.
  - Manifolds: 국소적으로 유클리드 공간으로 간주할 수 있는 위상 공간. 확률 질량은 데이터가 있는 원래 공간보다 차원이 훨씬 작은 영역 근처에 집중됩니다. 이것은 정규화 된 자동 인코더 알고리즘으로 이용되지만 정수 방향에서 질량 집중을 찾고 있다는 것을 명시적으로 고려하는 학습 기준이 개발되어야 합니다.
  - Natural clustering: object 클래스와 같은 카테고리 변수의 다른 값은 별도의 매니폴드와 연결됩니다.
  - Temporal and spatial coherence: 자연 클러스터링 가정과 유사하지만 관측 시퀀스와 관련이 있습니다. 연속 또는 공간적으로 가까운 관측은 서로 쉽게 예측할 수 있는 경향이 있습니다. 이는 시간 척도에 따라 서로 다른 요인을 서로 다른 범주로 분류하는 데 이용될 수 있습니다.
  - Sparsity: 표현 측면에서 이는 종종 0인 특징 또는 더 일반적으로 대부분의 추출된 특징의 작은 변화에 둔감하다는 사실로 나타낼 수 있습니다.
  - Simplicity of Factor Dependencies: 상위 수준 표현에서 요소는 단순하고 일반적으로 선형 종속성을 통해 서로 관련됩니다.

7. Conclusion

딥 러닝과 보다 일반적으로 표현 학습은 머신 러닝에서 최근 몇 년간 의 연구를 통해 이러한 알고리즘의 성능이 인간의 성능에 근접하는 데 있어 몇 가지 주요 과제를 확인할 수 있었습니다. 이러한 과제를 ‘scaling computations’, ‘매개변수 최적화의 어려움 감소’, ‘비용이 많이 드는 추론 및 샘플링 설계’, ‘알려지지 않은 변동 요인을 더 잘 풀어주는 표현 학습 지원’ 네 가지 주요 영역으로 분류했습니다. 이러한 모든 문제를 해결하기 위한 많은 경로를 탐색할 여지가 있으며, 논문에서는 이러한 문제에 대한 몇 가지 매력적인 연구 방향을 제시하였습니다.

김동하

이전 포스트

Dropout: a simple way to prevent neural networks from overfitting

다음 포스트