[딥러닝] 용어 정리

Ethan·2023년 3월 19일
0

딥러닝 이론

목록 보기
1/7

본 글은 ML/DL을 공부하며 각 분야에서 사용하는 용어를 정리한 글입니다.
잘못된 부분이 있다면 언제든지 꼭 댓글 남겨주세요.

  • last updated: 2023/04/23

머신러닝 & 딥러닝

  • Inductive Bias 귀납편향
    : 모델이 데이터에 대해 가진 설계적 편향(데이터에 대한 임의의 가정)을 의미합니다.

  • Information Bottleneck
    : 입력 데이터에서 가장 중요한 정보들을 추출하는 방법 중 하나입니다. 정보이론에서 효율적인 정보 전달을 위해 나온 개념으로, 데이터를 압축하는 과정에서 데이터 손실을 최소화하고 가장 필요한 정보를 남기는 기법입니다. PCA, 오토인코더 등을 통해 구현할 수 있으며, 이를 활용한 대표적인 모델로 VAE, InfoGAN 등이 있습니다.

  • Synthetic data
    : 자연 발생한 데이터가 아닌, 인공적으로 만들어진 데이터를 말합니다. 예를 들어 어떠한 시뮬레이션을 통해 얻어낸 데이터는 synthetic data입니다. synthetic data는 주로 자연적인 데이터를 수집하기 어렵거나, 다양성이 충분히 확보되지 않을 때 이를 보완하기 위해 사용합니다. 예시로, 자율주행 학습을 위한 시뮬레이션 데이터를 만드는 것 등이 있습니다.

컴퓨터비전

  • Saliency
    : 주어진 데이터 내에서 중요한 부분을 말합니다. Saliency Objective Detection 등의 task에서 중요한 개념입니다. 비전 분야 뿐 아니라 XAI 등에도 활용됩니다.

자연어처리

추천시스템

  • Unconfoundedness Assumption
    : 주어진 데이터가 외부 요인의 영향을 받지 않고, 사용자의 행동과 선호에만 영향을 받았다는 가정입니다. 주로 추천시스템에서 인과추론을 위한 조건으로 사용됩니다.

  • Unbiased Uniform Data
    : user-item interaction data가 무작위로 선택되고 분포가 고른(uniformly) 데이터를 말합니다. 즉, 특정한 편향이 없고 모든 user/item에 대해 동일한 조건을 가정한 데이터입니다. 현실적으로 이런 데이터를 구하기는 쉽지 않기 때문에, 이러한 조건을 가정하고 데이터를 다루거나 직접 데이터를 만들기도 합니다.

  • Missing Not At Random (MNAR)
    : 통계에서 사용하는 결측치(MCAR, MAR, MNAR)의 일종입니다. 누락된 데이터가 누락되지 않은 데이터와 연관이 있는 경우를 MNAR이라 합니다. 누락된 데이터의 패턴이 전체 데이터에 영향을 끼칠 가능성이 있기 때문에 모델링할 때 주의해야 하지만, 실제로는 MAR인지 MNAR인지 쉽게 구별하기 어렵습니다. 주로 unbiased learning, debias learning에서 중요하게 고려하는 요소입니다.

SNN

profile
재미있게 살고 싶은 대학원생

0개의 댓글