[AI : Data representation and problem solving] Representation learning

이한량·2025년 4월 26일

AI data representation and problem solving

목록 보기

1/18

Representation

인류는 기호 체계의 발전 덕분에 고도화된 결과물을 만들어낼 수 있었다.

즉, 인류의 역사와 기호의 발전은 밀접한 연관이 있다.

인간은 기호를 활용하여 현실 세계를 표현한다.

반면 기계(컴퓨터)는 인간이 현실 세계를 표현하는 방법을 온전히 이해할 수 없다.

즉, 인간은 현실 세계의 표현(기호)을 컴퓨터에게 전달하기 위한 새로운 표현 방법을 사용해야 한다.

(Tranditional) 인간의 직관을 활용하여 정보를 표현

(For AI) 기계가 스스로 정보를 이끌어내도록 맡기는 방법

두 번째 방식은 대량의 데이터를 기계에게 제공하고, 기계 스스로가 데이터 내에서 설명 가능한 특징을 발견하여 이를 숫자로 변환하도록 하는 방식이다.

위와 같은 방식은 데이터 중심 표현이라고 한다.

Representation Learning

표현 학습이란, 인간이 제공한 데이터로부터 핵심 정보를 추출하고 데이터의 표현 방법을 기계 스스로 배워나가는 과정이다.

우리는 사다리 이미지의 일부가 지워지더라도 사다리 이미지를 원본으로 복원할 수 있다.

이는 우리가 사다리에 대한 본질(정보)을 이미 알고 있기 때문에 가능한 일이다.

기계에게 사다리를 인식시키려면 어떻게 해야할까?

기계에게는 직관이 존재하지 않으므로, 사다리를 '기호화'하여 기계에게 전달
이는 인간이 정의한 기호에 따른 사다리의 정의이다.
이러한 정의에 맞지 않는 새로운 형태의 사다리가 존재한다면 기계는 이를 사다리로 인식하지 못할 것이다.

위와 같은 방식은 과거의 사전적 정의에 의존하는 방식이다.

다음 방식에 대해 살펴보자.

1억 장의 모든 사다리 이미지를 고의로 훼손
기계(컴퓨터)에게 모든 훼손된 이미지를 원본 이미지로 복원하도록 시킴
이 Task를 성공적으로 수행하도록 반복

잘 학습된 기계는 손상된 사다리 이미지를 원본 이미지로 잘 복원할 수 있을 것이다.

위에서 우리는 사다리에 대한 본질을 알고 있기 때문에 복원할 수 있다고 말하였다.

그렇다면, 기계가 사다리의 본질에 대해 이해하고 있다고 볼 수 있지 않을까?

이 과정을 일반화시켜 우리가 기계에게 세상의 모든 데이터를 전달하여 학습시킬 수 있다면, 그 기계는 세상을 표현하는 방법을 배웠다고 볼 수 있지 않을까?

이는 '표현 학습'의 핵심 아이디어이다.

Human vs Representation learning

인간의 방식

전문가들이 사과의 특징(색깔, 모양, ... 등 구체적인 속성)을 기반으로 데이터를 분류하여 저장한다.

인간은 위와 같은 데이터를 읽고 쉽게 이해할 수 있다.

대표적인 예시로 MS Excel과 같은 도구를 떠올려보자.

인간의 표현 방식 핵심을 직관적으로 이해할 수 있을 것이다.

이런 방식을 데이터 프레임이라고도 하며, 많은 DB와 검색 엔진은 이 구조를 기반으로 설계된다.

표현 학습

기계는 사과를 이해하기 위해 숫자(벡터)로 표현한다.

이 벡터는 인간이 직관적으로 이해하기 어렵지만, 기계에게는 매우 의미 있는 정보들이 포함되어 있다.

표현 학습 기반 데이터 표현법은 더이상 현실 세계의 Symbol에 의지하지 않도록 한다.

또 하나의 예시로 고양이를 살펴보자.

우리가 사용할 수 있는 10만 개의 어휘가 있다고 가정할 때, '고양이'라는 단어가 4번째에 위치한다고 생각해보자.

(One-hot encoding) 우리는 고양이를 $[0, 0, 0, 1, 0, 0, ...]$ 과 같은 형태로 표현하여 기계로 전달한다. 따라서 고양이를 표현하기 위해 10만 개의 차원이 필요하게 된다.

반면 표현 학습 방식에서는 상대적으로 훨씬 적은 차원(예를 들면 100차원)으로 고양이를 표현할 수 있다.

이 방식은 고양이의 정보가 여러 차원에 걸쳐 분산되어 있기 때문에 '분산 표현(Distributed representation)'이라고도 부른다.

표현 학습 방식은 정보를 효율적으로 압축하여 표현하지만, 정보가 넓게 퍼져 분포하므로 인간이 데이터를 통해 원래 의미를 해석하기 어렵다.

Latent Variable

잠재 변수는 '숨겨져 있는 변수'라는 의미를 가지며, 주로 $h$ 로 표현된다.

잠재 변수는 실제로 존재하지 않는 가상의 값으로, 직접 측정할 수 없고, 데이터를 통해 간접적으로 추론하거나 추측해야 얻을 수 있는 값이다.

예를 들면, $h$ 를 통해 '하늘의 상태'와 같은 개념을 표현할 수 있다.

$h$ 는 이론적으로 무한대의 가능한 값들이 존재하므로, 이를 얻기 위해 가능성의 범위를 좁혀야 한다.

Approach 1

$x$ 의 변화 추이에 따라 $h$ 도 유사하게 변화하도록 수학적으로 연결

$x$ 는 실제 세계의 관측 데이터이기 때문에 구체적인 범위를 갖는다.
$h$ 의 공간도 이에 맞게 제한된 범위를 갖게 된다.

주의해야 할 점은, $h$ 가 $x$ 변화에 따라 움직인다는 사실만으로는 인과 관계를 확정지을 수 없다는 것이다.

따라서 이러한 불확실성을 줄이기 위해 데이터 포인트의 수를 증가시켜야 한다.

예를 들어 10개였던 데이터 포인터를 100개, 1000개로 늘린다면, $x$ 와 $h$ 사이의 일관된 패턴을 발견할 수 있을 것이다.

Approach 2

구조적 연관성을 더해 잠재 변수 $h$ 의 가능한 공간을 더욱 좁힘

추가적인 관측 데이터 $y$ 를 $h$ 와 구조적으로 연결
가능한 $h$ 의 범위는 더욱 좁아짐

위와 같은 방식으로 $h$ 와 관련된 다양한 관측 가능 변수들을 활용해 네트워크 아키텍처를 구성한다면, $h$ 를 효과적으로 추론할 수 있을 것이다.

결론적으로 다음과 같이 정리할 수 있다.

대량의 데이터를 활용해 $x$ 와 $h$ 사이의 관계를 명확히 파악
구조적 연관성을 확고히 하기 위해 $h$ 와 연관된 여러 관측 가능한 변수들을 이용

Representation Learning in DNN

표현 학습이 인공 신경망에서 활용되는 예시를 과일 인식기를 통해 살펴보자.

과일 인식기는 과일 이미지를 입력으로 받아 어떤 과일인지 인식하고 이름을 출력하는 것을 목표로 한다.

과일 인식기에 전달되는 데이터는 두 가지

사과, 배, 체리, 바나나에 대한 5,000 장의 이미지
이미지별 각 과일 이름의 라벨

과일 인식기는 다음과 같은 과정을 거친다.

이미지 입력 : $x$
중간 어떠한 과정을 거치고 : $h$
과일 이름이 출력 : $y$

입력을 통해 들어온 이미지는 관측 가능한 변수 $x$ 로 인코딩 되고, 잠재 변수 $h$ 와 연결되며, 출력 $y$ 를 만들어내야 할 것이다.

위 과정을 단순화 하면 다음과 같은 구조를 형성할 것이다.

잠재 변수 $h$ 는 여러 층을 거치며 표현될 수도 있다.

Represnetation Shift

우리는 Representation Learning이 시사하는 점을 주의 깊게 살펴보아야 한다.

Traditinal Approach

사물의 특징(Feature)을 사람이 만든 규칙(프로그래밍)에 따라 추출
이 특징들은 사람이 읽고 쓸 수 있는 데이터
이러한 특징들을 기계나 알고리즘에 활용

전통적 방식의 특징 추출기는 특징 추출 알고리즘을 배우거나, 전문가를 고용하거나 하는 방식으로 복제가 가능하다.

Modern/Future Approach

사물의 특징을 잘 학습된 파라미터가 추출
추출된 특징들은 숫자(벡터)의 집합으로 표현
이러한 특징들을 기계나 알고리즘에 활용

좋은 특징 Converter를 보유하는 것은 이후 의사결정에 매우 좋은 재료를 제공한다. 앞 단에서 제공하는 재료(데이터)의 질이 좋지 않으면 뒷 단의 AI 모델(알고리즘)이 아무리 좋더라도 제대로 동작하지 않는다. 따라서 이러한 양질의 Converter는 각 조직의 핵심 경쟁력이 되므로 쉽게 공개되지 않는다.

이한량

한량 극복 프로젝트

다음 포스트

[AI : Data representation and problem solving] Representation learning