언어와 시각과 본질에 대한 고찰

파비야·2023년 2월 27일
0

메모

목록 보기
2/19

바닷가를 산책하다가 바위에 부딪혀 부서지는 파도를 봤다. 그 장면을 소설로 써야한다면 어떻게 써야할까 고민하다가, 그 묘사가 1초후의 파도와 어떻게 다른지 생각했다. 내 답은 언어가 두 순간을 완전히 표현할 수 없다는 거였다.

세상의 distribution을 언어가 완전히 담아낼 수 없다는 것이다. 언어는 세상의 분포의 하위 집합이며, latent subspace이며, embedding이다. 그렇기에 정보의 손실 있이 사물을 언어로 묘사할수 있지만, 손실없이 언어로부터 그 장면을 완벽히 재현하는 건 불가능하다. 언어는 필연적으로 정보가 부족하기 때문이다. 이게 gan이나 다른 최신 image generator들이 초기값으로 노이즈를 사용하는 이유다. 언어를 통해 세상의 분포를 추측할 순 있지만, 절편offset을 알순 없다. 언어에는 그것이 결여되어있기 때문이다. 그래서 언어를 통한 세상의 복원은 무한한 절편이 존재하므로 만들어질수있는 instance또한 무한하다. 그래서 명시적으로 랜덤한 노이즈를 초기값으로 설정하여 하나의 절편을 고정해준다.

언어는 세상을 포착하는 하나의 도구일 뿐이다. 그런 의미에서 시각 또한 동일하다. 우리가 보는 시각은 3차원을 파악하는게 아니라 2차원을 본다. 이는 시각이 세상의 distribution을 완전히 재현하는게 아니라 단지 일부만을 담아내는것에 불과하다는것이다. 언어와 같이 말이다.

언어가 세상의 latent vector라면 몇차원일까? 72? 256? 언어가 불완전한 것이라면 적당한 숫자의 차원으로 표현할 수 있을것이며, 그러므로 인공지능이 학습할 수 있을 것이다. 그러나 그건 의미론에 불과하다. 문법은, 언어사용의 형식은 어떻게 인공지능이 알수있을것인가?

이때 언어에서 세상을 복원하는 게 무한하듯이 시각에서 복원하는것 또한 무한하다. 그렇다면 언어축 직선과 시각직선이 교차하는 점이 본질일것이다. 단어와 사물의 생김새는 그 본질을 언어축과 시각축으로 project한 그림자에 불과하다.

물론 두 축만으로도 본질의 완전한 정보를 담아내긴 불가능하다. 시간축이 필요하다. 사건과 사물의 관계성에 대한 정보를 담아준다. 시간축을 포함한다해도 본질을 담아내긴 불충분할텐데, 세계의 정보는 무한하거나 그에 가깝게 많은데 각 축은 그게 관심있는 단편적인 정보만을 담아내고 다른축의 정보는 버리기 때문이다.

또 언어는 의미뿐 아니라 문법도 있다. 머신러닝이 사진을통해 학습하고 포착한건 의미론, 본질일 뿐이다. 문법은 시간축에, 사람들의 언어능력과 실사용에 대한 분포다. 하지만 시간축은 시각축 혹은 언어축에 직교하나? 세 축이 기저를 이룰수 있나?

또 본질은 벡터인가 행렬인가? 아무튼 그걸 transition matrix를 곱해 시각축이나 언어축이나 촉각축 따위로 투사할수 있을것이다. 시각이나 언어 외 다른 새로운 감각축이 존재한다해도 이 방식을 통해 기존과 충돌하지 않고 손쉽게 추가가능하다. 이때 본질에서 행렬을 곱해 그림자를 구할수있듯 그림자에서도 본질로 거슬러올라갈수 있어야할 것이다. 그러므로 투영행렬은 역행렬이 존재해야 할것이다.

문제는 여러 감각축의 정보를 하나의 본질으로 matching하는걸 어떻게 하느냐다. 비지도학습으로 이게 가능한가? 지도학습은 데이터셋의 한계도 존재할뿐더러 본질의 학습이 인위적인 데이터 분포에 의해 오염된다. 따라서 비지도로 하긴해야된다. 각 축에 대한 모델을 따로 학습한 후 둘을 결합해야하나?

그리고 언어모델이 포착하는게 사실 문법이 아니라면 음소,음절, 관사 따위는 어떻게?

언어학을 공부하면 사유에 발전이 있을 텐데 아는 게 없으니 잘 모르겠다.

profile
학과최약체

0개의 댓글