SF작가 Ted Chiang의 ChatGPT Is a Blurry JPEG of the Web을 번역한 글 입니다. 모든 저작권은 원 작성자에게 있으며 문제가 생길 시 게시글을 내리겠습니다.
2013년 독일의 한 건설 회사 직원들은 Xerox 복사기에서 이상한 점을 발견했습니다. 집의 평면도를 복사할 때 복사본이 원본과 미묘하지만 중요한 방식으로 다르다는 것이었습니다. 원본 평면도에는 집의 세 방 각각에 면적이 표시된 직사각형이 붙어 있었는데, 방의 면적은 각각 14.13, 21.11, 17.42제곱미터였습니다. 그러나 사본에는 세 개의 방 모두 14.13제곱미터로 표시되어 있었습니다. 이 회사는 컴퓨터 과학자 David Kriesel에게 연락하여 이 믿을 수 없는 결과를 조사했습니다. 컴퓨터 과학자가 필요했던 이유는 최신 Xerox 복사기는 1960년대에 대중화된 physical xerographic 프로세스를 사용하지 않기 때문입니다. 대신 문서를 디지털 방식으로 스캔한 다음 결과 이미지 파일을 인쇄합니다. 거의 모든 디지털 이미지 파일이 공간을 절약하기 위해 압축된다는 사실과 결합하면 수수께끼에 대한 해결책이 제시되기 시작합니다.
파일을 압축하려면 먼저 파일을 더 압축된 형식으로 변환하는 인코딩 단계와 이 과정을 거꾸로 거치는 디코딩 단계가 필요합니다. 복원된 파일이 원본과 동일한 경우 압축 프로세스는 무손실 압축으로 설명되며, 어떤 정보도 버려지지 않습니다. 반대로 복원된 파일이 원본의 근사치에 불과한 경우 압축은 손실 압축으로 설명되며, 일부 정보가 삭제되어 복구할 수 없게 됩니다. 무손실 압축은 일반적으로 텍스트 파일과 컴퓨터 프로그램에 사용되는데, 이는 단 하나의 잘못된 문자라도 치명적인 결과를 초래할 수 있는 영역이기 때문입니다. 손실 압축은 절대적인 정확도가 중요하지 않은 사진, 오디오, 동영상에 주로 사용됩니다. 대부분의 경우 사진, 노래, 동영상이 완벽하게 재생되지 않는다고 해도 알아차리지 못합니다. 파일 압축률이 매우 높을 때만 화질 손실을 더 잘 느낄 수 있습니다. 이러한 경우 compression artifacts(압축 아티팩트)로 알려진 가장 작은 크기의 jpeg 및 mpeg 이미지의 흐릿함이나 낮은 비트 전송률 MP3의 작은 사운드를 발견할 수 있습니다.
Xerox 복사기는 흑백 이미지에 사용하도록 설계된 jbig2라는 손실 압축 형식을 사용합니다. 복사기는 공간을 절약하기 위해 이미지에서 유사하게 보이는 영역을 식별하여 모든 영역에 대해 하나의 복사본을 저장하고, 파일의 압축이 풀리면 해당 복사본을 반복적으로 사용하여 이미지를 재구성합니다. 복사기는 방의 면적을 지정하는 레이블이 비슷하다고 판단하여 그 중 하나만 저장하면 된다고 판단하고 평면도를 인쇄할 때 세 개의 방 모두에 그 레이블(14.13)을 재사용한 것으로 밝혀졌습니다.
Xerox 복사기가 무손실 압축 형식이 아닌 손실 압축 형식을 사용한다는 사실 자체는 문제가 되지 않습니다. 문제는 복사기가 compression artifacts를 즉시 알아볼 수 없는 미묘한 방식으로 이미지를 저하시킨다는 것입니다. 복사기가 단순히 흐릿한 출력물을 생성했다면 누구나 원본을 정확하게 복제하지 않았다는 것을 알 수 있습니다. 문제는 복사기가 읽을 수는 있지만 부정확한 숫자를 복사하여 복사본이 정확하지 않은데도 정확한 것처럼 보이게 만든다는 사실에 있었습니다. (2014년에 Xerox는 이 문제를 해결하기 위한 패치를 출시했습니다.)
인공지능 연구자들이 대규모 언어 모델이라고 부르는 OpenAI의 ChatGPT 및 기타 유사한 프로그램을 고려할 때 Xerox 복사기 사건은 오늘날 염두에 두어야 할 가치가 있다고 생각합니다. 복사기와 대규모 언어 모델 간의 유사점이 바로 눈에 띄지 않을 수도 있지만 다음 시나리오를 생각해 보세요. 인터넷에 영원히 접속할 수 없게 되었다고 상상해 보세요. 이에 대비하여 웹에 있는 모든 텍스트의 압축 사본을 만들어 개인 서버에 저장할 계획입니다. 안타깝게도 개인 서버에는 필요한 공간의 1%만 제공되므로 모든 내용을 모두 저장하려면 무손실 압축 알고리즘을 사용할 수 없습니다. 대신 텍스트에서 통계적 규칙성을 식별하는 손실 알고리즘을 작성하여 특수한 파일 형식으로 저장합니다. 이 작업에는 사실상 무제한의 계산 능력을 사용할 수 있기 때문에 알고리즘은 매우 미묘한 통계적 규칙성을 식별할 수 있으며, 이를 통해 원하는 압축 비율을 100 대 1로 달성할 수 있습니다.
이제 인터넷에 접속할 수 없어도 웹에 있는 모든 정보가 서버에 저장되어 있기 때문에 그렇게 끔찍한 일은 아닙니다. 문제는 텍스트가 매우 압축되어 있기 때문에 정확한 인용문을 검색하여 정보를 찾을 수 없으며, 단어가 저장되어 있지 않기 때문에 절대 정확히 일치하는 정보를 얻을 수 없다는 것입니다. 이 문제를 해결하기 위해 질문 형태의 쿼리를 수락하고 서버에 있는 정보의 요점을 전달하는 답변으로 응답하는 인터페이스를 만들 수 있습니다.
제가 설명한 내용은 ChatGPT 또는 다른 대부분의 large language model과 매우 유사하게 들립니다. ChatGPT는 웹에 있는 모든 텍스트를 흐릿하게 처리한 JPEG라고 생각하면 됩니다. 고해상도 이미지가 많은 정보를 보존하는 것과 마찬가지로 웹상의 많은 정보를 보존하지만, 정확한 비트 시퀀스를 찾는다면 찾을 수 없고 근사치만 얻을 수 있습니다. 하지만 이 근사치는 문법적인 텍스트의 형태로 제공되며, ChatGPT는 이를 생성하는 데 탁월하기 때문에 일반적으로 허용됩니다. 여전히 흐릿한 JPEG를 보고 있지만, 흐릿한 부분이 사진 전체의 선명도를 떨어뜨리지 않는 방식으로 발생합니다.
손실 압축에 대한 이러한 비유는 단순히 웹에서 찾은 정보를 다른 단어를 사용하여 재포장하는 ChatGPT의 기능을 이해하는 방법만이 아닙니다. 또한 ChatGPT와 같은 대규모 언어 모델에서 발생하기 쉬운 '환각', 즉 사실에 근거하지 않은 질문에 대한 무의미한 답변을 이해하는 방법이기도 합니다. 이러한 환각은 압축 아티팩트이지만, 제록스 복사기에서 생성된 잘못된 라벨과 마찬가지로 원본과 비교해야 식별할 수 있을 정도로 그럴듯하며, 이 경우 웹 또는 세상에 대한 우리 자신의 지식을 의미합니다. 원본의 99%가 폐기된 후 텍스트를 재구성하도록 설계된 압축 알고리즘이라면, 생성된 텍스트의 상당 부분이 완전히 조작될 것으로 예상해야 합니다.
손실 압축 알고리즘에서 사용하는 일반적인 기술이 보간, 즉 간격의 양쪽에 있는 것을 보고 누락된 것을 추정하는 것이라는 점을 기억하면 이 비유가 더욱 이해가 됩니다. 이미지 프로그램이 사진을 표시할 때 압축 과정에서 손실된 픽셀을 재구성해야 할 경우, 주변 픽셀을 살펴보고 평균을 계산합니다. 예를 들어 건조기 안에서 양말을 잃어버린 상황을 미국 독립선언서 스타일로 설명하라는 메시지가 표시될 때 ChatGPT는 'lexical space'에서 두 점을 가져와 그 사이의 위치를 차지할 텍스트를 생성하는 것입니다. ("인간 사건의 과정에서 청결과 질서를 유지하기 위해 자신의 의복을 짝과 분리해야 할 필요가있을 때. . . .") ChatGPT는 이러한 형태의 보간에 매우 능숙하기 때문에 사람들은 사진 대신 단락을 위한 "흐림" 도구를 발견하고 이를 재미있게 사용하고 있습니다.
ChatGPT와 같은 대규모 언어 모델이 종종 인공 지능의 최첨단으로 찬사를 받는다는 점을 감안할 때, 이를 손실 텍스트 압축 알고리즘으로 설명하는 것은 무시하거나 적어도 비하하는 것처럼 들릴 수 있습니다. 저는 이러한 관점이 대규모 언어 모델을 의인화하는 경향에 대한 유용한 수정책을 제공한다고 생각하지만, 압축 비유에는 고려할 가치가 있는 또 다른 측면이 있습니다. 2006년부터 Marcus Hutter라는 인공지능 연구원은 이전 수상자보다 더 작은 1기가바이트의 특정 Wikipedia 스냅샷을 무손실로 압축할 수 있는 사람에게 '인간 지식 압축상' 또는 'Hutter상'이라는 상금을 수여해 왔습니다. zip 파일 형식으로 압축된 파일을 본 적이 있을 것입니다. zip 형식은 Hutter의 1기가바이트 파일을 약 300메가바이트로 줄였는데, 가장 최근 수상자는 이를 1.15메가바이트로 줄이는 데 성공했습니다. 이것은 단순한 스무딩 연습이 아닙니다. Hutter는 더 나은 텍스트 압축이 인간 수준의 인공 지능을 만드는 데 중요한 역할을 할 것이라고 믿으며, 그 이유는 부분적으로는 텍스트를 이해함으로써 가장 높은 수준의 압축을 달성할 수 있기 때문입니다.
압축과 이해 사이의 제안된 관계를 이해하기 위해 덧셈, 뺄셈, 곱셈, 나눗셈의 예가 백만 개가 들어 있는 텍스트 파일이 있다고 가정해 보겠습니다. 어떤 압축 알고리즘으로든 이 파일의 크기를 줄일 수 있지만, 가장 큰 압축률을 달성하는 방법은 산술의 원리를 도출한 다음 계산기 프로그램의 코드를 작성하는 것입니다. 계산기를 사용하면 파일에 있는 수백만 개의 예제뿐만 아니라 앞으로 발생할 수 있는 다른 산술의 예제도 완벽하게 재구성할 수 있습니다. 위키피디아의 일부를 압축하는 문제에도 동일한 논리가 적용됩니다. 압축 프로그램이 힘이 질량 곱하기 가속도라는 것을 알고 있다면, 물리학에 관한 페이지를 압축할 때 많은 단어를 재구성할 수 있기 때문에 많은 단어를 버릴 수 있습니다. 마찬가지로 프로그램이 수요와 공급에 대해 더 많이 알수록 경제학 관련 페이지를 압축할 때 더 많은 단어를 버릴 수 있습니다.
대규모 언어 모델은 텍스트에서 통계적 규칙성을 식별합니다. 웹의 텍스트를 분석하면 "공급이 부족하다"와 같은 문구가 "가격이 상승한다"와 같은 문구와 가까운 곳에 자주 나타나는 것을 알 수 있습니다. 이러한 상관관계를 통합한 챗봇은 공급 부족의 영향에 대한 질문을 받으면 가격 상승에 대한 답변으로 응답할 수 있습니다. 대규모 언어 모델이 경제 용어 간의 방대한 상관관계를 수집하여 다양한 질문에 대해 그럴듯한 답변을 제공할 수 있다면 실제로 경제 이론을 이해하고 있다고 말할 수 있을까요? ChatGPT와 같은 모델은 여러 가지 이유로 Hutter상 수상 자격이 없는데, 그 중 하나는 원본 텍스트를 정확하게 재구성하지 않는다는 점, 즉 무손실 압축을 수행하지 않는다는 점입니다. 하지만 그럼에도 불구하고 무손실 압축이 인공지능 연구자들이 관심을 갖는 종류의 진정한 이해를 나타낼 수 있을까요?
산술의 예로 돌아가 보겠습니다. GPT-3(ChatGPT의 기반이 된 대규모 언어 모델)에 숫자 한 쌍을 더하거나 빼라고 요청하면 숫자가 두 자리만 있을 때는 거의 항상 정답으로 응답합니다. 하지만 숫자가 커질수록 정확도가 크게 떨어지며, 숫자가 다섯 자리일 때는 10%까지 떨어집니다. 예를 들어 "245 + 821"이라는 텍스트가 포함된 웹 페이지는 많지 않기 때문에 GPT-3가 제공하는 정답의 대부분은 웹에서 찾을 수 없으므로 단순 암기에는 관여하지 않습니다. 하지만 방대한 양의 정보를 수집했음에도 불구하고 산술의 원리를 도출해내지는 못했습니다. GPT-3의 오답을 면밀히 살펴보면 산술을 수행할 때 '1'을 운반하지 않는다는 것을 알 수 있습니다. 웹에는 분명히 "1"을 포함하는 것에 대한 설명이 포함되어 있지만 GPT-3는 이러한 설명을 통합할 수 없습니다. GPT-3는 산술의 예에 대한 통계적 분석을 통해 실제에 대한 피상적인 근사치를 생성할 수 있지만 그 이상은 불가능합니다.
초등학교에서 가르치는 과목에서 GPT-3가 실패한 경우, 대학 수준의 에세이를 작성할 때 가끔 잘하는 것처럼 보이는 것을 어떻게 설명할 수 있을까요? large language models은 종종 환각을 일으키지만, 명료한 상태에서는 경제 이론과 같은 주제를 실제로 이해하는 것처럼 들립니다. 아마도 산수는 큰 언어 모델이 적합하지 않은 특별한 경우일 것입니다. 덧셈과 뺄셈을 제외한 영역에서 텍스트의 통계적 규칙성이 실제로 실제 세계에 대한 진정한 지식과 일치할 수 있을까요?
더 간단한 설명이 있을 것 같습니다. ChatGPT가 무손실 알고리즘이라면 어떤 모습일지 상상해 보세요. 만약 그렇다면 항상 관련 웹 페이지의 내용을 그대로 인용하여 질문에 답할 것입니다. 우리는 아마도 이 소프트웨어를 기존 검색 엔진에 비해 약간 개선된 것으로 간주하고 그다지 감명을 받지 못했을 것입니다. ChatGPT가 웹에서 자료를 그대로 인용하는 대신 문장을 바꾸기 때문에 학생이 읽은 내용을 단순히 되풀이하는 것이 아니라 자신의 말로 아이디어를 표현하는 것처럼 보이며, 마치 ChatGPT가 자료를 이해하고 있는 것처럼 착각을 불러일으킵니다. 인간 학생의 경우 암기는 진정한 학습의 지표가 아니기 때문에 ChatGPT가 웹 페이지에서 정확한 인용문을 생성하지 못하는 것이 바로 우리가 무언가를 학습했다고 생각하게 만드는 것입니다. 일련의 단어를 다룰 때는 손실 압축이 무손실 압축보다 더 똑똑해 보입니다.
대규모 언어 모델에 대한 많은 용도가 제안되었습니다. 이를 흐릿한 이미지로 생각하면 어떤 용도에 적합하거나 적합하지 않은지 평가할 수 있습니다. 몇 가지 시나리오를 고려해 보겠습니다.
대규모 언어 모델이 기존 검색 엔진을 대체할 수 있을까요? 대형 언어 모델에 대한 신뢰를 가지려면 선전과 음모론에 휘둘리지 않고 웹의 올바른 부분을 캡처하고 있다는 것을 알아야 합니다. 하지만 대규모 언어 모델에 우리가 원하는 정보만 포함되어 있더라도 여전히 흐릿함의 문제가 있습니다. 허용되는 흐릿함의 유형이 있는데, 이는 정보를 다른 단어로 다시 표현하는 것입니다. 그리고 우리가 사실을 찾을 때 용납할 수 없다고 생각하는 노골적인 조작의 모호함도 있습니다. 허용 가능한 종류의 모호함을 유지하면서 허용되지 않는 종류의 모호함을 제거하는 것이 기술적으로 가능한지는 명확하지 않지만, 가까운 시일 내에 밝혀질 것으로 기대합니다.
대규모 언어 모델이 조작에 관여하지 못하도록 제한할 수 있다고 해도 웹 콘텐츠를 생성하는 데 사용해야 할까요? 이는 이미 웹에서 사용할 수 있는 정보를 재포장하는 것이 목표일 때만 의미가 있습니다. 이를 위해 존재하는 일부 기업들은 보통 content mills이라고 부릅니다. 아마도 이들에게는 저작권 침해를 피하는 방법으로 큰 언어 모델의 모호함이 유용할 것입니다. 하지만 일반적으로 content mills에 좋은 것은 정보를 검색하는 사람들에게는 좋지 않다고 말하고 싶습니다. 이러한 유형의 리패키징이 증가하면서 현재 온라인에서 원하는 정보를 찾기가 더 어려워지고 있으며, 대규모 언어 모델에 의해 생성된 텍스트가 웹에 더 많이 게시될수록 웹은 더 흐릿한 버전이 되어가고 있습니다.
OpenAI가 곧 출시할 ChatGPT의 후속 버전인 GPT-4에 대한 정보는 거의 없습니다. 하지만 한 가지 예측을 해보자면, GPT-4를 학습시키는 데 사용되는 방대한 양의 텍스트를 수집할 때 OpenAI의 개발자들은 ChatGPT나 다른 대규모 언어 모델에서 생성된 자료를 제외하기 위해 모든 노력을 기울였을 것입니다. 만약 이것이 사실로 밝혀진다면, 이는 대규모 언어 모델과 손실 압축 사이의 유추가 유용하다는 것을 의도치 않게 확인하는 역할을 할 것입니다. JPEG를 반복적으로 저장하면 매번 더 많은 정보가 손실되기 때문에 압축 아티팩트가 더 많이 생성됩니다. 이는 옛날에 복사본을 반복적으로 복사하는 것과 디지털 방식으로 동일합니다. 이미지 품질은 점점 더 나빠지기만 합니다.
실제로 대규모 언어 모델의 품질을 측정하는 데 유용한 기준은 회사가 생성한 텍스트를 새 모델의 학습 자료로 사용하려는 의지가 있는지 여부일 수 있습니다. ChatGPT의 출력이 GPT-4에 충분하지 않다면 우리도 충분하지 않다는 지표로 받아들일 수 있습니다. 반대로, 모델이 새 모델을 학습시키는 데 사용할 수 있을 정도로 좋은 텍스트를 생성하기 시작하면 해당 텍스트의 품질에 대한 확신을 가질 수 있습니다. (이러한 결과를 얻으려면 이러한 모델을 구축하는 데 사용되는 기술에 획기적인 발전이 있어야 할 것입니다.) 모델이 입력값만큼 좋은 결과물을 만들어내기 시작하면 손실 압축의 비유는 더 이상 적용되지 않을 것입니다.
대규모 언어 모델이 인간의 독창적인 글쓰기에 도움을 줄 수 있을까요? 이 질문에 답하기 위해서는 이 질문의 의미를 구체적으로 정의할 필요가 있습니다. 예술가들이 복사기의 독특한 특성을 창의적인 도구로 사용하는 Xerox art 또는 photocopy art라는 예술 장르가 있습니다. 그런 의미에서 ChatGPT라는 복사기로도 분명 그런 예술이 가능하니, 대답은 '예'입니다. 하지만 복사기가 예술 창작에 필수적인 도구가 되었다고 주장하는 사람은 아무도 없을 것입니다. 대다수의 예술가들은 창작 과정에서 복사기를 사용하지 않으며, 그러한 선택으로 인해 불이익을 받는다고 주장하는 사람도 없습니다.
Xerox art와 유사한 새로운 장르의 글쓰기에 대해 이야기하는 것이 아니라고 가정해 봅시다. 이 규정을 감안할 때, LLM에서 생성된 텍스트가 소설이든 논픽션이든 작가가 독창적인 글을 쓸 때 유용한 출발점이 될 수 있을까요? LLM에 상용구를 처리하도록 맡기면 작가가 정말 창의적인 부분에 집중할 수 있을까요?
물론 모든 작가를 대변할 수는 없지만, 독창적이지 않은 작품의 모호한 카피로 시작하는 것은 독창적인 작품을 만드는 좋은 방법이 아니라고 주장하고 싶습니다. 작가라면 독창적인 작품을 쓰기 전에 독창적이지 않은 작품을 많이 쓰게 될 것입니다. 그리고 그 독창적이지 않은 작업에 들인 시간과 노력은 낭비되는 것이 아니라 오히려 독창적인 작품을 만들 수 있는 밑거름이 된다고 생각합니다. 올바른 단어를 선택하고 문장을 더 잘 따라갈 수 있도록 재배열하는 데 소요되는 시간은 산문에서 의미가 어떻게 전달되는지 가르쳐 줍니다. 학생들에게 에세이를 쓰게 하는 것은 단순히 자료의 이해도를 테스트하는 방법이 아니라 자신의 생각을 명확하게 표현하는 경험을 제공합니다. 학생들이 한 번도 읽어본 적이 없는 에세이를 써야 한다면, 한 번도 읽어본 적이 없는 글을 쓰는 데 필요한 기술을 결코 습득할 수 없습니다.
그리고 학생을 그만두었다고 해서 LLM이 제공하는 템플릿을 안전하게 사용할 수 있는 것도 아닙니다. 자신의 생각을 표현하기 위한 노력은 졸업한다고 해서 사라지는 것이 아니라 새로운 글의 초안을 작성할 때마다 계속될 수 있습니다. 때로는 글을 쓰는 과정에서만 독창적인 아이디어를 발견하기도 합니다. 어떤 사람들은 LLM의 결과물이 인간 작가의 초안과 크게 다르지 않다고 말할 수 있지만, 이는 피상적인 유사점일 뿐이라고 생각합니다. 초고는 독창적인 아이디어가 명확하게 표현된 것이 아니라 독창적인 아이디어가 제대로 표현되지 않은 것이며, 여기에는 무정형적인 불만, 말하고자 하는 내용과 말하고자 하는 내용 사이의 거리에 대한 인식이 동반되어 있습니다. 이것이 바로 재작성 과정에서 사용자가 느끼는 불만이며, 인공지능이 생성한 텍스트로 시작할 때 부족한 부분 중 하나입니다.
글쓰기에는 마법이나 신비로운 것이 없지만, 기존 문서를 신뢰할 수 없는 복사기에 올려놓고 인쇄 버튼을 누르는 것 이상의 과정이 필요합니다. 미래에는 세상에 대한 자신의 경험만을 바탕으로 좋은 산문을 쓸 수 있는 인공지능을 만들 수 있을지도 모릅니다. 하지만 그 날은 우리가 예측할 수 있는 지평선 너머에 있습니다. 그 동안 웹을 다시 쓰는 것이 무슨 소용이 있느냐고 묻는 것은 당연한 질문입니다. 인터넷에 영원히 접속할 수 없고 제한된 공간의 개인 서버에 사본을 저장해야 한다면, ChatGPT와 같은 대규모 언어 모델은 조작을 막을 수 있다는 가정 하에 좋은 해결책이 될 수 있습니다. 하지만 우리는 인터넷에 대한 액세스를 잃지 않습니다. 그렇다면 원본이 있는데 흐릿한 JPEG가 얼마나 유용할까요?