지난 포스팅 이후 o1과 o3 mini 에게 환각을 일으킬 수 있는 질문을 몇 개 더 알아냈다. 그러나 플래그십 모델인 o1 pro에게는 실험해본적이 없어 포스팅을 망설였다. 블로그에 글 하나 쓰자고 월 구독료 30만원을 태울수도 없는 노릇이었다.
아쉬운대로 Gemini 2.5 대상으로 실험을 하던 도중 새로운 추론 모델 o3가 출시되었다. 다행히 플러스 플랜에 포함되어 실험을 진행할 수 있게 됐다.
o3는 순수한 추론 모델인 o1과 달리 인터넷 검색이나 이미지 인식, 코드 실행과 같은 모듈을 적극적으로 사용한다. o1의 추론 능력에 GPT4o의 범용성을 갖추었다고 해도 과언이 아니다. 그러나 내가 발견한 질문들은 현존하는 최강 모델인 o3에게도 환각을 유발했다.
https://chatgpt.com/share/6800815c-f388-800a-8f46-4cdaa94efd5d
감자 먹는 사람들의 묘사는 여전히 구체적인 부분이 정확하지 않다. 예를 들어 o3는 그림 왼쪽 끝의 남성이 왼쪽 손으로 포크를 쥐었다고 했지만, 사실은 오른손으로 쥐고 있다. 그 옆의 여성이 양손을 모아 포크로 감자를 집어 올렸다고 하지만 포크를 쥔 손은 한 손이다.
반면 o1과 달리 인물의 구성 자체는 정확하게 맞췄다. 이미지 인식 모듈이 탑재되면서 시각의 부재라는 한계는 어느 정도 극복하고 있는 듯 하다. 현재 이미지 인식과 생성이 AI 업계의 트렌드인 것을 볼 때 단시일 내로 해결될 수도 있겠다는 생각이 들었다.
한편 이 문제를 테스트 하는 데 몇 가지 어려움이 있었다.
https://chatgpt.com/share/68008331-d858-800a-976f-b5285d721523
여전히 어림도 없는 답변을 한다. 주목할 점은 위키미디어에 업로드 된 악보 원본을 확보했다는 점이다. 답변을 위한 최상의 근거 자료를 확보했음에도 전혀 실제 선율을 파악하지 못하고 있다. 악보는 문자처럼 하나의 기호 체계이므로 단순히 이미지를 많이 본 것 만으로는 학습하기 어렵지 않을까 싶다.
지난 번에 밝힌것처럼 LLM은 비언어 데이터에 약하다. 다음의 질문으로 쉽게 환각을 일으킬 수 있다.
메가박스 강남점에서 강남역 7번 출구쪽으로 계속 직진해서 걸어갔을 때, 강남역을 제외하고 가장 처음 나오는 지하철 역은?
지도에서 정답을 확인해보자. 메가박스에서 강남역 7번 출구쪽으로 쭉 걸어가면 양재역이 나온다.
그러나 o3는 역삼역이라고 대답한다. 역삼역은 강남과 인접한 정거장이긴 하지만 걸어가는 방향이 다르다.
https://chatgpt.com/share/680119e0-a038-800a-8d41-d10ddb74cc21
Chain of Thought를 확인해보면 문제 해결을 위해 인터넷 검색을 했다는 사실을 알 수 있다. 검색을 한 사이트에 네이버 지도가 포함되어 있는데도 문제를 해결하지 못했다.
o3도 아직 지리 정보를 이해하는데 어려움을 겪는 것으로 보인다. 특히 도보 길 찾기 문제를 어려워 한다. 이 문제는 LLM이 직접 지리 정보를 학습하는 것 보다는 지도 앱의 API를 사용할 수 있게 하는 방식으로 먼저 해결되지 않을까 싶다.
한영 전환을 하지 않은 채로 키보드를 입력하게 되는 일이 있다. 이럴 때 사람은 키보드를 따라 치면서 쉽게 원문을 복원할 수 있다.
먼저 o3가 "안녕 반가워 챗지피티" 와 같은 짧은 문장은 잘 해독한다는 것을 알 수 있었다.
CoT를 확인해보면 내부적으로 파이썬 코드를 생성하고 있다. 코딩 대회에서 최상위권에 들만한 추론 능력을 통해 코드를 생성해내고, 그 코드를 실행한다면 이런 장난감 같은 암호문은 금방 풀어내는 것이 당연해 보인다.
결과를 확실히 하기 위해 긴 글도 잘 변환하는지 실험하기로 했다. 실험에 사용한 자료는 한컴타자연습에 수록되어 유명해진 수필 '나의 사랑 한글날'이다. 다음과 같이 한영 변환을 요구했다. (한영 변환에는 ytnet의 한영 변환기를 사용했다.)
Someone wrote this without switching between Korean and English keyboards. Please decode it.
-----------
skdml tkfkd gksrmfskf
gksrnr tkfkaemfdms cntjr, tjfskf emd audwjfdl ehlaus ahqtl qkQmek. rmfjsk
sksms dlfjgks audwjfemfdp quf rhkstladl djqtek. skaemfdms cntjrdlsk tjfskfdl
chlrhdml audwjfdlfkrh todrkrgkwlaks skdprpsms gksrmfskfdl rkwkd zms audwjfdlek.
sksms goakek gksrmfskfdl ehlaus, ekfms Eoqhek rmfTmf dlfdl aksgrh, rm Eork
ehlaus dhsrkw godtkdpeh ckarkgkrh, gksrmfdp eogks rmfdmf dlsthogkdu aksgdms
tkfkaemfdprp Qnflsms dlffh ahqtl qkQmek.
dnflsms gksrmfdmf 500du sus ehddksdlsk cjseoaks go dhkTrh, rmrjtdmf qkfwjstlzlwl
ahtgkadmfhTj ansghkdml qkfwjs threhrk aodn smflrh, tjswlsrnrdp qlgo gudvusdjqtdl
enlEjfdjwu dlTek. gkswkdml xmfdp djfraodu rmfwk todghkfdmf rhkgkrwjrdmfh gkwl ahtgkrl
Eoansdp dnfl ansghksms rkftnfhr enltrjfdmawlfclrh, rlrP ansaoddmf qjtdjskwl ahtgkrh
dlTek. dkwlreh dnjstlwjrdls vpsdmfh dnjsrhfmf Tmrh, tlsansdl gkswk xntjddldp
tpfhfh Wlrgu skdhrh, audgkadpeh gkswkfh vyrlgkdu tnlqrp dkfdkqhf tnrk djqtek.
gkswkdml goehrdmf Roekewl ahtgkrh gkswk tjRdj Tmrlfmf wnwkdgksms tkfkaemfdl
aksgrh, dhlfodjdml anqnsqufgks tkdyddmfh dlsgo dnflakfdms wjawja dnlcnrekdgkrh
dlTek. dkfmaekqrh gnffbdgks dnflrmf, dnflakfdl dlTsmsepeh gkswkfmf tjRdj Tmrh
gkswkakfdlsk dhlfoakfdmf skaqkfgksms rjtdms tkeowndml tktkddptj qjtdjskwl ahtgks
rufrhkfkrh gkf tn dlTek.
"rkfka"dl tkfkwls wlsms dhfoehldjTrh, "rkd"dlfks akfdl wndls shfmtdmf gkrh
dlTdmau, tofhdns wjsans gkrtnf dyddjeh dnflakffh ekemadjtj Tmrlsmszjsud,
dhlrnrdptj emfdjdhs akfdmf rmeofh Tmrl Eoansdp djsdjdml rPcmdghkrk dlfdjskf
tnqkRdp djqtek.
skarhk qnrdl rkffkwls wl dlwp 50susdl ek ehldj rkrh dlTek. gkfnQkffl
gkskfh andcu gksrmf ansghkrnjsdmf dlfnsms ep gladmf ahdkdi gkflfksms todrkrdl
emsek. rm ehddks skarhk qnrdms djsdjrk aksgdl ekffkwls rjtdl tktlfdlek. dlfmf
rmrqhrgksms rlfdms tjfh rhdbakfdmf aksgdl tkffu Tmrh, gkrtnf ryfbsk rhdehd tkwjs
vuscks emddmf xhdgotj akfrmfdml xhddlfdmf dlfndjdi gkf rjtdlek. dlrjtdldiakffh
dudxh xhddlf, wjdclwjr xhddlfqhek dntjs ehldjdi gkf aodn tlrmqgkrh wnddygks
dlfdlek. dlqjs gksrmfskfdpsms dlfjgks ruftlaemfdmf gksep ahdk, skaqnrdml EmtdlTsms
alswnddl vksanswjadp gkaRp ahdu akfrmf xhddlfdmf dnlgks gksrmfskf rlsua godtkfmf ejdnr
EmtdlTrp rkqtwlrp clfjTdmaus gksek.
10dnjf 9dlfdms gksrmfskfdlek. gksrmfskfdms dnfl skfkdml rhdgbdlf rkdnsep dhwlr
gkskQnsdls tprPwjrdls ansghkdml skfdlek. tprPdptj rm skfk rmfwkfmf rlfu
rhdgbdlffh wjdgks skfksms dnfl skfkQnsdlek. rmfjsep wlsks 92susqnxj gksrmfskfdl
rhdgbdlfdptj Qkwlrp ehldjTek. tjsrkrwkemfdl vlEka gmffu dlfndj shgdms qhqofhdns
gksrmfxkqdmf gnthsemfdms ejdnr rkqtwlrp qkfwjstlzlwl ahtgkrh, dhglfu akdcu shgrh
dlTdmsl qnRmfjqrh whltmfjdns akdmadl dkvtjsek. rhdgbdlf cnrth qkdcladl rmxhfhr
wjftlfgoTekaus Rhr gksrmfskfdmf xorgoTdjdi gkf dldbrk andjtdlsrk? dhlrnrdml whdryfmf
Ejqkeemsms rlsuadlfdlsk djsm thtn ekscpdml rlsuadlfeh dnfl skfk rhdgbdlfdp
vhgkaehldj dlTsms rjtemfeh dlTek. rmfjs skfemfdms rhdgbdlffh wjdgkwl dksgdkeh
rhksrP dlTsms tkfkaemfdms ehrwkwjrdmfh rlsuatlr alc rkrwhd godtkfmf clfmf rjtdlek.
rmfjsk gksrmfskfdms djsm thtn ekscpdml skfdl dkslek. dnfl alswhr ahendml
skfdlwk, tprPwjrdls ansghkdml skfdladmf qnsaudgl dkfdkdi gkf rjtdlek.
rlaehdrlf rytnsms "wkdck gksqksehsms gkswk ansghkrnjsdmf qjtdjsktj qlcsksms gksrmf
ansghkrnjsdmf gudtjdgksms skfdl dhf rjtdlek. rm skfdl dhaus wjs tprPdml Emt dlTsms
wjfadmsdlemfdms dhsmfdml wjfadmsdlemfdl duddjfmf qodnemt gksrmfdmf qodnrp ehlf rjtdlek.
rmfjs todrkrdmf gkaus rhddusgl rktmadl tjffpsek."rh dlfrkswldp zkffjadmf Tms wjrdl
dlTek. dl akfdmf enltqkecladlfkeh gkemt, dbsptmzhdptj ansaod xhlcldp rhddl
zms tkfkadlsk ekscpdp wnsms tkddml dlfmadmf [tpwhdeodhkdtkd]dlfkrh qnxduTek.
rmflrh tprPwjrdls rhkgkr wjsanswldls "eltmzjqjfl" 94sus 6dnjfghsms gksrmfdmf
tprPdptj rkwkd gkqflwjrdls answkfkrh rmrcksgkduTek. tprPrk qnfjdnjgksms
gksrmfdml dntntjddmf dnfl skfk tkfkaemfaksdl wpeofh ahfmrh dlTsms gustlfdl
dksxkRkqrlaks gkek.
그리고 이것이 o3가 생성한 답변이다.
나의 사랑 한글날
한국 사람들은 추석, 설날 등 명절이 되면 몹시 바쁘다. 그러나
나는 이러한 명절들에 별 관심이 없다. 남들은 추석이나 설날이
최고의 명절이라고 생각하지만 나에게는 한글날이 가장 큰 명절이다.
나는 해마다 한글날이 되면, 다른 때보다 글쓸 일이 많고, 그때가
되면 온갖 행사에도 참가하고, 한글에 대한 글을 인쇄하여 많은
사람들에게 뿌리는 일로 몹시 바쁘다.
우리는 한글을 500여 년 동안이나 천대만 해 왔고, 그것을 발전시키지
못함으로써 문화의 발전 속도가 매우 느리고, 선진국에 비해 형편없이
뒤떨어져 있다. 한자의 틀에 얽매여 글자生活을 과학적으로 하지 못하기
때문에 우리 문화는 갈수록 뒷걸음질치고, 기계 문맹을 벗어나지 못하고
있다. 아직도 원시적인 펜으로 원고를 쓰고, 신문이 한자 투성이에
세로로 찍혀 나오고, 명함에도 한자로 표기하여 쉽게 알아볼 수가 없다.
한자의 해독을 깨닫지 못하고 한자 섞어 쓰기를 주장하는 사람들이
많고, 외래어의 무분별한 사용으로 인해 우리말은 점점 위축당하고
있다. 아름답고 훌륭한 우리글, 우리말이 있는데도 한자를 섞어 쓰고
한자말이나 외래말을 남발하는 것은 사대주의 사상에서 벗어나지 못한
결과라고 할 수 있다.
“가람”이 사라진 지는 오래되었고, “강”이란 말이 주인 노릇을 하고
있으며, 새로운 전문 학술 용어도 우리말로 다듬어서 쓰기는커녕
외국에서 들어온 말을 그대로 쓰기 때문에 언어의 계층화가 일어날
수밖에 없다.
남과 북이 갈라진 지 이제 50년이 다 되어 가고 있다. 하루빨리
하나로 뭉쳐 한글 문화권을 이루는 데 힘을 모아야 하리라는 생각이
든다. 그동안 남과 북은 언어가 많이 달라진 것이 사실이다. 이를
극복하는 길은 서로 고유말을 많이 살려 쓰고, 학술 교류나 공동 사전
편찬 등을 통해서 말글의 통일을 이루어야 할 것이다. 이것이야말로
영토 통일, 정치적 통일보다 우선되어야 할 매우 시급하고 중요한
일이다. 이번 한글날에는 이러한 결심들을 한데 모아, 남북의 뜻있는
민중이 판문점에 함께 모여 큰 목소리로 한글 사랑을 외치길 바란다.
https://chatgpt.com/share/68010ce2-1e14-800a-a66a-966de00de3b9
묘하게 원문과 비슷해 보이지만 diffchecker를 통해 비교해보면, "10월 9일은 한글날이다." 로 시작하는 글의 후반부를 아예 생략해버렸다는 사실을 알 수 있다.
여러번 시도했지만 원문을 정확히 복원하는 경우는 없었다. 모두 그럴듯한 텍스트를 창작했다.
이 문제의 특이한 점은 입력의 크기가 작을 때에는 문제를 잘 해결한다는 것이다. 입력의 크기가 임계점을 순간, '에라 모르겠다!' 라며 판을 엎듯이 거짓 답변을 생성하기 시작한다.
전통적인 알고리즘에는 '에라 모먼트' 가 없다. 알고리즘은 입력의 크기와 상관없이 유한한 시간 내에 문제를 풀 수 있음이 보증된다. 만약 계산이 너무 오래 걸려서 사용자가 원하는 시간 내에 답을 줄 수 없다 하더라도, 클라이언트에서 알아서 Timeout 처리를 했을 것이다. 즉 답을 못 주는 상황은 있어도 허위 답변을 지어내는 상황은 발생하지 않는다.
이 질문들은 모두 진정한 의미의 감각기관이 없는 LLM의 약점을 공략한 것이다. 시각이나 방향 감각 등이 필요한 문제를 LLM에게 질의하는 것은 시기상조라는 점을 알 수 있다. 반대로 논리 추론이나 코드 작성 등의 문제에는 실수를 좀처럼 찾아보기 힘들어졌다. 점점 믿고 맡겨도 될 수준으로 진화하지 않을까 싶다.
(LLM의 코딩 실수는 코드 베이스의 크기가 모델의 단기 기억력, 즉 context window의 크기를 벗어날 때부터 발생하는 것으로 보이는데 이에 대해선 다음 기회에 다루겠다.)
사실 이 문제들을 못 푸는 것은 전혀 치명적인 결함이 아니다. GPT가 할 수 있는 수많은 유용한 작업들을 생각한다면, 지도나 악보 좀 못 읽는다고 그 가치를 평가 절하하는 것은 억지다.
또한 이 글의 사례들은 이 악물고 해결하고자 한다면 못할 이유도 없다. 예를 들면 사용자가 지리 정보를 질의 했때 지도 앱의 API를 사용하도록 만들어 해결할 수 있다.
그러나 LLM이 인간처럼 불특정 다수의 새로운 과제를 풀 수 있는 인공 일반 지능(AGI)으로 진화할 것이라는 전망에는 다소 회의적이다. 약점이 나올 때마다 정확하게 그 문제에 타게팅 된 대량의 데이터를 학습시켜야 한다면 이를 일반 지능이라 할 수 있을까?
LLM의 추론 능력이 강화되면서 점점 이에 전적으로 의존하는 사람들이 늘어나고 있다. 이런 상황에서 한영 변환과 같이, 입력의 크기에 따라 환각 발생의 여부가 결정되는 문제가 발견된 것은 우려스럽다. 작은 문제를 완벽하게 풀던 AI가 갑자기 이런 행동을 할 것이라고 예측하기가 어렵기 때문이다. 만약 법률이나 의료 분야에서 이런 현상이 발생한다면 매우 끔찍한 결과로 이어질 수 있다. (사진첩의 사진을 모두 지브리 풍으로 바꿔달라고 했는데 어느 순간 이토 준지 그림이 튀어나올지도 모를 일이다.)
LLM을 개발하는 회사들은 추론 능력 강화와 새로운 기능 개발에만 집중하고 있다. 그러나 LLM에게 진정 필요한 것은 그림을 그리고 악보를 읽는 새로운 모달이 아니라, 모르는 것을 모른다고 말할 수 있는 메타 인지이다.
LLM에게 진정 필요한 것은 '그림을 그리고 악보를 읽는 새로운 모달이 아니라, 모르는 것을 모른다고 말할 수 있는 메타 인지' 라는 말에 일변 공감하고 갑니다LM에게 진정 필요한 것은 '그림을 그리고 악보를 읽는 새로운 모달이 아니라, 모르는 것을 모른다고 말할 수 있는 메타 인지' 라는 말에 일변 공감하고 갑니다. 좋은 글 감사드립니다!