다섯 가지 감각으로 세상을 이해하는 AI, 그리고 그 비밀의 도서관

BHTAE·2026년 4월 30일

식당에서 메뉴판을 읽어주는 친구

해외여행을 떠올려보자. 낯선 도시의 작은 식당에 들어갔는데, 메뉴판은 알 수 없는 언어로 쓰여 있고, 옆 테이블에서는 빠른 속도로 주문이 오간다. 벽에는 오늘의 추천 메뉴가 적힌 종이가 붙어 있고, TV에서는 요리 프로그램이 흘러나온다. 이 모든 정보를 한꺼번에 이해하면서, 동시에 "저 사람들이 시킨 게 맛있어 보이니까 같은 걸 시켜달라"는 친구의 부탁까지 처리해야 한다면 어떨까.

지금까지 AI는 이런 상황에서 한 가지 감각만 빌려 쓰는 기계와 비슷했다. 글자를 읽는 AI는 글자만, 그림을 보는 AI는 그림만, 소리를 듣는 AI는 소리만 처리했다. 마치 시각만 가진 친구, 청각만 가진 친구, 문해력만 가진 친구를 따로따로 데리고 다니면서 매번 한 명씩 불러내는 것과 같았다. 엔비디아가 발표한 Nemotron 3 Nano Omni라는 모델은, 이 세 친구를 한 사람으로 합쳐낸 시도다. 글자, 사진, 영상, 그리고 처음으로 소리까지 동시에 알아듣는 AI를 만든 것이다.

한 명의 천재 대신, 전문가들의 도서관

이 모델의 가장 흥미로운 출발점은 'Mixture-of-Experts(MoE)'라는 구조다. 직역하면 '전문가 혼합'인데, 비유로 풀어보자. 기존의 AI는 모든 분야를 혼자 외우려고 애쓰는 만능 가정교사 같았다. 수학을 물어봐도, 역사를 물어봐도, 요리를 물어봐도 똑같은 한 명이 자기 머리를 모두 굴려 답해야 했다. 그러다 보니 머리가 무거워질수록 답하는 속도는 느려지고, 모든 질문에 모든 지식을 다 끌어다 쓰니 비효율적이었다.

MoE는 다르다. 이건 한 명의 천재가 아니라, 분야별 전문가가 가득한 도서관에 가깝다. "프랑스 요리에 대해 알려줘"라고 물으면 사서가 요리 전문가만 깨운다. "방정식을 풀어줘"라고 물으면 수학 전문가만 호출한다. 도서관 전체에는 30B(300억 개)에 달하는 책이 꽂혀 있지만, 한 번 질문할 때 실제로 펼쳐 읽는 책은 3B(30억 개)뿐이다. 모든 지식을 보유하면서도, 답할 때마다 필요한 부분만 꺼내 쓰니 가볍고 빠르다. 논문에서 "30B-A3B"라는 표기가 보이는데, "총 300억 개의 매개변수가 있지만 한 번에 활성화되는 건 30억 개"라는 뜻이다.

사진을 자르지 않고 통째로 보는 법

이전까지의 AI에게 가로로 긴 영수증 사진이나 세로로 긴 스크린샷을 보여주면, AI는 사진을 마치 모자이크 퍼즐처럼 정사각형 조각으로 잘라낸 뒤 한 조각씩 들여다봤다. 이걸 'tiling(타일 깔기) 방식'이라고 부른다. 하지만 영수증의 한 줄이 두 조각에 걸쳐 있으면 어떻게 될까. 잘린 단어를 따로따로 보면서 의미를 추측해야 하니, 길거나 비대칭적인 문서일수록 오류가 늘어난다.

Nemotron 3는 'Dynamic Image Resolution(동적 이미지 해상도)'라는 방식을 도입했다. 이건 확대경의 배율을 자유자재로 바꿔가며 그림을 통째로 보는 것과 같다. 가로로 긴 사진은 가로로 긴 채로, 세로로 긴 사진은 세로로 긴 채로 본래의 비율을 살린 채 본다. 잘리지 않으니 문맥이 끊기지 않고, 그래서 영수증, 차트, 설명서 같은 실제 문서를 읽을 때 정확도가 부쩍 올라간다.

영상을 보는 AI의 '졸음 메커니즘'

영상은 AI에게 가장 부담스러운 입력이다. 1초짜리 영상에도 30장의 그림이 들어 있고, 1분이면 1800장이다. 이걸 한 장씩 다 처리하면 AI는 금방 지쳐버린다. 연구진은 'Conv3D 기반 시간 압축'이라는 기법으로 시간 정보를 절반으로 줄였다. 비유하자면 이건 회의록을 작성할 때 모든 발언을 그대로 받아 적는 대신, 비슷한 흐름의 두 문장을 한 문장으로 묶어 요약하는 비서와 같다. 영상의 인접한 두 프레임이 거의 비슷하다면, 그걸 하나로 합쳐 표현해도 의미는 거의 보존된다. 영상 두 장을 한 장처럼 다루니 처리량이 두 배가 된다.

여기에 더해 'Efficient Video Sampling(EVS)'이라는 기법은 한 발 더 나아간다. 이건 지루한 다큐멘터리를 볼 때 정적인 풍경 장면은 빨리 감기로 넘기고, 인물이 움직이는 장면에서는 잠시 멈춰 자세히 보는 시청 습관을 AI에게 가르친 것에 가깝다. 변화가 적은 구간은 적게, 정보가 풍부한 구간은 충분히 — 이렇게 시간을 똑똑하게 분배한다.

소리를 글자로, 그리고 의미로

이번 모델이 처음 탑재한 청각은 'Parakeet'라는 별도의 음성 인코더를 통해 들어온다. 인코더란 외국어 통역사와 같다. 마이크에 들린 파동을, AI 본체가 알아들을 수 있는 '내부 언어'로 옮겨주는 역할이다. 시각도 마찬가지로 'C-RADIOv4'라는 시각 통역사를 거쳐 같은 내부 언어로 번역된다. 즉 눈으로 본 것, 귀로 들은 것, 글로 읽은 것이 모두 한 가지 언어로 변환되어 도서관 안에서 자유롭게 섞인다. 그래서 "이 영상에서 사람이 뭐라고 말했고, 화면에 무엇이 있었는지" 같은 복합 질문이 비로소 가능해진다.

가르치는 순서가 중요한 이유

여러 감각을 한꺼번에 가르치면 AI는 혼란에 빠진다. 글도 잘 읽고 그림도 잘 보던 학생에게 갑자기 음악과 영상까지 한꺼번에 시키면, 원래 잘하던 글 읽기마저 흐트러진다. 이걸 '파국적 망각(catastrophic forgetting)'이라고 부르는데, 비유로는 새 외국어를 배우다가 모국어를 헷갈리기 시작하는 유학생의 상태다.

연구진은 이걸 막기 위해 '다단계 훈련(multi-stage training)'을 썼다. 처음에는 글만 단단히 다지고, 그다음에 그림을 살살 끼워 가르치고, 그다음에 영상을, 마지막에 소리를. 계단을 한 번에 다섯 칸씩 뛰지 않고, 한 칸씩 차근차근 올라가는 등산법이다. 이렇게 하면 새로운 감각을 얻으면서도 원래 잘하던 텍스트 추론 능력이 흐트러지지 않는다.

256,000자의 기억력

이 모델은 한 번에 256,000개의 '토큰'(대략 단어 조각)을 기억할 수 있다. 길이로 환산하면 책 한 권 분량이다. 이전 모델은 절반인 128,000개였으니, 회의 도중 앞 한 시간의 발언을 잊지 않는 사람과, 두 시간 전 발언까지 또렷이 기억하는 사람의 차이 정도로 보면 된다. 긴 문서, 긴 영상, 긴 대화에서 진가가 드러난다.

무엇이 달라지는가

이 연구가 실현되면 우리 일상에서 어떤 장면이 가능해질까. 시각장애가 있는 사람이 휴대폰을 들고 거리를 걸으면, AI가 간판과 안내방송과 신호음을 동시에 해석해 "왼쪽 카페가 영업 중이고, 방금 마을버스가 도착했다"고 말해줄 수 있다. 노년층은 약통 사진과 의사의 음성 설명을 함께 보여주며 "이 약 언제 먹어야 하지?"라고 물을 수 있다. 학생은 강의 영상을 통째로 던지고 "교수님이 화이트보드에 쓴 공식이랑 그때 한 농담을 같이 정리해줘"라고 부탁할 수 있다.

솔직한 한계

만능처럼 보이지만 그림자도 있다. 도서관 비유로 돌아가면, 이 도서관은 여전히 어떤 책을 깨울지 결정하는 사서의 직관에 의존한다. 사서가 잘못된 전문가를 호출하면 엉뚱한 답이 나온다. 또 BF16, FP8, FP4 같은 '양자화' 형식으로 모델을 압축해 배포하는데, 이건 책의 글자를 작게 줄여 두꺼운 책을 얇게 만드는 것과 같다. 글자가 작아지면 가지고 다니기 편하지만, 너무 줄이면 가독성이 떨어지듯, 압축이 심할수록 정확도는 미세하게 떨어진다. 어디까지 압축해도 의미가 살아남는지 — 그 경계는 여전히 실험 중이다.

그리고 가장 본질적인 질문이 남는다. 다섯 감각을 한 몸에 합친 이 AI는 정말로 인간처럼 '통합된 이해'를 하는 걸까, 아니면 다섯 개의 분리된 감각을 빠르게 번역해 이어붙이는 걸까. 비유의 단계에서는 한 사람의 친구처럼 보이지만, 그 안을 들여다보면 여전히 여러 명의 통역사들이 분주히 움직이고 있다. 진짜 통합된 지각으로 가는 길은, 이제 한 걸음 더 나아갔을 뿐이다.

태그: AI, 멀티모달, 엔비디아, 딥러닝
📄 원문: https://arxiv.org/abs/2604.24954

🌐 English version on Dev.to: https://dev.to/xoqhdgh1002/the-machine-that-reads-watches-listens-all-at-once-2c67

0개의 댓글