AI는 사람을 어떻게 '본다'? — Sapiens2, 인간을 이해하는 10억 장의 교과서

BHTAE·2026년 4월 29일

무대 위에 선 당신을 AI가 본다면

당신이 무대 위에 서 있다고 상상해보자. 카메라가 전신을 찍는다. 이 사진 한 장에서 컴퓨터가 무엇을 읽어낼 수 있을까? 손가락이 몇 도 각도로 구부러져 있는지, 셔츠와 피부의 경계가 어디서 나뉘는지, 빛이 어느 방향에서 들어와 얼굴 위에 어떤 그림자를 드리우는지, 그리고 당신의 코끝이 3차원 공간에서 정확히 어느 좌표에 위치하는지. 이 모든 것을 단 하나의 모델이 동시에 해낼 수 있다면?

Meta AI 연구소(Meta FAIR)가 발표한 Sapiens2는 바로 그런 야망을 담은 모델이다. 사람의 몸과 얼굴을 이해하는 것만을 전문으로 훈련된 AI — 인체를 연구하는 수십 년 경력의 탐정처럼, 오직 사람만 들여다보며 쌓은 안목을 가진.

AI에게 사진을 '공부'시키는 두 가지 학파

AI를 훈련시키는 방법에는 오랫동안 서로 경쟁해온 두 학파가 있다. 이 대립을 이해하면 Sapiens2가 왜 특별한지 보이기 시작한다.

첫 번째는 "구멍 채우기" 학습이다. 사진의 일부를 무작위로 가리고 "여기에 뭐가 있었을까?"를 AI에게 물어보는 방식이다. 어린이에게 퍼즐을 주면서 "빠진 조각을 찾아봐"라고 시키는 것과 같다. 이 방법의 강점은 명확하다. AI가 사진의 픽셀 하나하나, 질감, 색깔, 미세한 윤곽까지 꼼꼼하게 학습하게 된다. 논문에서는 이를 MAE(Masked Autoencoder)라 부르고, Sapiens 1세대가 주로 이 방식을 썼다.

두 번째는 "닮은꼴 찾기" 학습이다. 같은 사람을 밝은 조명에서 찍은 사진과 어두운 조명에서 찍은 사진을 나란히 보여주며 "이 둘은 같은 사람이야"라고 알려주고, 전혀 다른 사람의 사진을 보여주며 "이건 달라"라고 가르친다. 이를 대조 학습(Contrastive Learning)이라 한다. 이 방식은 "누가 누구인지", "이게 어떤 장면인지"라는 높은 수준의 개념을 빠르게 익힌다.

문제는 두 학파의 능력이 서로 다른 방향을 향한다는 것이다. 퍼즐 달인은 세밀한 것은 잘 보지만 큰 그림을 놓치기 쉽고, 닮은꼴 달인은 개념은 잘 파악하지만 "손가락의 주름이 정확히 어디에 있나"는 흘려버릴 수 있다.

색깔이 증발하는 함정

닮은꼴 찾기 학습에는 특히 흥미로운 함정이 숨어 있다. 연구자들은 이를 "표현 표류(representation drift)"라고 부른다. 비유로 풀어보자.

당신이 색맹인 조수와 함께 미술관을 견학한다고 하자. 그 조수는 그림의 주제, 화가의 의도, 구도, 원근법은 완벽하게 이해한다. 하지만 "이 그림은 파란 드레스가 핵심 포인트"라는 사실을 인식하지 못한다. 닮은꼴 찾기 학습은 AI에게 두 사진을 "같다"고 연결 짓기 위해, 조명이나 색깔처럼 상황마다 달라지는 표면적인 특징을 무시하도록 훈련시킨다. "밝은 곳의 빨간 드레스와 어두운 곳의 빨간 드레스를 같다고 봐야지" — 이 훈련을 반복하면서 AI는 색깔 정보를 서서히 잃어버린다.

이것이 사람 전문 AI에게 치명적인 이유는 단순하다. 입술의 미묘한 색감, 귀걸이의 광택, 머리카락의 질감 — 이런 세밀한 정보들이 실제 디지털 아바타를 만들거나 몸의 각 부위를 정밀하게 구분할 때 핵심이기 때문이다.

Sapiens2의 해법: 두 선생님을 동시에 모시기

Sapiens2의 핵심 아이디어를 한 문장으로 말하면 이렇다. "왜 하나만 골라야 해? 둘 다 동시에 써보자."

퍼즐 맞추기로 세밀한 픽셀 정보를 학습하면서, 동시에 닮은꼴 찾기로 고수준 개념도 익힌다. 그런데 결정적인 차이가 있다. 닮은꼴 찾기를 할 때, 색깔을 지우거나 사진을 과하게 변형시키지 않는다. "자기 자신을 선생님 삼아(self-distillation)" 원본에 가까운 두 버전을 비교한다. 색은 살리되, 개념만 뽑아낸다.

요리 학교의 비유로 다시 설명해보자. 학생에게 두 가지 훈련을 동시에 시킨다. 첫째, 눈을 가리고 음식을 먹어보며 재료를 맞히게 한다 — 감각의 세밀함을 기르는 훈련. 둘째, 이탈리안 요리와 프렌치 요리를 비교하며 전체적인 스타일을 구분하게 한다 — 개념적 이해를 기르는 훈련. 두 훈련을 함께 받은 요리사는 파스타 한 젓가락에서 재료의 비율까지 알아내면서도, 그것이 로마식인지 나폴리식인지까지 판단할 수 있다.

Sapiens2는 이 두 훈련을 동시에 받은 AI다.

10억 장의 교과서, 그리고 선입견 없는 공부법

모델이 아무리 훌륭해도 공부할 교과서가 부실하면 의미가 없다. Sapiens2는 웹에서 수집해 정제한 10억 장의 사람 사진으로 훈련됐다. 어린이부터 노인까지, 동아시아인부터 아프리카인까지, 스튜디오 조명 아래부터 거리의 역광까지. 조건 하나만 있었다 — 사진 속에 사람이 한 명 이상 있을 것.

여기서 연구자들이 강조하는 흥미로운 선택이 있다. "이 팔은 어깨 관절 위에 있다", "이 붉은 부분이 입술이다" 같은 설명표(라벨)를 일절 붙이지 않고 훈련시켰다. 사진만으로. 마치 아이가 언어를 배울 때처럼 — 부모가 모든 단어를 하나씩 알려주는 게 아니라, 수천 번의 반복 속에서 스스로 패턴을 깨닫는 것처럼. 이 접근 덕분에 모델은 특정 문화나 체형에 편향되지 않은, 인간 전반에 대한 일반적인 이해를 쌓을 수 있었다.

손가락 끝에서 피부 본연의 색까지

Sapiens2가 실제로 할 수 있는 일들을 구체적인 장면으로 생각해보자.

게임 속 캐릭터를 나와 똑같이 만들고 싶다면? 사진 한 장을 찍으면 AI가 "포인트맵(pointmap)"이라는 기술로 사진의 모든 픽셀에 3차원 좌표를 부여한다. 마치 조각가가 2D 설계도로 3D 조각품을 빚듯, 평면 사진에서 공간적 깊이를 끌어내는 것이다.

재활치료에서는? 환자가 팔을 올리는 영상을 찍으면 AI가 308개의 관절 지점을 추적하며 각도를 측정한다. 기존 모델들이 흐릿하게 처리하던 손가락 끝마디, 발가락 각각의 위치까지.

패션 업계에는 "앨비도(albedo) 추정"이라는 기능이 흥미롭다. 앨비도란 조명 효과를 걷어내고 물체 본연의 색만 추출하는 것이다. 형광등 아래서 찍힌 흰 셔츠인지, 무대 조명 아래서 찍힌 노란 셔츠인지를 구분해낸다 — 빛의 속임수를 꿰뚫어 진짜 색깔을 복원하는 것이다.

솔직한 한계와 남는 질문

이 연구에도 솔직한 한계는 있다. 최대 50억 개의 매개변수를 가진 이 모델을 일반 컴퓨터에서 실시간으로 돌리는 것은 현재로서는 불가능하다. 10억 장의 사진을 어떻게 수집하고 정제했는지, 그 안에 누구의 얼굴이 동의 없이 포함되었는지에 대한 논의도 논문에서는 충분히 다루어지지 않는다.

그리고 나는 한 가지 물음이 내내 머릿속에 남는다. AI가 사람의 몸을 이 정도로 정밀하게 이해하게 된다면 — 표정, 자세, 피부색, 3D 형태까지 픽셀 단위로 — 그 능력이 어떤 방향으로 사용될지에 대한 이야기를 연구자들은 더 진지하게 해야 하지 않을까. 기술의 정밀함과 그 사용의 신중함 사이에 벌어진 간격, 그것이야말로 지금 우리가 가장 주목해야 할 곳이다.

태그: 컴퓨터비전, 인체인식AI, 딥러닝, 메타AI연구

📄 원문: https://arxiv.org/abs/2604.21681

🌐 English version on Dev.to: https://dev.to/xoqhdgh1002/learning-to-see-a-human-being-5gnb

BHTAE

이전 포스트

AI가 왜 한 글자씩 대답할까 — 그 답답함을 6배 빠르게 해결한 연구

다음 포스트