🎨 미술관에서 작품을 ‘잘’ 감상한다는 것은?
작품 앞에 오래 서 있다고 해서, 그 사람이 그 작품을 잘 감상했다고 볼 수 있을까?
많은 관람객은 자신만의 방식으로 그림을 ‘보다가’ 금방 지나쳐 버리곤 한다. 도슨트나 오디오 가이드는 도움이 되지만, 관람자의 시선이나 감상 흐름에 맞춘 설명은 불가능하다.
관람자의 '눈'에 집중해보면 어떨까?
최근 미술관에서 오디오 가이드를 들으며 작품을 감상하는 관람객을 종종 볼 수 있다. 하지만 이 방식은 여전히 수동적이다. 관람객이 스스로 버튼을 눌러야 하고, 하나의 설명을 들을 때는 다른 작품에 집중하기 어렵다.
"내가 지금 눈으로 보고 있는 그 부분에 대한 설명을 자동으로 들을 수 있다면?"
이런 질문에서 출발한 것이 바로 아이트래킹(Eye Tracking) 기술이다. 사용자의 시선 데이터를 실시간으로 추적해, 그 사람이 무엇을 보고 있는지 파악하고, 해당 영역에 대한 정보를 제공해주는 기술이다.
아이트래킹은 사람이 화면이나 실제 물체를 볼 때 눈의 움직임과 응시 위치를 추적하는 기술이다. 이를 위해 다음과 같은 기술들이 활용된다.
- 시선 위치 추정: 눈동자의 위치를 기반으로 사용자가 보고 있는 화면 또는 실세계의 좌표 계산
- 주시 시간 분석: 얼마나 오랫동안 한 지점에 시선을 고정했는지 분석
- 시선 경로 시각화: 히트맵, 게이즈 플롯 등으로 시선 이동 경로 시각화
아이트래커는 눈동자의 흰자위와 검은자위의 색 경계를 검출하여 동공 중심을 찾아내고, 이 지점이 대응되는 곳을 ‘보는 지점’으로 가정을 하여 측정을 한다. 이곳이 중심와이며, 여기에는 시각 세포 중 고해상도의 변별 기능을 가진 원추세포가 몰려 있다. 안구에 적외선을 투사하여 동공의 움직임을 파악함으로서 시선의 좌표값과 기록된 시간 정보, 시선의 속도 등을 파악한다.
아이트래커를 통해 실험을 진행할 때는 참가자에게 시점 조정 과정을 먼저 시행한다. 시점 조정은 피험자마다 다른 응시 패턴을 교정하여 정확한 결과가 나오도록 돕는 과정이다. 이는 저울의 영점과 같이 기준점을 잡는 것으로 실험의 오차를 줄일 수 있는 과정으로써 데이터의 신뢰도나 정확도에 절대적인 영향을 미친다.
대표적인 아이트래킹 장비는 다음과 같다.
| 제품명 | 특징 | 가격대 |
|---|---|---|
| Tobii Pro Glasses 3 | 웨어러블 안경형, 100Hz, 시야 내 녹화 | 약 1,500~2,000만원 |
| Tobii Eye Tracker 5 | 게이머용 소비자 제품, 스크린 기반 | 약 $299 |
| Tobii Pro Spark | 정밀도 높은 연구용, 스크린 기반 | 가격 미공개 (문의 필요) |
미술관 프로젝트처럼 자유롭게 돌아다니며 실세계 물체를 보는 상황이라면, 웨어러블 타입의 아이트래커(Tobii Pro Glasses 3)가 적합하다. 이 장비는 시선 방향과 실제 카메라 영상이 함께 수집되어, 사용자가 작품의 어느 부분을 봤는지 정확히 알 수 있다. 그러나 가격이 너무 비싸다는 큰 단점이 있다. 시중의 아이트래킹 장비는 가격이 너무 비싸 현실적인 제약이 있다. 그래서 직접 아이트래킹 하드웨어를 제작하는 것이 훨씬 효율적일 것이다.
아이트래킹을 통해 사용자가 어디를 보고 있는지 안다고 해서 설명이 자동으로 나올 수는 없다.
우리가 보고 있는 그림 속 ‘무엇’을 보는지를 인식해야 한다.
이를 위해 필요한 것이 바로 객체 인식(Object Detection)이다.
객체 인식이란 이미지 속에 있는 사물이나 인물, 배경 요소들을 구별해 위치를 표시하는 기술이다. 대표적인 딥러닝 모델로는 YOLO(You Only Look Once), Detectron2, SSD, Faster-RCNN 등이 있다.
실제 여러 스마트 안경 아이트래킹 프로젝트에서 시선을 기반으로 사물을 제어하는 데 성공했다.
이 프로젝트처럼 미술관 도슨트에 적용한다면, 사용자가 어떤 그림을, 그 중 어떤 객체를 응시하고 있는지를 실시간으로 감지하고, 그 객체에 대한 설명을 제공할 수 있을 것이다.
객체 인식 결과는 보통 Bounding Box 또는 Polygon 형식으로 표현된다
| 구분 | Bounding Box | Polygon |
|---|---|---|
| 설명 | 사각형 박스로 객체 위치 지정 | 다각형으로 객체 경계 정확히 지정 |
| 장점 | 속도 빠름, 구현 쉬움 | 정밀한 표현 가능 |
| 단점 | 부정확한 영역 포함 | 복잡한 구현, 처리량 증가 |
| 추천 용도 | 프로토타입, 단순 객체 | 미술작품, 복잡한 형상 |
미술 작품은 형태가 다양하고 세밀하기 때문에, 실제 서비스에서는 Polygon 기반 데이터가 훨씬 효과적이다.
LLM (대형 언어 모델) 과 RAG (Retrieval Augmented Generation) 기술을 더하면, 단순한 사전 정의된 설명을 넘어서
실시간 질의응답형 도슨트도 가능하다.
예를 들어 사용자가 “이 사람은 왜 슬퍼 보이나요?”라고 말하면,
→ 작품 설명 + 관련 미술사 지식을 찾아
→ 대화형으로 답변할 수 있다.
"모나리자": {
"인물": [x1, y1, x2, y2],
"배경 산맥": [x1, y1, x2, y2],
"손": [x1, y1, x2, y2]
}ex)
사용자가 손 부근을 오래 응시 →
"모나리자의 손은 편안하고 자연스럽게 포개져 있습니다. 이는 당시 르네상스 시대의 인체 표현 기법의 특징 중 하나입니다."
대화형 도슨트
개인화
지금까지 대략적으로 정리한 기술과 그 기술의 역할은 다음과 같다. 이 모든 기술이 결합될 때, 관람자의 시선을 따라가는 스마트 도슨트 경험이 완성될 수 있다.
| 기술 | 역할 |
|---|---|
| 아이트래킹 | 사용자가 어떤 부분을 보고 있는지 인식 |
| 객체 인식 (YOLO 등) | 그림 속 요소(인물, 배경, 상징 등)를 식별 |
| RAG + LLM | 그림 설명 및 사용자 질문 응답 |
| Bounding Box / Polygon | 객체 위치 정확도 조절 방식 |
| Tobii Pro Glasses | 웨어러블 형태의 실시간 시선 추적 장비 |