아이트래킹(Eye Tracking)과 미술관 도슨트

두밥비·2025년 4월 5일

article

목록 보기
7/23
post-thumbnail

🎨 미술관에서 작품을 ‘잘’ 감상한다는 것은?

작품 앞에 오래 서 있다고 해서, 그 사람이 그 작품을 잘 감상했다고 볼 수 있을까?

많은 관람객은 자신만의 방식으로 그림을 ‘보다가’ 금방 지나쳐 버리곤 한다. 도슨트나 오디오 가이드는 도움이 되지만, 관람자의 시선이나 감상 흐름에 맞춘 설명은 불가능하다.

관람자의 '눈'에 집중해보면 어떨까?

최근 미술관에서 오디오 가이드를 들으며 작품을 감상하는 관람객을 종종 볼 수 있다. 하지만 이 방식은 여전히 수동적이다. 관람객이 스스로 버튼을 눌러야 하고, 하나의 설명을 들을 때는 다른 작품에 집중하기 어렵다.

"내가 지금 눈으로 보고 있는 그 부분에 대한 설명을 자동으로 들을 수 있다면?"

이런 질문에서 출발한 것이 바로 아이트래킹(Eye Tracking) 기술이다. 사용자의 시선 데이터를 실시간으로 추적해, 그 사람이 무엇을 보고 있는지 파악하고, 해당 영역에 대한 정보를 제공해주는 기술이다.


👓 아이트래킹 기술이란?


아이트래킹은 사람이 화면이나 실제 물체를 볼 때 눈의 움직임과 응시 위치를 추적하는 기술이다. 이를 위해 다음과 같은 기술들이 활용된다.

  • 시선 위치 추정: 눈동자의 위치를 기반으로 사용자가 보고 있는 화면 또는 실세계의 좌표 계산
  • 주시 시간 분석: 얼마나 오랫동안 한 지점에 시선을 고정했는지 분석
  • 시선 경로 시각화: 히트맵, 게이즈 플롯 등으로 시선 이동 경로 시각화

아이트래커는 눈동자의 흰자위와 검은자위의 색 경계를 검출하여 동공 중심을 찾아내고, 이 지점이 대응되는 곳을 ‘보는 지점’으로 가정을 하여 측정을 한다. 이곳이 중심와이며, 여기에는 시각 세포 중 고해상도의 변별 기능을 가진 원추세포가 몰려 있다. 안구에 적외선을 투사하여 동공의 움직임을 파악함으로서 시선의 좌표값과 기록된 시간 정보, 시선의 속도 등을 파악한다.

아이트래커를 통해 실험을 진행할 때는 참가자에게 시점 조정 과정을 먼저 시행한다. 시점 조정은 피험자마다 다른 응시 패턴을 교정하여 정확한 결과가 나오도록 돕는 과정이다. 이는 저울의 영점과 같이 기준점을 잡는 것으로 실험의 오차를 줄일 수 있는 과정으로써 데이터의 신뢰도나 정확도에 절대적인 영향을 미친다.


어떤 하드웨어가 필요한가?


대표적인 아이트래킹 장비는 다음과 같다.

제품명특징가격대
Tobii Pro Glasses 3웨어러블 안경형, 100Hz, 시야 내 녹화약 1,500~2,000만원
Tobii Eye Tracker 5게이머용 소비자 제품, 스크린 기반약 $299
Tobii Pro Spark정밀도 높은 연구용, 스크린 기반가격 미공개 (문의 필요)

미술관 프로젝트처럼 자유롭게 돌아다니며 실세계 물체를 보는 상황이라면, 웨어러블 타입의 아이트래커(Tobii Pro Glasses 3)가 적합하다. 이 장비는 시선 방향과 실제 카메라 영상이 함께 수집되어, 사용자가 작품의 어느 부분을 봤는지 정확히 알 수 있다. 그러나 가격이 너무 비싸다는 큰 단점이 있다. 시중의 아이트래킹 장비는 가격이 너무 비싸 현실적인 제약이 있다. 그래서 직접 아이트래킹 하드웨어를 제작하는 것이 훨씬 효율적일 것이다.


YOLO v3와 객체 인식


아이트래킹을 통해 사용자가 어디를 보고 있는지 안다고 해서 설명이 자동으로 나올 수는 없다.
우리가 보고 있는 그림 속 ‘무엇’을 보는지를 인식해야 한다.
이를 위해 필요한 것이 바로 객체 인식(Object Detection)이다.

객체 인식이란 이미지 속에 있는 사물이나 인물, 배경 요소들을 구별해 위치를 표시하는 기술이다. 대표적인 딥러닝 모델로는 YOLO(You Only Look Once), Detectron2, SSD, Faster-RCNN 등이 있다.

실제 여러 스마트 안경 아이트래킹 프로젝트에서 시선을 기반으로 사물을 제어하는 데 성공했다.

이 프로젝트처럼 미술관 도슨트에 적용한다면, 사용자가 어떤 그림을, 그 중 어떤 객체를 응시하고 있는지를 실시간으로 감지하고, 그 객체에 대한 설명을 제공할 수 있을 것이다.


🔲 Bounding Box vs 🔺 Polygon – 정확도를 높이는 방식


객체 인식 결과는 보통 Bounding Box 또는 Polygon 형식으로 표현된다

구분Bounding BoxPolygon
설명사각형 박스로 객체 위치 지정다각형으로 객체 경계 정확히 지정
장점속도 빠름, 구현 쉬움정밀한 표현 가능
단점부정확한 영역 포함복잡한 구현, 처리량 증가
추천 용도프로토타입, 단순 객체미술작품, 복잡한 형상

미술 작품은 형태가 다양하고 세밀하기 때문에, 실제 서비스에서는 Polygon 기반 데이터가 훨씬 효과적이다.


💡 사용자는 어떻게 경험할까?


  1. 관람객이 스마트글래스를 착용하고 그림 감상
  2. 특정 인물이나 상징을 일정 시간 응시
  3. 시스템이 시선 위치를 바탕으로 해당 객체 인식
  4. LLM + RAG를 통해 작품 설명 제공 (예: "이 인물은 ~~으로 추정됩니다.")
  5. 사용자는 음성 또는 텍스트로 대화 계속

LLM (대형 언어 모델)RAG (Retrieval Augmented Generation) 기술을 더하면, 단순한 사전 정의된 설명을 넘어서
실시간 질의응답형 도슨트도 가능하다.
예를 들어 사용자가 “이 사람은 왜 슬퍼 보이나요?”라고 말하면,
→ 작품 설명 + 관련 미술사 지식을 찾아
→ 대화형으로 답변할 수 있다.


기능 시나리오


  1. 작품 감상 중
    • 사용자가 그림의 특정 부분을 3초 이상 응시 → ex) 모나리자의 배경 산맥 부분
    • → 시스템이 해당 부분 관련 정보 제공 → "이 배경은 이탈리아의 '몬테날레 산맥'으로 추정됩니다."

구체적인 분석 및 설명 방식

  1. 작품 사전 분석 (Preprocessing)
  • 전시 중인 작품을 미리 객체 검출 (ex: YOLO, Detectron2 등 객체 검출을 위한 딥러닝 모델 사용…) → 인물, 배경, 사물, 상징적 오브젝트 등을 Bounding Box 또는 Polygon으로 저장
    "모나리자": {
        "인물": [x1, y1, x2, y2],
        "배경 산맥": [x1, y1, x2, y2],
        "손": [x1, y1, x2, y2]
    }
  1. 아이트래킹 연동
  • 사용자가 주시 중인 좌표와 사전 분석된 객체 위치를 실시간 매칭 → 어느 영역을 보고 있는지 파악
  1. 설명 연결
  • 객체마다 RAG 기반 설명 문구를 미리 준비 또는 사용자가 질문하면 즉석에서 LLM이 검색 후 설명

ex)

사용자가 손 부근을 오래 응시 →

"모나리자의 손은 편안하고 자연스럽게 포개져 있습니다. 이는 당시 르네상스 시대의 인체 표현 기법의 특징 중 하나입니다."

  1. 대화형 도슨트

    • 사용자가 음성 또는 앱에서 질문
    • "저 배경의 의미가 뭔가요?"
    • RAG + LLM이 관련 문헌을 찾아 자연스럽게 대화
  2. 개인화

    • 사용자가 "추상화에 대한 설명은 간단하게"라고 사전 설정하면 → 모든 추상화 작품에 대해 짧은 요약형 설명 제공
    • 이전 방문 기록에 따라 → "지난번에 보셨던 '클림트' 작품과 비슷한 스타일입니다."와 같은 연결 피드백 제공

📌 정리

지금까지 대략적으로 정리한 기술과 그 기술의 역할은 다음과 같다. 이 모든 기술이 결합될 때, 관람자의 시선을 따라가는 스마트 도슨트 경험이 완성될 수 있다.

기술역할
아이트래킹사용자가 어떤 부분을 보고 있는지 인식
객체 인식 (YOLO 등)그림 속 요소(인물, 배경, 상징 등)를 식별
RAG + LLM그림 설명 및 사용자 질문 응답
Bounding Box / Polygon객체 위치 정확도 조절 방식
Tobii Pro Glasses웨어러블 형태의 실시간 시선 추적 장비
profile
개발새발

0개의 댓글