멀티모달 프롬프팅의 이해

유관희·2025년 12월 20일
post-thumbnail

탁월한 화가라면 단 하나의 색으로도 멋진 작품을 만들 수 있겠지만, 더 많은 색을 사용할 수 있다면 훨씬 더 놀라운 결과를 만들어낼 수 있겠죠. 프롬프트도 마찬가지입니다. 텍스트만으로도 많은 걸 해낼 수 있지만, 여기에 다른 요소들을 더하면 완성도를 한 단계 끌어올릴 수 있습니다. 멀티모달 프롬프팅을 활용하면 텍스트만으로는 할수 없었던 훨씬 다양한 작업을 수행할 수 있으며, 새로운 가능성의 세계가 열립니다.

멀티모달 프롬프팅이란?

멀티모달 프롬프팅이라는 말은 다소 거창하게 들릴 수 있지만, 그 의미는 단순합니다. 우선 모달리티(Modality)는 텍스트, 이미지, 오디오처럼 생성형 AI 도구에 지시할 때 사용할 수 있는 다양한 형식을 뜻합니다. 따라서 멀티모달 프롬프팅이란 하나의 프롬프트에 여러 형식의 입력을 함께 사용하는 것을 말합니다.

멀티모달 프롬프팅이 유용한 이유는, 예를 들어 시각장애인을 위해 이미지를 자세한 설명문으로 바꾸거나, 마케팅 캠페인을 설명한 오디오 녹음을 바탕으로 시각 자료를 생성하는 등 다양한 작업이 가능해지기 때문입니다.

장점과 유의할 점

사실 우리가 살아가는 세상은 멀티모달로 이루어져 있습니다. 직장에서 프레젠테이션을 할 때, 우리는 텍스트, 슬라이드 이미지, 자신의 목소리를 함께 사용해 청중의 이해를 돕습니다. 멀티모달 프롬프팅도 마찬가지입니다. 텍스트, 이미지, 오디오 등 여러 모달리티를 연결하여 우리가 세상을 경험하는 방식 그대로 생성형 AI 도구에 더 명확한 지시를 내릴 수 있도록 도와줍니다.

물론 멀티 모달 입력이 모든 상황에 완벽한 해결책은 아니지만, 프롬프트의 품질을 개선하는 데 도움을 줄 수 있습니다. 예를 들어, 생성형 AI 도구에 해넘이에 대한 시를 써달라고 요청하면서 해넘이 사진을 함께 첨부하면, 생성형 AI 도구는 그 사진을 참고해서 더 구체적인 색감과 장면을 묘사할 수 있습니다. 그 결과 훨씬 생동감 넘치는 시 한 편이 완성되죠.

멀티모달 프롬프팅은 다양한 용도로 활용할 수 있지만 몇가지 한계도 있습니다. 생성형 AI 도구는 추상적인 개념을 다루거나 복잡한 모달리티 조합을 처리하는 데 어려움을 겪을 수 있으며, 때로는 아주 기본적인 상식조차 놓치기도 합니다. 생성형 AI 도구가 계속 발전하고 있긴 하지만, 멀티모달 프롬프팅을 통해 정확하게 수를 세는 계산 같은 작업은 아직 신뢰하기 어렵습니다.

멀티모달 프롬프팅 활용 사례

멀티모달 프롬프팅은 하나의 미디어에서 다른 미디어로 정보를 전환해야 할 때 가장 효과적입니다. 다음은 몇 가지 예시입니다.

  1. 냉장고 속 재료들을 찍은 사진을 제공하고 해당 재료들로 만들 수 있는 레시피를 제안해달라고 생성형 AI 도구에 요청합니다.

  2. 두 브랜드가 함께 협업하는 이벤트를 소셜 미디어에서 홍보하기 위해 디지털 티저를 만들어야 합니다. 각 브랜드의 로고와 컬러를 생성형 AI 도구에 함께 제공하고, 이 협업 이벤트를 위한 비주얼을 생성해달라고 요청합니다.

  3. 최근에 다녀온 숲을 배경으로 한 단편 소설을 쓰고 있는데, 그 분위기와 소리를 더 생생하게 묘사하고 싶습니다. 현장에서 직접 녹음한 오디오 파일을 프롬프트에 첨부하고, 이 소리를 바탕으로 생성형 AI 도구가 묘사에 도움을 줄 수 있게 합니다.

프롬프팅 프레임워크 활용

텍스트 기반 프롬프트를 설계할 때와 마찬가지로, 멀티모달 프롬프트를 만들 때도 프롬프팅 프레임워크를 그대로 적용할 수 있습니다. 바로 Thoughtfully(신중하게) Create(작성된) Really(정말) Excellent(훌륭한) Inputs(입력)입니다. 다만 프롬프트에서 사용하는 모달리티에 따라 프레임워크의 적용 방식은 달라질 수 있습니다.

작업: 페르소나와 형식을 명확히 하는 것뿐 아니라 각 모달리티를 어떻게 활용하고 싶은지, 왜 포함시키는지를 구체적으로 설명해야 합니다.

맥락: 텍스트 기반 프롬프트와 마찬가지로 생성형 AI 도구가 무엇을 해야 하는지 정확히 이해할 수 있도록 배경 지식, 즉 맥락을 제공해야 합니다. 프롬프트에 포함된 모달리티의 종류에 따라, 중요한 제약 조건이나 고려해야 할 사항이 있다면 반드시 포함시켜야 합니다. 예를 들어, 냉장고 안을 찍은 이미지를 입력한다면, 포장된 식품은 제외하고 과일과 채소만 고려해달라고 요청할 수 있습니다.

참고 자료: 생성형 AI 도구가 원하는 출력의 유형을 이해할 수 있도록 텍스트, 이미지, 오디오 등 참고 자료를 제공해보세요. 다만 모든 AI 도구가 모든 종류의 참고 자료를 지원하는 것은 아니므로, 사용 중인 생성형 AI 도구가 원하는 형식을 지원하는지 먼저 확인해야 합니다.

평가: 프롬프트를 평소처럼 실행한 뒤, 출력이 원하는 수준에 도달했는지 조금 더 세심하게 검토해보세요. 여러 모달리티를 함께 사용하고 있기 때문에 단순한 텍스트 결과보다 더 세심한 평가가 필요할 수 있습니다.

반복: 출력이 기대에 미치지 못했다면 네 가지 반복 기법 중 하나를 시도해보세요. 프롬프팅 프레임워크로 다시 돌아가 전체 구조를 재점검하거나, 프롬프트를 짧은 작업 단위로 나눠볼 수 있습니다. 또는 제약 조건을 추가해보고, 표현을 바꾸거나 유사하지만 다른 작업으로 전환해서 더 나은 응답을 이끌어내는 방법도 있습니다.

멀티모달 프롬프팅은 정보를 다양한 미디어로 전환하고 출력의 가능성을 무한하게 확장할 수 있는 강력한 도구입니다. 여러분은 예술가이며, 생성형 AI 도구는 여러분의 붓입니다.

profile
안녕하세요~

0개의 댓글