modality / multi-modal / VQA

FSA·2023년 4월 25일

딥러닝 기초

목록 보기

1/44

modality

딥러닝에서, modality란 입력 데이터의 종류 또는 유형을 의미합니다.
보통 비전, 음성, 텍스트 등과 같은 다양한 유형의 모달리티가 있으며, 이러한 모달리티는 서로 다른 형식의 입력 데이터를 나타냅니다.
예를 들어, 이미지 모달리티는 픽셀 값으로 구성된 이미지 데이터를 나타내고, 텍스트 모달리티는 단어, 문장 또는 문서와 같은 텍스트 데이터를 나타냅니다.
딥러닝 모델은 다양한 모달리티의 입력 데이터를 처리하고, 여러 모달리티를 조합하여 보다 정확한 예측 결과를 도출할 수 있습니다.

딥러닝에서, multi-modal은 여러 가지 유형의 모달리티(입력 데이터의 종류)를 사용하여 예측을 수행하는 모델을 의미합니다.
이러한 모델은 시각, 언어, 음성 등 다양한 모달리티에서 정보를 추출하고, 이를 결합하여 보다 정확한 예측 결과를 도출할 수 있습니다.
예를 들어, 이미지 캡셔닝이나 시각적 질의응답(VQA)과 같은 작업에서는 이미지와 텍스트 모달리티를 모두 사용하여 예측을 수행합니다.
이러한 방식으로 모델은 다양한 유형의 데이터에서 정보를 추출하고, 이를 통합하여 예측을 수행할 수 있습니다.

VQA(Visual Question Answering)

이미지나 비디오에 대한 질문에 대답을 제공하는 딥러닝 기술입니다.
VQA 시스템은 컴퓨터 비전과 자연어 처리를 결합하여, 이미지나 비디오에서 추출된 정보를 이용하여 자연어로 된 질문에 대한 답변을 생성합니다.
이 기술은 주로 이미지나 비디오에서 추출된 정보를 이용하여, 답변을 생성하는 방식으로 동작합니다.
예를 들어, "이 사진에는 어떤 동물이 있나요?"라는 질문에 대한 답변으로 "강아지" 라는 답변을 생성할 수 있습니다.
VQA 기술은 이미지나 비디오에서 발생하는 정보의 양이 많아지면서, 이를 빠르고 정확하게 처리하기 위해 개발되었습니다.
이러한 기술은 인터넷 검색, 자율 주행 자동차, 로봇 공학 등 다양한 분야에서 활용됩니다.

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

다음 포스트

pre-training / fine-tuning / transfer learning / prompt-tuning

0개의 댓글