안녕하세요! 이제 본격적으로 SKT AI Fellowship 6기 활동을 시작해 보려 합니다. 저희 팀은 김태형, 정현기, 함지율로 구성되어 있습니다. 데보션에 공식적으로 포스트를 작성하기 전에 개인 블로그로 기록하고자 합니다!
연구 과제명
[B-5] 대규모 Multimodal AI 모델을 이용한 영상 검색 시스템
팀명: 텔레토비전
의미: 텔레토비와 함께하는 비전 프로젝트
(김태형: 보라돌이, 정현기: 뚜비, 함지율: 나나, 멘토님: 햇님)
Ground Rule
- 2주 간격 멘토님 참여 프로젝트 회의
- 8월 2주차 프로젝트 중간 발표
- 매주 월, 목 오후 3시 팀원 회의
2024년 06월 03일 (월) 1차 회의록
먼저 프로젝트 시작 전, 연구 과제 계획서에서 제안한 방법을 다시 복기하였습니다. 전체적인 구조도와 함께 간략하게 보여드리겠습니다.
저희 팀은 Multimodal AI 영상 검색 시스템을 크게 4 가지 문제로 정의하였습니다.
1. 비디오 영상 간 검색
2. 비디오 영상 내 검색
3. 비디오 영상 분석
4. 비디오 영상 하이라이트 요약
앞선 연구 과제 문제 정의를 수행하기 전에 먼저 몇 가지 실험 해야 할 점을 체크하였습니다.
1. Image 검색 및 답변 품질 실험
2. Image + Visual Prompt 에 대한 LLM 답변 품질 실험
3. Text Prompt Tuning 을 통한 답변 품질 고도화 실험
4. Fine-Tuning 전 모델의 성능 폭 실험 정리 (잘 나온 케이스, 잘 나오지 않은 케이스)
비디오의 정보를 추출하고 저장한 후 검색에 사용하기 전에 LLM 이 어느정도로 이미지 검색 성능이 나오는지 실험하고자 하였습니다. 해당 실험이 완료되면 1) 비디오 영상 특징 추출, 2) Vector DB 를 통한 특징 저장, 3) RAG 및 Image + Text + Visual Prompt를 활용한 Task 에 적합한 검색 시스템 구축을 할 예정입니다. 금일 회의록을 정리하면 아래와 같습니다.
[2024년 06월 06일 (금) 회의 전 수행 사항]
Step1) 영상 검색 시스템에 적합한 데이터 수집
Step2) VLM 논문 읽고 Baseline 정의 및 앞선 4가지 실험 수행
Step3) Fine-Tuning 여부 확인
텔레토비전!! 이제 정말 출발했습니다! 다음 애기로 만나요~!~!
이 포스트는 SKT AI Fellowship 6기 텔레토비전(김태형, 정현기, 함지율) 팀의 06월 03일 회의록입니다.
텔레토비전 SKT AI Fellowship 6기 완주까지!! 화이팅!!!!