[SKT AI Fellowship] 6월 3일 (월) 1차 회의

함지율·2024년 6월 3일

디그다의 꿈 속

목록 보기

7/12

안녕하세요! 이제 본격적으로 SKT AI Fellowship 6기 활동을 시작해 보려 합니다. 저희 팀은 김태형, 정현기, 함지율로 구성되어 있습니다. 데보션에 공식적으로 포스트를 작성하기 전에 개인 블로그로 기록하고자 합니다!

연구 과제명
[B-5] 대규모 Multimodal AI 모델을 이용한 영상 검색 시스템

팀명: 텔레토비전
의미: 텔레토비와 함께하는 비전 프로젝트
(김태형: 보라돌이, 정현기: 뚜비, 함지율: 나나, 멘토님: 햇님)

Ground Rule

2주 간격 멘토님 참여 프로젝트 회의

8월 2주차 프로젝트 중간 발표

매주 월, 목 오후 3시 팀원 회의

2024년 06월 03일 (월) 1차 회의록

텔레토비전 출발!

먼저 프로젝트 시작 전, 연구 과제 계획서에서 제안한 방법을 다시 복기하였습니다. 전체적인 구조도와 함께 간략하게 보여드리겠습니다.

연구 과제 문제 정의

저희 팀은 Multimodal AI 영상 검색 시스템을 크게 4 가지 문제로 정의하였습니다.

1. 비디오 영상 간 검색

2. 비디오 영상 내 검색

3. 비디오 영상 분석

4. 비디오 영상 하이라이트 요약

비디오 영상 간 검색

비디오 영상 내 검색

비디오 영상 분석

비디오 영상 하이라이트 요약

연구 과제 접근

앞선 연구 과제 문제 정의를 수행하기 전에 먼저 몇 가지 실험 해야 할 점을 체크하였습니다.

1. Image 검색 및 답변 품질 실험

2. Image + Visual Prompt 에 대한 LLM 답변 품질 실험

3. Text Prompt Tuning 을 통한 답변 품질 고도화 실험

4. Fine-Tuning 전 모델의 성능 폭 실험 정리 (잘 나온 케이스, 잘 나오지 않은 케이스)

비디오의 정보를 추출하고 저장한 후 검색에 사용하기 전에 LLM 이 어느정도로 이미지 검색 성능이 나오는지 실험하고자 하였습니다. 해당 실험이 완료되면 1) 비디오 영상 특징 추출, 2) Vector DB 를 통한 특징 저장, 3) RAG 및 Image + Text + Visual Prompt를 활용한 Task 에 적합한 검색 시스템 구축을 할 예정입니다. 금일 회의록을 정리하면 아래와 같습니다.