[SKT AI Fellowship] 6월 3일 (월) 1차 회의

함지율·2024년 6월 3일
3

디그다의 꿈 속

목록 보기
7/12
post-thumbnail

안녕하세요! 이제 본격적으로 SKT AI Fellowship 6기 활동을 시작해 보려 합니다. 저희 팀은 김태형, 정현기, 함지율로 구성되어 있습니다. 데보션에 공식적으로 포스트를 작성하기 전에 개인 블로그로 기록하고자 합니다!

연구 과제명
[B-5] 대규모 Multimodal AI 모델을 이용한 영상 검색 시스템

팀명: 텔레토비전
의미: 텔레토비와 함께하는 비전 프로젝트
(김태형: 보라돌이, 정현기: 뚜비, 함지율: 나나, 멘토님: 햇님)

Ground Rule

  • 2주 간격 멘토님 참여 프로젝트 회의
  • 8월 2주차 프로젝트 중간 발표
  • 매주 월, 목 오후 3시 팀원 회의

2024년 06월 03일 (월) 1차 회의록

텔레토비전 출발!

먼저 프로젝트 시작 전, 연구 과제 계획서에서 제안한 방법을 다시 복기하였습니다. 전체적인 구조도와 함께 간략하게 보여드리겠습니다.

연구 과제 문제 정의

저희 팀은 Multimodal AI 영상 검색 시스템을 크게 4 가지 문제로 정의하였습니다.

1. 비디오 영상 간 검색

2. 비디오 영상 내 검색

3. 비디오 영상 분석

4. 비디오 영상 하이라이트 요약

비디오 영상 간 검색

비디오 영상 내 검색

비디오 영상 분석

비디오 영상 하이라이트 요약

연구 과제 접근

앞선 연구 과제 문제 정의를 수행하기 전에 먼저 몇 가지 실험 해야 할 점을 체크하였습니다.

1. Image 검색 및 답변 품질 실험

2. Image + Visual Prompt 에 대한 LLM 답변 품질 실험

3. Text Prompt Tuning 을 통한 답변 품질 고도화 실험

4. Fine-Tuning 전 모델의 성능 폭 실험 정리 (잘 나온 케이스, 잘 나오지 않은 케이스)

비디오의 정보를 추출하고 저장한 후 검색에 사용하기 전에 LLM 이 어느정도로 이미지 검색 성능이 나오는지 실험하고자 하였습니다. 해당 실험이 완료되면 1) 비디오 영상 특징 추출, 2) Vector DB 를 통한 특징 저장, 3) RAG 및 Image + Text + Visual Prompt를 활용한 Task 에 적합한 검색 시스템 구축을 할 예정입니다. 금일 회의록을 정리하면 아래와 같습니다.

[2024년 06월 06일 (금) 회의 전 수행 사항]

Step1) 영상 검색 시스템에 적합한 데이터 수집

Step2) VLM 논문 읽고 Baseline 정의 및 앞선 4가지 실험 수행

Step3) Fine-Tuning 여부 확인

텔레토비전!! 이제 정말 출발했습니다! 다음 애기로 만나요~!~!

이 포스트는 SKT AI Fellowship 6기 텔레토비전(김태형, 정현기, 함지율) 팀의 06월 03일 회의록입니다.

profile
꿈 꾸는 디그다

4개의 댓글

comment-user-thumbnail
2024년 6월 3일

텔레토비전 SKT AI Fellowship 6기 완주까지!! 화이팅!!!!

1개의 답글
comment-user-thumbnail
2024년 6월 4일

텔레토비전 화이팅!!😀😀

1개의 답글