[CNN-LSTM 2] input data가 이미지인 CNN-LSTM 모델 - video classification 중심으로

SeomIII·2022년 4월 21일

SONSU

목록 보기

7/29

📝 저번 시간에 이어 'video classification' 키워드로 검색

📌CNN 모델 선택

✔️ VGG16 vs Inception V3

Video-Classification-CNN-and-LSTM github에서는 VGG16을 사용함
우리가 원래 참고하던 논문은 Incetion V3 사용
'청각장애인을 위한 수어 영상-자연어 번역 서비스 및 모바일 어플리케이션 구현'에서 참고한 사이트는 Inception V3 사용
vgg16 vs inception v3 질문의 답변을 살펴보면 vgg16보다 inception v3가 더 복잡한 작업에 사용된다고 함. 정답은 존재하지 않으며, 데이터 셋에 따라 결과는 달라진다고 함.

✅ 결론 : Inception V3 선택

선택 이유 : 찾아본 레퍼런스들은 GoogleNet 1개, VGG16 1개, Inception V3 2개 이다. Inception v3의 개수가 많기도하고, '청각장애인을 위한 수어 영상-자연어 번역 서비스 및 모바일 어플리케이션 구현' 논문, 완전 처음에 참고하던 논문(딥러닝 기반 Openpose를 이용한 수화 동작 인식에 관한 연구), 'CNN(Convolutional Neural Network) 모델을 이용한 야구 경기 영상의 동작 분류 및 검색시스템' 에서 사용한 것이 inception v3 이다. 또한 찾아보니 inception v3가 vgg16모델보다 더 복잡한 작업에 사용된다고 해서 일단은 inception v3을 선택!

📝 참고할 사이트의 데이터 셋은 UCF101 데이터 셋이지만, 우리의 데이터로 변경하여 학습 시도!

'청각장애인을 위한 수어 영상-자연어 번역 서비스 및 모바일 어플리케이션 구현'에서 참고한 사이트'

VGG16을 사용한 자료는 자신의 데이터 셋을 가져와서 이용했으며, train,validate로 나눠 학습시켰다. 따라서 해당 자료와 위의 자료를 비교해가며 적절히 코드를 짜야한다고 생각해서 두가지 자료의 코드를 분석하려 한다.
코드분석 노션페이지_ 계속 업데이트 예정

❓np.zeros 함수

0으로 초기화된 shape 차원의 ndarray 배열 객체를 반환한다.

참고
DBpia 논문

영상 처리와 CNN을 이용한 애완동물 영상 세부 분류 비교

CNN(Convolutional Neural Network) 모델을 이용한 야구 경기 영상의 동작 분류 및 검색시스템

FE Programmer

이전 포스트

[CNN-LSTM 1] input data가 이미지인 CNN-LSTM 모델 자료조사

다음 포스트

[딥러닝] 3frame 당 1장? 1frame 당 1장?

0개의 댓글