데이터셋 다운로드

그녕·2024년 7월 19일
0

AI

목록 보기
24/32

AudioSet 다운받기

이번에는 AudioSet을 다운 받아봤습니다.

논문링크
AudioSet에 대한 논문입니다.

  • 오디오 이벤트의 수동 주석이 달린 대규모 데이터셋이며 (유튜브 비디오 10초의 영상) 제한된 도메인이 아닌 모든 소리 이벤트를 지닌 632개의 오디오 클래스에 대해 존재한다.

데이터셋 다운로드 링크

여기에서 하라는대로 데이터셋을 다운로드 하면 됩니다.
데이터셋이 evaluation.csv, balanced_train_segments.csv와 unbalanced_train_segments.csv로 나누어져있다고 했는데 csv파일이 다운로드 되지 않았습니다.
그래서 audioset ontology <- 이 링크를 보면 audioset에 관련된 json파일이 나옵니다.

과정

  1. ontology.json파일을 다운받았습니다.
  2. json에 명시된 유튜브 영상을 다운받기 위해 필요한 패키지인 youtube-dl을 다운 받았습니다.
pip install youtube-dl
  1. 그리고 script.py를 작성하여 json에 작성된 영상을 다운 받게끔 했습니다.

그리고 나니깐 에러가 생겼습니다.

[youtube] AyPqm-tm2y4: Downloading webpage
ERROR: Video unavailable
This video is no longer available because the YouTube account associated with this video has been terminated.
WARNING: The url doesn't specify the protocol, trying with http


[youtube] 46lVxNflfDw: Downloading webpage
ERROR: Unable to extract uploader id; please report this issue on https://yt-dl.org/bug . Make sure you are using the latest version; see  https://yt-dl.org/update  on how to update. Be sure to call youtube-dl with the --verbose flag and include its complete output.
WARNING: The url doesn't specify the protocol, trying with http

유튜브 계정에서 이 비디오가 삭제되어서 다운이 안된다는 에러가 뜨기도 하고 youtube-dl이 버전이 안맞는지 다운이 또 안됐습니다.

pip install --upgrade youtube-dl

그래서 업데이트도 해봤는데 또 같은 에러가 떴습니다.

  1. 그래서 다시 최근 버전인 yt-dlp를 사용해보았습니다.
pip install yt-dlp
  1. 그래서 다시 돌려보니 다운로드가 됐습니다!!
    몇개는 다운로드가 되고 또 몇개는
비디오 다운로드 오류: https://youtu.be/twGajApu-7g - WARNING: "-f best" selects the best pre-merged format which is often not the best option.
         To let yt-dlp download and merge the best available formats, simply do not pass any format selection.
         If you know what you are doing and want only the best pre-merged format, use "-f b" instead to suppress this warning
WARNING: Post-Processor arguments given without specifying name. The arguments will be given to all post-processors
ERROR: [youtube] twGajApu-7g: Private video. Sign in if you've been granted access to this video

=> 이 에러를 확인해보니
오류 비디오
이 링크를 찾아서 들어가보니 비공개 동영상으로 되어있었습니다. 그래서 다운로드가 안되는 상태였습니다.

비디오 다운로드 오류: https://youtu.be/A0Lpt0VWYCA - WARNING: "-f best" selects the best pre-merged format which is often not the best option.
         To let yt-dlp download and merge the best available formats, simply do not pass any format selection.
         If you know what you are doing and want only the best pre-merged format, use "-f b" instead to suppress this warning
WARNING: Post-Processor arguments given without specifying name. The arguments will be given to all post-processors
[download] Got error: <urllib3.connection.HTTPSConnection object at 0x7f065b28d8e0>: Failed to establish a new connection: [Errno 101] Network is unreachable. Giving up after 10 retries

=> 이 에러는 네트워크 에러인데 실제로 링크를 찾아서 들어가니 계정이 해지 되어서 영상이 없는 상태였습니다.

에러가 안뜬 비디오들은

이런식으로 영상이 잘 받아져서 재생됩니다.

다 다운로드 받는데까지 2일 정도 걸렸습니다.
audioset 논문에서는 영상의 개수가 1,789,621개라고 나와있었는데 다운받은 총 영상의 개수는 1781개였습니다.

애초에 ontology.json에 나와있는 영상 개수가 2868개입니다.

그리고 또 train,test,validation set이 따로 구분이 안되어있었습니다. (csv 파일이 안 열림)


VGGSound를 다운 받으려고 찾다가 audioset 다운 받는 github링크를 찾아서 download_audioset.py를 조금 수정해서 돌려보니 여러 음악 파일들과 조금의 동영상 파일이 다운로드 됐습니다.
git 링크
2일 정도 다운로드 하고있었는데 network가 끊겼다고 멈춰서 현재는 덜 다운로드 된거 같습니다.


VGGSound 다운받기

VGGSound는 데이터 다운로드 링크가 닫힌 상황이었는데 github issue를 찾아보니 사람들이 따로 데이터를 다운 받을 수 있게 링크를 열어놓은게 있어 그 중 부분만 다운로드 받아보았습니다.
git issue link
다운로드 링크

profile
AI 개발자

0개의 댓글