이번에는 AudioSet을 다운 받아봤습니다.
논문링크
AudioSet에 대한 논문입니다.
여기에서 하라는대로 데이터셋을 다운로드 하면 됩니다.
데이터셋이 evaluation.csv, balanced_train_segments.csv와 unbalanced_train_segments.csv로 나누어져있다고 했는데 csv파일이 다운로드 되지 않았습니다.
그래서 audioset ontology <- 이 링크를 보면 audioset에 관련된 json파일이 나옵니다.
pip install youtube-dl
그리고 나니깐 에러가 생겼습니다.
[youtube] AyPqm-tm2y4: Downloading webpage
ERROR: Video unavailable
This video is no longer available because the YouTube account associated with this video has been terminated.
WARNING: The url doesn't specify the protocol, trying with http
[youtube] 46lVxNflfDw: Downloading webpage
ERROR: Unable to extract uploader id; please report this issue on https://yt-dl.org/bug . Make sure you are using the latest version; see https://yt-dl.org/update on how to update. Be sure to call youtube-dl with the --verbose flag and include its complete output.
WARNING: The url doesn't specify the protocol, trying with http
유튜브 계정에서 이 비디오가 삭제되어서 다운이 안된다는 에러가 뜨기도 하고 youtube-dl이 버전이 안맞는지 다운이 또 안됐습니다.
pip install --upgrade youtube-dl
그래서 업데이트도 해봤는데 또 같은 에러가 떴습니다.
pip install yt-dlp
비디오 다운로드 오류: https://youtu.be/twGajApu-7g - WARNING: "-f best" selects the best pre-merged format which is often not the best option.
To let yt-dlp download and merge the best available formats, simply do not pass any format selection.
If you know what you are doing and want only the best pre-merged format, use "-f b" instead to suppress this warning
WARNING: Post-Processor arguments given without specifying name. The arguments will be given to all post-processors
ERROR: [youtube] twGajApu-7g: Private video. Sign in if you've been granted access to this video
=> 이 에러를 확인해보니
오류 비디오
이 링크를 찾아서 들어가보니 비공개 동영상으로 되어있었습니다. 그래서 다운로드가 안되는 상태였습니다.
비디오 다운로드 오류: https://youtu.be/A0Lpt0VWYCA - WARNING: "-f best" selects the best pre-merged format which is often not the best option.
To let yt-dlp download and merge the best available formats, simply do not pass any format selection.
If you know what you are doing and want only the best pre-merged format, use "-f b" instead to suppress this warning
WARNING: Post-Processor arguments given without specifying name. The arguments will be given to all post-processors
[download] Got error: <urllib3.connection.HTTPSConnection object at 0x7f065b28d8e0>: Failed to establish a new connection: [Errno 101] Network is unreachable. Giving up after 10 retries
=> 이 에러는 네트워크 에러인데 실제로 링크를 찾아서 들어가니 계정이 해지 되어서 영상이 없는 상태였습니다.
에러가 안뜬 비디오들은
이런식으로 영상이 잘 받아져서 재생됩니다.
다 다운로드 받는데까지 2일 정도 걸렸습니다.
audioset 논문에서는 영상의 개수가 1,789,621개라고 나와있었는데 다운받은 총 영상의 개수는 1781개였습니다.
애초에 ontology.json에 나와있는 영상 개수가 2868개입니다.
그리고 또 train,test,validation set이 따로 구분이 안되어있었습니다. (csv 파일이 안 열림)
VGGSound를 다운 받으려고 찾다가 audioset 다운 받는 github링크를 찾아서 download_audioset.py를 조금 수정해서 돌려보니 여러 음악 파일들과 조금의 동영상 파일이 다운로드 됐습니다.
git 링크
2일 정도 다운로드 하고있었는데 network가 끊겼다고 멈춰서 현재는 덜 다운로드 된거 같습니다.
VGGSound는 데이터 다운로드 링크가 닫힌 상황이었는데 github issue를 찾아보니 사람들이 따로 데이터를 다운 받을 수 있게 링크를 열어놓은게 있어 그 중 부분만 다운로드 받아보았습니다.
git issue link
다운로드 링크