AIHub에서 데이터를 다운로드하면 파일이 part{숫자}
형식의 확장자로 나뉘어 다운로드됩니다. AIHub 공식 설명에 따르면 리눅스 OS나 윈도우의 WSL(Windows Subsystem for Linux)을 사용하여 이 파일들을 병합하도록 안내하고 있습니다.
데이터셋 다운로드 승인 후 API 다운로드 서비스를 이용할 수 있습니다. 다운로드된 파일은 분할 압축되어 있으며, 이를 해제하려면 파일 병합이 필요합니다. AIHub는 리눅스 OS 사용을 권장하며, 윈도우 사용자에게는 WSL 설치를 안내합니다.
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
하지만 꼭 리눅스나 WSL을 사용할 필요는 없습니다. 윈도우의 PowerShell을 사용하여 파일을 병합할 수 있습니다.
주의사항:
Get-ChildItem {파일명}.part* | Sort-Object { [int]($_.Name -replace '.*\.part(\d+)','$1') } | Get-Content | Set-Content {파일명}
예를 들어, some.zip.part0
부터 some.zip.part50000000
까지의 파일이 있다면 다음과 같이 사용할 수 있습니다:
Get-ChildItem some.zip.part* | Sort-Object { [int]($_.Name -replace '.*\.part(\d+)','$1') } | Get-Content | Set-Content some.zip
이 방법을 사용하면 리눅스나 WSL 없이도 윈도우에서 직접 AIHub의 분할 압축 파일을 병합할 수 있습니다.