AIHub 데이터: 윈도우에서 분할 압축 파일 병합하기

김준기·2024년 7월 24일
0

AIHub에서 데이터를 다운로드하면 파일이 part{숫자} 형식의 확장자로 나뉘어 다운로드됩니다. AIHub 공식 설명에 따르면 리눅스 OS나 윈도우의 WSL(Windows Subsystem for Linux)을 사용하여 이 파일들을 병합하도록 안내하고 있습니다.

AIHub 공식 가이드

데이터셋 다운로드 승인 후 API 다운로드 서비스를 이용할 수 있습니다. 다운로드된 파일은 분할 압축되어 있으며, 이를 해제하려면 파일 병합이 필요합니다. AIHub는 리눅스 OS 사용을 권장하며, 윈도우 사용자에게는 WSL 설치를 안내합니다.

리눅스 명령어를 이용한 파일 병합

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
  • 이 명령어는 실행 경로에 병합된 압축 파일을 생성합니다.
  • 병합 파일의 용량이 0이면 병합이 실패한 것이므로 "폴더경로"를 확인해야 합니다.

윈도우에서의 대안: PowerShell 사용

하지만 꼭 리눅스나 WSL을 사용할 필요는 없습니다. 윈도우의 PowerShell을 사용하여 파일을 병합할 수 있습니다.

PowerShell 명령어

주의사항:

  • 명령을 실행할 위치에 모든 분할 파일이 있어야 합니다.
  • 대용량 파일을 병합할 경우 시간이 오래 걸릴 수 있으므로 인내심을 가지고 기다려주세요.
Get-ChildItem {파일명}.part* | Sort-Object { [int]($_.Name -replace '.*\.part(\d+)','$1') } | Get-Content | Set-Content {파일명}

예를 들어, some.zip.part0부터 some.zip.part50000000까지의 파일이 있다면 다음과 같이 사용할 수 있습니다:

Get-ChildItem some.zip.part* | Sort-Object { [int]($_.Name -replace '.*\.part(\d+)','$1') } | Get-Content | Set-Content some.zip

이 방법을 사용하면 리눅스나 WSL 없이도 윈도우에서 직접 AIHub의 분할 압축 파일을 병합할 수 있습니다.

추가 팁

  • 병합 작업 중에는 컴퓨터의 성능이 저하될 수 있으므로, 다른 중요한 작업을 하지 않는 것이 좋습니다.
  • 병합 후에는 원본 분할 파일을 삭제하기 전에 병합된 파일이 정상적으로 작동하는지 확인하세요.
profile
코딩 잘하고 싶은 백엔드 개발자

0개의 댓글