Python 라이브러리 - Albumentations.

서기현·2024년 4월 17일

DeepLearning

목록 보기

4/6

개요

image augmentation 등 imgae의 형태를 변환하여야 할 때, 주로 Torchvision.transformers 라이브러리를 많이 사용한다.
albumentations는 이 Torchvision.transformers를 대체할 수 있는 라이브러리로, 사용법도 굉장히 유사하고 기능이 더 다양하다. 또한 OpenCV를 메인으로 numpy, imgaug 등 여러 라이브러리를 기반으로 optimization을 하였기 때문에, 굉장히 빠른 속도를 보여준다.

예시

기존 Torchvision.transformers의 transforms와 albumentations의 구현을 비교해보겠다.

torchvision_transform = transforms.Compose([
						transforms.Resize((256,256)),
                        transforms.RandomCrop(224),
                        transforms.RandomHorizontalFlip(),
                        transforms.ToTensor(),
                        ])


albumentations_transform = albumentations.Compose([
						   albumentations.Resize(256,256),
                           albumentations.RandomCrop(224,224),
                           albumentations.HorizontalFlip(),
                           albumentations.pytorch.transforms.ToTensor()

위 예시를 보면, Torchvision.transformers와 굉장히 유사한 함수명과 유사한 사용법을 가지고 있다.

위 예시 코드를 기반으로, 100회를 무작위로 수행했을 때의 수행시간은 위와 같다. albumentations의 수행시간이 약 30배 정도 단축됐다.

OneOf

추가적으로, albumentations 라이브러리는 OneOf 함수를 사용해 random하게 augmentation을 적용할 수 있다.

albumentations_transform_oneof = albumentations.Compose([
    albumentations.Resize(256, 256), 
    albumentations.RandomCrop(224, 224),
    albumentations.OneOf([
                          albumentations.HorizontalFlip(p=1),
                          albumentations.RandomRotate90(p=1),
                          albumentations.VerticalFlip(p=1)            
    ], p=1),
    albumentations.OneOf([
                          albumentations.MotionBlur(p=1),
                          albumentations.OpticalDistortion(p=1),
                          albumentations.GaussNoise(p=1)                 
    ], p=1),
    albumentations.pytorch.ToTensor()
])

여기서 p는 해당 transform의 적용 확률이다. p=1 일시 100% 확률로 해당 OneOf 내의 augment를 랜덤하게 실행한다. 만약 p=0.5 일시 50% 확률로 OneOf를 스킵한다.
이 외에도 각종 다양한 augment들에 대한 내용은
공식문서를 참고하자.

추가: interpolating 방식

추가적으로, Resize는 굉장히 많이 쓰이는 transform이다.
이때 이미지를 확대하게 되면, 각 픽셀 사이를 보간(interpolate) 해주어야 한다.
이 interpolate 방식에는 크게 4가지가 있는데, 다음과 같다.

최근접 이웃 보간 (Nearest Neighbor Interpolation)

방법: 가장 가까운 이웃 픽셀의 값을 그대로 사용하여 새로운 픽셀의 값을 결정.
장점: 계산이 매우 빠르고 간단함.
단점: 이미지가 깨지기 쉽고, 확대 시 계단 현상이나 픽셀화 현상이 두드러짐.

선형 보간 (Linear Interpolation)

방법: 인접한 픽셀 값들 사이에서 선형적으로 값을 계산하여 새로운 픽셀 값을 결정. 2D 이미지에서는 보통 바이리니어(bilinear) 보간이 사용되며, 가로 및 세로 방향의 선형 보간을 조합함.
장점: 최근접 이웃 방식보다 이미지가 더 부드러움.
단점: 디테일이 다소 손실될 수 있음.