# Data augmentation

29개의 포스트
post-thumbnail

Day 56

Machine Learningreviewday8 > ## Image Processing Reading Images Making images that will be used as 'correct answer labels' Train on classifier input and output data formats ![](https://velog.

2023년 7월 26일
·
0개의 댓글
·
post-thumbnail

Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification

[Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification ](https://arxiv.org/pdf/2111.09064.pdf) EMNLP 2022 분야 및 배경지식 Data Augmentation, Synthetic Data Generation Data Augmentation 데이터 증강 기법 클래스의 불균형과 데이터 희소성을 해결하기 위해 딥러닝에서 사용되는 기법 label(정답)이 있는 기존의 데이터로부터 synthetic training sample을 추가로 생성 DA methods Word replacement-based (WR) 단어를 바꿔 추가적인 데이터 생성 (Knowledge base, Language Model(LM) 사용) Sentence replacement-based (SR) 추가적인

2023년 5월 23일
·
0개의 댓글
·
post-thumbnail

PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks

PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks ACL 2022 분야 및 배경지식 Data Augmentation, Synthetic Data Generation Prompt Learning GPT3의 등장 이후 few-shot setting(데이터가 몇 개만 주어지는 경우)에서 특정 태스크를 수행할 수 있도록 LM에 쿼리를 날릴 수 있는 prompt가 대두 사전학습 언어모델(pretrained language model)을 더욱 잘 활용할 수 있는 prompt에 대한 연구 활발 사람이 직접 작성한 discrete prompt에 대한 연구 실제 단어에 대응되지 않는 학습 가능한 벡터로 이루어진 soft prompt Generative Data Augmentation Language M

2023년 5월 23일
·
0개의 댓글
·
post-thumbnail

Data Augmentation for Scene Text Recognition

Introduction STR 연구는 현재 모델중심적으로 이루어지고 있다. 한정적으로 수집된 데이터 내에서 학습을 진행하게 되면서 distribution shift가 쉽게 일어나게 된다. 이런 distribution shift를 해결하기 위한 방법 중 하나인 data augmentation에 집중하여, 어떤 방식의 augmentation이 효과적일지에 대해서 생각해 본다. 현재 연구들은 이런 augmentation에 대한 정량적 비교가 없이 rotation,perspective,affine transform, gaussian noise, motion blur, resize, padding, distortion등의 방법들을 임의로 조합하여 사용하고 있다. 아직 augmentation에 대한 연구가 없었기 때문에 이런 방식이 효과적인지 또한 다른 augmentation 방법이 존재하는지 연구한다. +) mixup/cutmix 같은 방식은 text 데이터 특징상 오히려 성능의 저

2022년 12월 8일
·
0개의 댓글
·

[NLP]. 오타 생성기 만들기 : Text Noise Augmentation

오타 생성기 아이디어 오타는 누르고자 하는 것을 잘못 눌렀을때 발생한다. 누르고자 하는 글자 주변(키보드)단어들을 랜덤으로 섞어주면 오타 생성기가 만들어지지 않을까? * 오타 발생 유형 주변 키보드 문자를 잘못 입력함. 쌍자음으로 잘못 입력함. 한영키를 잘못누름 오타 사전 작성 구현하기 랜덤으로 교체해주는 함수 구현 ** mod_num : 바꿀 자모 수 생성하기

2022년 11월 10일
·
0개의 댓글
·

부스트캠프 4주차

Data augmentation Data augmentation이 필요한 이유 Neural networks는 데이터섹은 compact한 정보만 학습 실제 데이터와 다름 학습 데이터는 실제 데이터의 극히 일부일 뿐 → Augmentation은 sample data와 real data간의 gap을 줄여주는 역할을 한다. Augmentation 종류 밝기 조절 rotate, flip crop affine tranformation cutmix rand augment(랜덤으로) Augmentation parameter 어떤 augmentation 사용할지 얼마나 강하게 적용할지 Leveraging pr

2022년 10월 14일
·
0개의 댓글
·

Boostcamp - 221012 (2) Data augmentation

딥러닝은 데이터가 무조건 많이 필요함. 근데 모두 레이블 되어있는 거대 데이터를 얻기란 쉽지 않음. 가장 대표적인 딥러닝을 적용할 때의 어려움임. 이런 문제를 해결하기 위한 연구가 많이 진행되어 왔음. 데이터 부족 문제를 어떻게 완화할까? 1. Data augmentation 1.1 Learning representation of dataset 우리가 사용하는 데이터들은 biased 되어 있다. 사람이 보기 좋게 찍은 것이므로. dataset 자체에 bias가 있다. 이게 왜 문제일까? 우리가 실제로 취득할 수 있는 데이터는 매우 일부임. 실제 데이터에 비해 못 보는 것이 너무 많음. 일부 샘플링 된 데이터 때문에 많이 보지 못하고 있는데 심지어 biased 되어 있음. 학습데이터는 구축했는데 이것들이 밝은 영상의 데이터라면? 다크한 고양이는 제대로 인식하지 못할 것임. 모델의 문제라고 볼 수도 있겠지만 데이터가 현실을 충분히 담아내지 못한 문제라고 보는 것이

2022년 10월 12일
·
0개의 댓글
·
post-thumbnail

Data augmentations- AutoML

AutoML이란? 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스이다. AutoML의 발전에 따라 NAS(neural architecture search)같은 모델링에서 AutoML을 적용하는 등 여러 형태의 AutoML이 등장하고 있는데 이런 내용을 data augmentation에서 적용한 논문을 소개한다. AutoAugment:Learning Augmentation Strategies from Data RandAugment: Practical automated data augmentation with a reduced search space AutoAug Data augmentation은 지금까지 특정 데이터에 특화적으로 발전해왔다. 예를들어 horizontal flipping은 Cifar10에서 효과적일지 몰라도 MN

2022년 10월 8일
·
0개의 댓글
·
post-thumbnail

[2019.07] Benchmarking Robustness in Object Detection: Autonomous Driving when Winter is Coming

https://arxiv.org/abs/1907.07484 1.Introduction model의 robustness를 평가하기 위한 measure/metric, benchmark dataset이 필요하다. Improving corruption robustness preprocessing 단계에서 denosing -> but, 모든 distortion에 generalize 안됨 data augmentation(training에 corrupted data를 포함한다) 2.Methods 2.1 Robust Detection Benchmark 15 corrupted dataset -> model performance 평가 학습은 15 corruption이 적용되지 않은 dataset으로 해야한다 ![](https://velog.velcdn.com/images/wodnrl1346/post/6c1ea3be-f2ab-4b27-965b-4d4d940af88f/i

2022년 9월 12일
·
0개의 댓글
·
post-thumbnail

[Paper Review]RandAugment: Practical automated data augmentation with a reduced search space

해당 포스트에서는 Data Augmentation 기법 중 하나인 RandAugment에 대해서 다룹니다. Background Data Augmentation은 Model Generalization을 위해 필수적인 방법이다. 하지만 Task Domain에서 적절한 Augmentation을 찾기 위해선 사전 지식이 필요할 뿐더러 많은 Cost(time, resource)가 필요하다. 예를 들어 AutoAugment 기법은 Reinforcement Learning을 통해 여러가지 Policy(Augmentation Combination)에 대한 Reward를 받아 Task Domain에 대한 적절한 Policy을 만들어낸다. 하지만 Reward를 통해 Policy를 찾기 위해선 많은 Cost를 필요로한다. 그로 인해 많은 연구를 통해 Cost를 많이 사용하지 않고 적절한 Policy을 사용하여 준수한 학습 성능을 보이는 RadnAugment 기법을 고안했다. Ran

2022년 7월 3일
·
0개의 댓글
·
post-thumbnail

NVIDIA:04 Data Augmention

NVIDIA 04: Data Augmentaion NVIDIA의 Fundatmentals of Deep Learning:04 Data Augmentation 리뷰를 위한 글이다. 이전 session에서 CNN의 validation accuracy가 일정하지 않음을 확인하였다. 이를 해결하기 위해 data augmentation이라는 기법을 살펴보자. data augmentation은 dataset의 size와 variance를 증가시키는 것을 말한다. size를 증가시키면, training과정에서 더 많은 이미지를 제공하게 되고 variance의 증가는 학습과정에서 중요하지 않은 feature를 무시하도록 해준다. Objectives ASL dataset을 augment해보자 Augment dataset을 이용하여 training well-trained될 model 저장하기 Data 준비 이전 session들에서 설명한 그대로

2022년 6월 8일
·
0개의 댓글
·
post-thumbnail

Problem Setting and Regularization

training을 하기 위해서 결정해야 할 것들이 정말 많지만 각 hyperparameter 사이에 dependency가 있기 때문에 guess가 매우 어렵다. 그렇기 때문에 실제로 machine learning은 굉장히 반복적인 작업이다. Dataset 좋은 choice를 위해 training sets, development sets, test sets를 이용할 수 있다. development set을 validation set이라고 부르기도 한다. 어떤 dataset이 주어졌을 때, 전체 sample에서 70%를 training set, 30%를 test set으로 나누거나 60%를 training set, 20%를 development set, 20%를 test set으로 나누는 것이 일종의 co

2022년 4월 17일
·
0개의 댓글
·
post-thumbnail

torchvision의 데이터 augmentation 기법들 살펴보기

다량의 양질의 데이터는 좋은 딥러닝 모델을 만드는데 필수 조건입니다. 그런데 실제 산업 현장에서는 데이터가 충분히 확보 되어있지 않거나 명확히 분류되어있지 않은 경우가 많습니다. 특히, 공정과정에서 발생하는 이미지는 이런 경우가 비일비재합니다. 그러므로, 모델에 학습 시키기전 데이터 augmentation 과정은 필수입니다. torchvision.transforms은 이미지의 다양한 전처리 기능을 제공하며 이를 통해 데이터 augmentation도 손쉽게 구현할 수 있습니다. 이에 본 포스팅에서는 torchvision의 transforms 메써드에서 제공하는 다양한 데이터 증강용 함수를 기능 중점적으로 소개드리고자 합니다. 더 자세한 내용은 pytorch에서 제공하는 [공식 doc](https://pytorch.org/vision/stable/autoexamples/plottransforms.html#sphx-glr-auto-examples-plot-transf

2022년 4월 8일
·
0개의 댓글
·
post-thumbnail

CoDA: Contrast-Enhanced and Diversity-Promoting Data Augmentation for Natural Language Understanding (ICLR / 2021)

Contribution 이 논문에서는 natural language understanding에서 새로운 Contrast-enhanced and Diversity-promoting Data Augmentation framework를 소개하고 있다. 또한 label-preserving transformation을 stacking하는 것이 더 informative한 sample을 생성할 수 있음을 발견하였다고 한다. 그리고 global relationship을 capture하기 위하여 contrastive learning을 사용하였다고 한다. CoDA는 model의 generalization ability를 향상시켰으며 fine-tuning procedure에서도 significant한 gain을 얻었다고 한다. Background: Data Augmentation model의 robustness와 generalization

2022년 4월 3일
·
0개의 댓글
·
post-thumbnail

Adversarial Mixing Policy for Relaxing Locally Linear Constraints in Mixup (EMNLP / 2021) paper review

Contribution 이 논문에서는 다른 auxiliary network를 사용하지 않고 Mixup에서 Locally Linear Constraint를 완화시키기 위하여 Adversarial Mixing Policy를 제안하였다. 이는 Mixup의 mixing coefficient에 adversarial perturbation을 적용한 최초의 연구라고 한다. 추가적인 실험으로 제안된 method를 분석하였고, AMP가 Mixup variants의 성능을 향상시켰으며 non-linear Mixup보다 error rate면에서 outperform함을 보였다고 한다. Background: Linear nature of the networks input x와 관련된 label y로 이루어진 training data (x;y)가 주어졌을 때, deep network는 다음과 같이 x로부터 y를 연결하는 mapping function

2022년 4월 3일
·
0개의 댓글
·
post-thumbnail

Data Augmentation

일반적으로 딥러닝 모델을 학습시키기 위해서는 데이터셋이 필요하다. 대표적인 이미지 데이터셋인 이미지넷(ImageNet)은 약 1,400만 장의 이미지를 가지고, CIFAR-10도 6만장의 이미지 데이터를 가지고 있다. 문제는 큰 규모의 데이터셋을 만드는 것은 큰 비용이 드는 일이다. 특히 직접 데이터셋을 만든다면 더 많은 비용이 발생한다. 만약 직접 어떤 분류 모델을 만들기 위해 이미지 데이터셋을 모은다고 했을때 몇 만장의 데이터셋을 구하는 것은 쉽지 않을 것이다. 예를 들어 약 3,000장의 데이터를 구했다고 했을때 이 정도의 데이터만 가지고 모델을 학습시키는 것에는 무리가 있다. 하지만 이런 데이터셋을 최대한 활용할 수 있는 방법이 Data Augmentation이다. Data Augmentation Data Augmentation은 데이터셋을 증강시켜 실질적인 학습 데이터셋의 규모를 키울 수 있는 방법이다. 일반적으로 하드디스크에 저장된 이미지 데이터를 메

2022년 3월 27일
·
0개의 댓글
·

Data Augmentation

Data Augmentation Data Augmentation은 데이터셋을 여러 가지 방법으로 증강시키는(augment) 방법입니다. 우리는 Data Augmentation을 통해서 학습 데이터셋의 규모를 키울 수 있습니다. Data Augmentation을 통해 데이터셋의 규모가 커지면 overfitting을 줄일 수 있습니다. 실제 입력값이 가지고 있는 데이터과 다른 경우들이 존재하는데, 이러한 문제를 Augmentation을 통해서 실제 입력값과 유사한 데이터 분포를 만들어 해결할 수 있습니다. Augmentation은 데이터셋을 증강시키고 모델이 테스트 환경에서 원활하게 동작할 수 있게 해줍니다. Image Augmentation 기법 Flipping Flipping은 상하 또는 좌우로 이미지를 반전시키는 방법입니다. 분류는 문제 없을 수 있지만 물체 탐지(detection)나 세그멘테이션(segmentation) 등 명확

2022년 3월 25일
·
0개의 댓글
·
post-thumbnail

[Aiffel] 아이펠 35일차 개념 정리 및 회고

1. 머신러닝 개념 정리 참고 > 머신러닝의 목표 모델이 표현하는 확률 분포와 데이터의 실제 분포를 최대한 유사하게 만드는 최적의 파라미터 값을 찾는 것 1) 모델 파라미터 $y=f(x)=ax+b\ \ \ \ \ \ a,b∈R$라고 할 때 (a,b)가 위치하는 $R$ 공간을 parameter space라고 함 2) prior likelihood posterior 베이시안 머신러닝 모델 파라미터를 고정된 값이 아닌 확률 변수로 보기 때문에, 불확실성을 가지고 있다고 전제한다. 용어 설명 |전제| |-| |어떤 데이터 집합 $X$가 주어졌을 때 데이터가 따르는 확률 $p(X)$가 있을 것. 이때 $p(X)$를 가장 잘 나타내는 일차함수 모델 $y=ax+b=θ^{⊤}x$를 찾는 것이 목표임.| |$p(θ)$|prior probability, 사전확률, 데이터를 관찰하기 전에 paramet

2022년 2월 16일
·
1개의 댓글
·
post-thumbnail

[정리] Clinical AI: Low Resource Technique, Tasks, Survey, Research, Data, Model, ...

Ref [논문리뷰]Clinical Natural Language Processing for Radiation Oncology: A Review and Practical Prime(Red journal, Jan 2021) [[논문리뷰]A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios(ACL Anthology, Jun 2021)](https://velog.io/@sjinu/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0A-Survey-on-Recent-Approaches-for-Natural-Language-Processing-in-Low

2022년 1월 4일
·
0개의 댓글
·
post-thumbnail

[논문리뷰]A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios(ACL Anthology, Jun 2021)

Paper: https://aclanthology.org/2021.naacl-main.201/ 0. Abstract Deep neural network, 그리고 huge language model은 점점 NLP 분야를 지배하고 있습니다. 하지만, 대부분의 모델이 많은 양의 데이터를 필요로 하는 문제가 있었으며, 이에 따라 필연적으로 low-resource 상황에서도 잘 작동할 수 있는 모델에 대한 연구도 많아졌습니다. 대표적으로 NLP 분야에서 쓰이는 방법은 large-scale에 pre-train시킨 다음 downstream-task에 fine-tune하는 방법들이 있는데, 본 서베이 논문도 마찬가지로 low-resource NLP 분야에서 쓸만한 좋은 접근법들을 다룹니다. 그 후, 사용 가능한 데이터의 규모에 따라 여러 관점을 제시하고, 학습 데이터가 적을 때 사용할 수 있는 학습 방법들에 대한 구조적인 틀을 제공합니다. 여기에는 다들 아는 transfer

2022년 1월 3일
·
0개의 댓글
·