[ML상품화 | 모델] 2. 학습 데이터 준비(2)_Data Labeling

정원석·2025년 3월 25일

mlops

MLOps로 배우는 머신러닝 상품화

목록 보기

3/5

Labeling 이란

라벨링 혹은 레이블링이라 불림
특정 객체에 의미를 부여하는 프로세스

Data Labeling

기계 학습 및 딥러닝 모델을 훈련하기 위해 필요한 데이터에 의미를 부여하는 과정
데이터에 주석 을 달거나 레이블 을 지정하여 의미를 부여하는 과정
이를 통해, 모델이나 컴퓨터가 데이터를 이해하고 원하는 작업을 수행할 수 있도록 돕는 중요한 단계 → 컴퓨터가 데이터를 처리하고 해석할 수 있는 방식으로 데이터를 변환하는 작업

Data Labeling 예시

이미지, 텍스트, 오디오 데이터의 Labeling 예시

Image Labeling

객체 인식, 세그멘테이션, 특징 포인트 지정, 이미지 분류 등의 다양한 작업에서 필요로 함
개와 고양이 이미지를 Labeling하여 모델이 이 두 동물을 구별 할 수 있도록 함

Text Labeling

텍스트 분류, 감정 분석, 주관적 의견 분석, 키워드 추출 및 개체명 인식
텍스트 문서에 글의 주제, 감정, 주요 키워드 등을 Labeling하여 모델이 텍스트를 이해하도록 도움

Audio Labeling

음성 인식, 음악 분류, 화자 인식
Audio에 발화된 단어, 음악 트랙의 장르, 음성 신호의 특징을 Labeling하여 모델이 오디오를 이해하도록 도움

다양한 도메인의 Labeling Data

의료 분야

의료 영상 데이터의 Labeling
종양 발견, 질병 분류 및 환자 정보 관리에 사용

자연어 처리 NLP

Text Labeling
텍스트 분류, 기계 번역, 자동 질문 응답 시스템에서 활용

자율 주행 자동차

센서 데이터 라이다, 카메라 의 Labeling
도로 상황 이해 및 자율 주행일 지원

환경 모니터링

환경 데이터 Labeling
환경 상태 모니터링 및 예측

Labeling과 AI 모델 학습 유형

Supervised Learning

Data에 모든 Labeling이 존재한 상태에서의 Learning 방식

Semi Supervised Learning

일부 Data만 Labeling이 존재하며, 나머지는 Labeling이 존재하지 않는 상황에서의 Learning 방식

Self Supervised Learning

Data에 모든 Labeling이 존재하지 않으며, 모델이 스스로 학습할 수 있도록 설계된 Learning 방식

Supervised 학습과 Labeling

Supervised Learning

모델은 Labeling된 데이터를 기반으로 학습하여, 이후 새로운 입력 데이터에 대한 예측을 수행할 수 있음
모델은 Labeling된 데이터를 활용하여 데이터 패턴을 학습

Classification and Regression

Classification : 데이터를 여러 클래스 또는 범주로 분류하는 작업을 수행. 예를 들어, 스팸과 정상 이메일을 구분하는 문제 해결
Regression : 연속적인 출력 값을 예측하는 작업을 수행. 예를 들어, 주택 가격 예측과 주식 가격 예측 등의 문제 해결

Semi Supervised Learning

Semi Supervised

일부 데이터만 Labeling 되고 나머지는 Labeling이 없는 상황에서의 Learning
모델은 Labeling된 데이터를 통해 스스로 특징을 학습하고, 그 특징을 활용하여 Label이 없는 데이터를 예측

Self Training

출처: Introduction to semi supervised learning. Synthesis lectures on artificial intelligence and machine learning 3.1 2009: 1 130, Zhu Xiaojin

초기에 Labeling된 데이터로 모델을 훈련한 후, 모델이 높게 예측한 Labeling없는 데이터에 적용하여 Labeling을 하고 모델을 학습하는 과정을 반복

Co Training

출처: A. review of various semi supervised learning models with a deep learning and memory approach, J. Bagherzadeh

데이터를 여러 독립적인 부분 집합 또는 도메인으로 나누어 모델을 학습하여, semi supervised 학습에서의 데이터 부족 문제를 해결

초기 데이터 : 데이터를 여러 부분을 나눔 텍스트 데이터를 다른 문장이나 문서를 별도의 부분으로 나눔
초기 모델 : 독립된 모델을 각 부분 데이터에 대해 각 각 학습. 모델 A는 하나의 관점 부분 으로 학습하고, 모델 B는 다른 관점 부분 으로 학습
정보 교환 : 모델 A와 모델 B가 각 자 학습한 결과물을 공유하며 서로의 예측을 보완

Multi view Learning

데이터를 여러 다른 관점 또는 특성을 나누어 모델을 학습
데이터의 다양한 특성이 중요한 경우에 유용

데이터 분할 : 데이터를 여러 부분 또는 관점으로 분할 이미지 데이터를 픽셀 데이터와 색 공간 데이터로 분할
모델 학습 : 각 관점 또는 특성에 대해 별도의 모델을 학습
결합 : 각 관점에서 얻은 정보를 종합하여 모델을 결합

Self Supervised Learning

Labeling된 데이터 없이도 모델을 훈련시키는 학습법
데이터 내에서 숨겨진 정보를 활용하여 모델을 학습

AutoEncoder

출처: https://kr.mathworks.com/discovery/autoencoder.html * 입력 데이터를 압축하고 다시 복원하는 네트워크 아키텍처로, Encoder와 Decoder로 구성 * 모델은 입력 데이터를 압축하고 복원하는 과정에서 정보를 학습 * 학습이 완료되면 Encoder의 중간 embedding특성 을 활용하여 다른 작업에 모델을 transfer 할 수 있음 ## Masked Language Model * 일부 단어를 가리고 해당 단어를 예측하는 Task를 활용 * 모델은 문맥을 이해하고 숨겨진 단어를 예측하기 위해 단어 간의 관계를 학습 * 자연어 처리 모델의 사전 훈련에 많이 쓰임 ## Contrastive Learning

출처: https://blog.research.google/2021/06/extending contrastive learning to.html

출처 : Contrastive Learning, Schroff et

모델에게 유사한 데이터는 가깝게, 다른 데이터는 멀게 표현하도록
학습시키는 방법
모델은 데이터간의 유사성을 학습하여 서로 다른 예제를 구분하는 방법

Model 학습 유형

Transfer Learning

이미 훈련된 모델을 다른 작업에 적용하는 방법
사전 훈련된 모델은 대용량 데이터로 학습되어 다양한 특징을 추출하고, 이를 새로운 작업에 Transfer 하는데 사용

예시

이미지 분류 : 사전 훈련된 ResNet, VGG 모델을 의료 이미지 분류나 식물 종류 분류에 활용
자연어 처리 : GPT와 같은 모델에 자체적인 문서 분류, 감정 분석에 활용

Fine Tuning

Transfer Learning의 한 형태로, 사전 학습된 모델을 새로운 작업에 맞게 미세 조정하는 과정
모델의 일부 레이어를 고정하거나 새로운 레이어를 추가하여 작업에 맞게 모델을 finetune

예시

이미지 분류 : 사전 훈련된 ResNet, VGG 모델을 의료 이미지 분류나 식물 종류 분류 데이터에 학습시켜, 빠르게 모델을 학습시키고 활용
자연어 처리 : GPT와 같은 모델에 자체적인 문서 분류, 감정 분석 데이터에 추가 학습시켜서 활용

Online Learning

데이터를 순차적으로 처리하면서 모델을 업데이트하는 방식
새로운 데이터가 도착할 때마다 모델을 finetune하며, 스트리밍 데이터나 지속적인 학습을 위해 유용

Batch Learning

데이터 셋을 한 번에 모델에 입력하는 전통적인 방식

모델 학습 유형 선택의 고려사항

데이터 양, 학습 시간, 모델 복잡성, 도메인 특성 등을 고려하여 적절한 전략을 선택해야 함
이와 같은 전략과 고려는 MLOps 에서도 지원되어야함

정원석

이기적이타주의자

이전 포스트

[ML상품화 | 모델] 2. 학습 데이터 준비(1)_Data

다음 포스트

[ML상품화 | 모델] 2. 학습 데이터 준비(2)_Data Labeling

MLOps로 배우는 머신러닝 상품화

Labeling 이란

Data Labeling

Data Labeling 예시

이미지, 텍스트, 오디오 데이터의 Labeling 예시

Image Labeling

Text Labeling

Audio Labeling

다양한 도메인의 Labeling Data

의료 분야

자연어 처리 NLP

자율 주행 자동차

환경 모니터링

Labeling과 AI 모델 학습 유형

Supervised Learning

Semi Supervised Learning

Self Supervised Learning

Supervised 학습과 Labeling

Supervised Learning

Classification and Regression

Semi Supervised Learning

Semi Supervised

Self Training

Co Training

Multi view Learning

Self Supervised Learning

AutoEncoder

Model 학습 유형

Transfer Learning

예시

Fine Tuning

예시

Online Learning

Batch Learning

모델 학습 유형 선택의 고려사항

[ML상품화 | 모델] 2. 학습 데이터 준비(1)_Data

[ML상품화 | 모델] 2. 학습 데이터 준비(3)_Class Imbalance

0개의 댓글