Summary

Introduction

Azure Custom Text Classification은 특정 텍스트 데이터를 기반으로 맞춤형 텍스트 분류 모델을 생성하고 배포할 수 있는 강력한 AI 도구입니다. 아래는 실습에 필요한 주요 단계들을 정리한 글입니다.

Code, Conept & Explanation

1. 리소스 생성

1.1 리소스 그룹 생성

Azure Portal에서 리소스 그룹을 생성합니다.

태그 정보는 선택 사항.

1.2 리소스 만들기

생성된 리소스 그룹에서 리소스를 생성합니다.
Marketplace에서 AI Services를 검색하고 OpenAI 로고가 있는 버전을 선택합니다.

지역: 리소스 그룹과 동일.
Pricing tier: Standard S0.

리소스 생성 후 API Key와 Endpoint를 확인합니다.

2. 데이터 준비

2.1 데이터셋 다운로드

GitHub에서 실습 데이터를 다운로드:
- Custom Single Classification - WebOfScience.zip

2.2 데이터 업로드

압축을 해제하여 데이터 확인:

JSON 파일 1개, TXT 파일 210개 포함.

Azure Blob Storage에 업로드:

이너 이름: single-label-classification-demo (사용자 정의 가능).

3. 프로젝트 생성 및 모델 학습

3.1 프로젝트 생성

Language Studio에서 Custom Text Classification 선택.
Create new project:
- 프로젝트 이름 및 설명 작성.
- Primary Language: English (US).
- 업로드한 Blob Storage 데이터 연결.

3.2 데이터 레이블링

JSON 파일이 포함되어 있을 경우, 레이블링 과정은 생략 가능.
이미 준비된 데이터가 자동으로 로드됩니다.

3.3 모델 학습

학습 데이터와 테스트 데이터를 8:2 비율로 분리.
학습 모델 이름을 지정한 뒤 학습을 시작.
학습 완료 후 모델 성능을 평가:
- Micro F1, Precision, Recall.
- Confusion Matrix를 통해 모델의 분류 성능 확인.

4. 모델 배포 및 테스트

4.1 모델 배포

학습된 모델을 선택하여 배포.
- 배포 이름과 지역 지정.
배포 완료 후 Language Studio에서 배포 상태를 확인.

4.2 모델 테스트

테스트 데이터 작성:

The RISC-V instruction set architecture (ISA) has gained prominence due to its open-source nature and flexibility. In this study, we investigate recent enhancements in RISC-V architecture aimed at improving energy efficiency.

배포된 모델을 테스트하여 결과 확인:

예: Electrical Engineering 카테고리가 도출됨.

5. 주요 설정 및 팁

5.1 데이터셋 관리

데이터셋 준비 시 각 텍스트 파일이 분류에 필요한 적절한 데이터를 포함하도록 구성.

5.2 모델 성능 분석

Confusion Matrix 및 개별 엔티티 성능 확인:
- 잘못 분류된 데이터 확인 및 조정.

5.3 활용 사례

연구 논문 분류.
고객 리뷰의 긍정/부정 분류.
도메인별 맞춤형 데이터 분류.

Challenges & Solutions

Results

What I Learned & Insights

Conlusion

Azure Custom Text Classification은 사용자의 요구에 맞는 맞춤형 텍스트 분류 모델을 손쉽게 생성하고 배포할 수 있는 강력한 도구입니다. 위 단계를 따라 실습을 진행하고, 성공적으로 모델을 구현해 보세요!

Luis_J

New life & History

이전 포스트

57일차_ Custom Named Entity Recognition (NER) 실습 가이드

다음 포스트

57일차_CustomTextClassification

MS_AI_School 5기