Summary
Introduction
Azure Custom Text Classification은 특정 텍스트 데이터를 기반으로 맞춤형 텍스트 분류 모델을 생성하고 배포할 수 있는 강력한 AI 도구입니다. 아래는 실습에 필요한 주요 단계들을 정리한 글입니다.
Code, Conept & Explanation
1. 리소스 생성
1.1 리소스 그룹 생성
- Azure Portal에서 리소스 그룹을 생성합니다.
1.2 리소스 만들기
- 생성된 리소스 그룹에서 리소스를 생성합니다.
- Marketplace에서 AI Services를 검색하고 OpenAI 로고가 있는 버전을 선택합니다.
- 지역: 리소스 그룹과 동일.
- Pricing tier: Standard S0.
- 리소스 생성 후 API Key와 Endpoint를 확인합니다.
2. 데이터 준비
2.1 데이터셋 다운로드
- GitHub에서 실습 데이터를 다운로드:
- Custom Single Classification - WebOfScience.zip
2.2 데이터 업로드
- 압축을 해제하여 데이터 확인:
- JSON 파일 1개, TXT 파일 210개 포함.
- Azure Blob Storage에 업로드:
- 이너 이름: single-label-classification-demo (사용자 정의 가능).
3. 프로젝트 생성 및 모델 학습
3.1 프로젝트 생성
- Language Studio에서 Custom Text Classification 선택.
- Create new project:
- 프로젝트 이름 및 설명 작성.
- Primary Language: English (US).
- 업로드한 Blob Storage 데이터 연결.
3.2 데이터 레이블링
- JSON 파일이 포함되어 있을 경우, 레이블링 과정은 생략 가능.
- 이미 준비된 데이터가 자동으로 로드됩니다.
3.3 모델 학습
- 학습 데이터와 테스트 데이터를 8:2 비율로 분리.
- 학습 모델 이름을 지정한 뒤 학습을 시작.
- 학습 완료 후 모델 성능을 평가:
- Micro F1, Precision, Recall.
- Confusion Matrix를 통해 모델의 분류 성능 확인.
4. 모델 배포 및 테스트
4.1 모델 배포
- 학습된 모델을 선택하여 배포.
- 배포 완료 후 Language Studio에서 배포 상태를 확인.
4.2 모델 테스트
- 테스트 데이터 작성:
The RISC-V instruction set architecture (ISA) has gained prominence due to its open-source nature and flexibility. In this study, we investigate recent enhancements in RISC-V architecture aimed at improving energy efficiency.
- 배포된 모델을 테스트하여 결과 확인:
- 예: Electrical Engineering 카테고리가 도출됨.
5. 주요 설정 및 팁
5.1 데이터셋 관리
- 데이터셋 준비 시 각 텍스트 파일이 분류에 필요한 적절한 데이터를 포함하도록 구성.
5.2 모델 성능 분석
- Confusion Matrix 및 개별 엔티티 성능 확인:
5.3 활용 사례
- 연구 논문 분류.
- 고객 리뷰의 긍정/부정 분류.
- 도메인별 맞춤형 데이터 분류.
Challenges & Solutions
Results
What I Learned & Insights
Conlusion
Azure Custom Text Classification은 사용자의 요구에 맞는 맞춤형 텍스트 분류 모델을 손쉽게 생성하고 배포할 수 있는 강력한 도구입니다. 위 단계를 따라 실습을 진행하고, 성공적으로 모델을 구현해 보세요!