NLP 감정분석 1차시

리냥·2024년 3월 20일
0
post-thumbnail

1. 주제


https://www.kaggle.com/code/nilanml/imdb-review-deep-model-94-89-accuracy

  • 영화 리뷰(텍스트)를 읽고, 감정 평가 예측
  • 평가기준: ROC curve

1. ROC curve란?

  • ROC(Receiver Operating Characteristic) 곡선은 이진 분류 모델의 성능을 평가하는 데 사용되는 그래프
  • 분류 모델의 재현율(민감도)과 특이도 사이의 관계를 시각화
  • 재현율은 모델이 샘플을 효과적으로 식별한다는 것을 의미
  • 특이도는 샘플을 실수로 긍정 또는 분류로 분류하는 것을 줄인다는 것

2. 감정 분석에 ROC 곡선을 적용하는 방법:

  • 감정 분류 모델의 평가:
    ROC 곡선을 사용하여 감정 분류 모델의 성능을 평가. 모델이 양성(긍정 또는 부정) 및 음성(중립) 샘플을 얼마나 잘 식별하는지를 평가

  • 여러 감정 분류 모델 간의 성능을 비교:
    각 모델의 곡선을 그려 비교하고, 곡선 아래 영역인 AUC(Area Under the Curve)를 계산하여 모델 간의 상대적 성능을 평가. AUC가 더 높은 모델이 더 나은 성능

  • 임계값 선택


2. 데이터 전처리


  • load

  • tsv-> dataframe

  • id drop

  • pos+neg

참고: https://www.kaggle.com/code/nilanml/imdb-review-deep-model-94-89-accuracy

의논사항: unlabeledtraindata를 어떻게 이용할 것인가?

profile
안녕하세요. 일로 인해 잠시 쉽니다 :)

0개의 댓글