# Sentiment Analysis

10개의 포스트

텍스트와 음성 데이터를 이용한 한국어 감정 분류 모델 (2)

데이터: AI-Hub 감정 분류를 위한 대화 음성 데이터셋 지난 포스팅에서는 데이터를 바탕으로 각 발화문에 새로운 감정 label 달기 데이터 분포 확인 학습에 이용할 1000개의 데이터 추출하기 위 세가지 작업을 수행했습니다. 이번 포스팅에서는 텍스트, 음성 데이터로부터 feature vector를 추출하는 작업을 해보겠습니다. 음성 데이터 feature vector 추출 이 부분은 참고문헌 [1]의 kaggle notebook을 참고하였습니다. 다음 함수들을 이용하여 data augmentation을 수행할 수 있습니다. 다음 함수는 음성 데이터로부터 feature vector를 만드는 함수입니다. 크게 다섯가지의 spectral 특성을 가지고 feature vector를 만듭니다. (각 특성들이 어떤 의미를 가지는지는 추후 포스팅에서 살펴보겠습니다!) 다음은 data augmentation을 수행하는 함수들과 extract_feat

2023년 1월 20일
·
1개의 댓글
·
post-thumbnail

텍스트와 음성 데이터를 이용한 한국어 감정 분류 모델 (1)

이번 포스팅에서는 text와 audio 데이터를 이용한 한국어 감정 분류 모델을 만들어보겠습니다. 데이터셋은 AI-Hub의 '감정 분류를 위한 음성 데이터셋'을 이용하였습니다. 위 데이터셋은 총 3회차(4차년도, 5차년도, 5차년도_2)에 걸쳐 수집한 음성 데이터가 들어있는데요, 각 음성 파일에 대응하는 발화문과 감정 label도 포함되어있습니다. 라이브러리 import 및 데이터 로드 우선, 필요한 라이브러리를 import 해줍니다. 이번 포스팅에서는 5차년도의 데이터만을 이용하려고 합니다. 데이터를 로드하고 shape을 확인합니다. 데이터 구성은 다음과 같습니다. ![](https://velog.velcdn.com/images/bandi12/post/07ad9009-b8e3

2023년 1월 20일
·
0개의 댓글
·

NLP Lecture Note: 1. Logistic Regression and Sentiment Analysis

Acknowledgement: 이 콘텐츠는 Deeplearning.AI의 자연어처리 강좌를 참조하여 만들었습니다. 좋은 강의를 만들어주신 Deeplearning.AI에게 감사의 말을 전해드립니다. Motivation 특정 텍스트들와 각 텍스트에 대한 감성 레이블 (1: 긍정, 0: 부정) 데이터가 있다고 가정하자. 이 텍스트들의 감성을 자동으로 분류하는 알고리즘을 만들 수 있을까? Data Preprocessing 텍스트 토큰화 불필요한 단어 및 기호, 소셜 미디어에서의 handle, URL 등 제외 형태소 분석 먼저 텍스트를 얻고 나면 몇 가지 전처리 과정을 거칠 필요가 있다. 일단 가장 기본적인 과정은 긴 텍스트를 '토큰'이라는 것으로 나누는 과정이다. 비록 토큰이 정확히 무엇인지는 정의되어 있지는 않지만, 보통은 한 글자, 단어 등 우리가 흔히 의미를 가지고 있다고 생각하는 단위를 말한다. 여기서는 단어를 토큰으로 사용할 예정이다. 먼저,

2022년 10월 22일
·
0개의 댓글
·

KoBERT fine-tuning : Sentiment Analysis

KoBERT > 2018년 구글에서 공개한 BERT는 수많은 NLP task에서 아주 높은 성능을 보여주었다. 하지만 BERT로 한국어를 처리할 경우 영어보다 정확도가 떨어진다. KoBERT 모델은 SKTBrain에서 한국어 위키 5백만 문장과 한국어 뉴스 2천만 문장을 학습시켜 한국어 처리를 용이하게 만든 모델이다. 기존에 많은 문장을 이용하여 pre-trained 되었기 때문에, 사용 목적에 따라 output layer만 추가로 달아주는 방식으로 fine-tuning을 진행하여 원하는 결과를 얻을 수 있다. NAVER Shopping Review fine-tuning 우선 11번가 리뷰 데이터를 클롤링하여 f

2022년 8월 18일
·
0개의 댓글
·
post-thumbnail

[Metacritic 포켓몬 S/S 리뷰 분석 프로젝트] 0. 프로젝트 개요

Metacritic Pokemon S/S 리뷰 분석 프로젝트 1. 프로젝트 개요 데이터 분석 부트캠프 두번째 프로젝트 닌텐도 스위치 타이틀 포켓몬스터 소드&실드의 metacritic 리뷰 분석 게임 개발사 데이터 분석가의 입장에서 리뷰 분석을 통해 포켓몬스터 신작에 대한 유저 반응을 알아 본다. 극단적으로 나뉠 수 있는 본작의 평가에 대해 감성 분석 머신러닝 알고리즘을 적용한다. 2. Workflow Metacritic 리뷰 크롤링 : 포켓몬스터 소드 & 실드 데이터 전처리 특정 문장, 단어 제거 이슈 : 이모지, Collapse, This review contains spoilers 정규 표현식을 이용한 특수 문자 제거 영어 외 다른 언어

2022년 6월 11일
·
0개의 댓글
·

Sentiment Analysis | Use Pretrained Word2Vec #3

Google Pretrained Word2Vec Sentiment Analysis #2 에서 Word Embedding Layer을 사용 사전의 단어 개수 X 워드 벡터 사이즈만큼의 크기를 가진 학습 파라미터 감성분류 모델이 학습이 잘 되었다면, Embedding 레이어에 학습된 워드 벡터들도 의미 공간상에 유의미한 형태로 학습되었을 것 gensim 4.0.1 '/Volumes/GoogleDrive/My Drive/ColabNotebook/aiffellms/E7textsentiment' Model_1의 Embedding Layer weights 확인 Model: "model1" _____ Layer (typ

2022년 2월 11일
·
0개의 댓글
·
post-thumbnail

Sentiment Analysis | IMDB Review #2

IMDb 데이터셋 50000개의 영화리뷰 텍스트 (영문) 긍정은 1, 부정은 0으로 라벨링 되어있음 1. 문장 길이 동일하게 세팅 2.6.0 훈련 샘플 개수: 25000, 테스트 개수: 25000 > imdb.loaddata() 호출 시 단어사전에 등재할 단어의 개수(numwords)를 10000으로 지정하면, 그 개수만큼의 wordtoindex 딕셔너리까지 생성된 형태로 데이터셋이 생성됨 [1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 25, 100, 43, 838, 112, 50, 670, 2, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 2, 336, 385, 39, 4, 172,

2022년 2월 10일
·
0개의 댓글
·

Sentiment Analysis | BASE #1

1. Mainly Use Word Embedding (Embedding Layer) Tensorflow RNN(LSTM) CNN 2. Base Info 텍스트 감성분석 접근법은 아래와 같이 2가지가 존재함 기계학습 기반 감성사전 기반 사전 기반의 감성분석은 기계학습 기반 대비 2가지 단점이 존재함 > 1. 분석 대상에 따라 단어의 감성 점수가 달라질 수 있다는 가능성에 대응하기 어려움 단순 긍부정을 넘어서 긍부정의 원인이 되는 대상 속성 기반의 감성 분석이 어려움 단어의 특성을 저차원 벡터값으로 표현하는 워드 임베딩(word embedding) 방법을 이용하여 머신러닝 기반 감성분석의 정확도를 높일 수 있음 Word Embedding : 단어의 의미가 유사할 경우 가까운 벡터 공간에 존재함 3. Word to Index & Index to Word IMDB 리뷰 감성분석을 위해 텍

2022년 2월 9일
·
0개의 댓글
·

CNN을 이용한 NAVER 영화 리뷰 감성분석 (Sentiment Analysis)

1.프로젝트 진행 배경 지난 학기에 멀티미디어 정보처리 수업을 수강하면서 CNN을 기반으로 한 여러 이미지 처리 모델을 학습했었는데, 하계 현장 실습을 진행하면서 CNN이 자연어 처리에도 이용된다는 것을 알게되었다. (현장 실습하는 곳에서는 Transformer model을 바탕으로 한 감성 분석을 진행했다. 물론 인턴이 나는 레이블링 작업, 팀 세미나 참여, Transformer model 구조 발표 등 작은 부분을 맡아서 했지만...!) 이미지 처리 모델을 학습하면서 사용했던 CNN이 Attention Mechanism 보다는 아니지만 자연어 처리에서도 꽤 좋은 성능을 보인다는 점에서 과연 어느 정도의 감성분석이 가능할지 궁금해서 프로젝트를 진행해보게 되었다. + NLP 공부 겸 ㅎㅎ 2. 감성분석(Sentiment Analysis) > 텍스트에 들어있는 의견이나 감성, 평가, 태도 등의 주관적인 정보를 컴퓨터를 통해 분석하는 과정 > ex) ‘너무 좋았다.

2021년 11월 24일
·
0개의 댓글
·

[NLP Paper] Financial Sentiment Analysis: An Investigation into Common Mistakes and Silver Bullets

논문 본문은 여기서: https://www.researchgate.net/publication/347950569FinancialSentimentAnalysisAnInvestigationintoCommonMistakesandSilver_Bullets 최근 금융 텍스트 데이터 분석에 관해 다양한 연구들이 나오고 있다. (e.g. Stock market prediction, asset allocation, initial public offering valuation(IPO)). 이 중에서도 감정 분석 연구들의 목적은, 어떤 금융 관련 텍스트의 특정 argument를 통해 긍정적(positive/bullish) 혹은 부정

2021년 3월 28일
·
0개의 댓글
·