[11/8~11/11] Project 4

마친자·2021년 11월 16일
0

주제: 가설 검증을 위한 딥러닝 파이프라인 구축

목표: 코드에 익숙해지자!

단계

  1. 관심 데이터 선정
  2. 가설 수립
  3. 데이터 전처리
  4. 딥러닝 방식 작용
  5. 찬스 레벌 넘는지 확인
  6. Requirements.txt 제작 및 재구현
    • 6번의 경우 제작은 했으나 구현은 해보지 못함

결과

  • 텍스트 다중분류(감성 분석하기)
  • AI hub에 있는 한국어 감성대화 말뭉치 데이터셋을 이용하여 감성 분석하기
  • 가설: 단순 LSTM, 양방향 LSTM, 양방향 LSTM+attention, self-attention ,kobert 성능 비교(kobert짱짱맨)
  • 새로운 문장이 어느 감정(기쁨,불안,당황,슬픔,분노,상처)에 속할지 예측하는 모델도 만듦
    • lstm으로 만듦(bert로도 만들었지만 문제가 생겨서 지금 쓸 수가 없음)

추후에 할 것

  • 띄어쓰기 라이브러리 사용해보고 표제어도 한번 실행해서 데이터 전처리 하기
  • kobert의 경우, 하이퍼파라미터 튜닝으로 조정하기
  • attention의 사용이 오히려 성능이 떨어졌다. 다른 긴 문장이 있는 데이터 사용해보기
  • 데이터가 한국어 자연어처리 학습하기에 너무 좋은 데이터이기때문에 트랜스포머를 사용해서 챗봇 만드는 토이프로젝트도 하기 좋은것 같다
  • 해당 모델을 API 서비스 구현해서 배포할 수 있을까...?
  • 오늘 카카오브레인에서 KoGAT-3을 발표하였다--> 한번 적용해보기
  • 감정 분류-> 감정의 수준을 측정-> 현재 상태에서 필요한 치료 안내(병원 소개/ 상담 소개)

참고한 사이트

딥러닝을 이용한 자연어처리 입문
attention
kobert
참고

오류

  1. 한글 데이터 깨지는 현상 해결
  • 드라이브 카운트 하고 올렸더니 데이터셋이 다 깨짐
  • 깃헙에 데이터셋 올리고 그 링크로 불러온 다음(pandas) delimiter= ',' 사용(알던 거라도 옵션 알아두자)
    참고
  1. TypeError: conv2d(): argument 'input' (position 1) must be Tensor, not NoneType
  • forward()에서 return 부분 안 적음. 적으니 해결완료
    링크텍스트

3.bertmodel, vocab = get_pytorch_kobert_model() 에서

gaierror: [Errno -2] Name or service not known

During handling of the above exception, another exception occurred:

NewConnectionError                        Traceback (most recent call last)
NewConnectionError: <urllib3.connection.VerifiedHTTPSConnection object at 0x7fc021338c90>: Failed to establish a new connection: [Errno -2] Name or service not known

During handling of the above exception, another exception occurred:

MaxRetryError                             Traceback (most recent call last)
MaxRetryError: HTTPSConnectionPool(host='kobert.blob.core.windows.net', port=443): Max retries exceeded with url: /models/kobert/pytorch/kobert_v1.zip (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7fc021338c90>: Failed to establish a new connection: [Errno -2] Name or service not known'))

During handling of the above exception, another exception occurred:

ConnectionError                           Traceback (most recent call last)
/usr/local/lib/python3.7/dist-packages/requests/adapters.py in send(self, request, stream, timeout, verify, cert, proxies)
    514                 raise SSLError(e, request=request)
    515 
--> 516             raise ConnectionError(e, request=request)
    517 
    518         except ClosedPoolError as e:

ConnectionError: HTTPSConnectionPool(host='kobert.blob.core.windows.net', port=443): Max retries exceeded with url: /models/kobert/pytorch/kobert_v1.zip (Caused by NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x7fc021338c90>: Failed to establish a new connection: [Errno -2] Name or service not known'))

해당 url에 대한 접근 시도가 최대 접근을 초과했기 때문에 구글에서 막아서 발생하는 문제

  1. 런타임 초기화나 시간 지나서 해보기(fail) --> 나의 경우 런타임 초기화할때마다 모델을 계속 불러와서 차단된 경우임
  2. 다른 코랩 ID 사용하거나 로컬에 다운받은 후, 로컬에서 드라이브에 모델 올리고 이를 불러오기
  • 나는 다른 코랩 id사용해봤지만 다 안됐다.. 로컬에서도 해볼려고 했으나 오류가 많이 나고시간 관계상 못함
  • 며칠 지난 후에 다시 해봤지만 여전히 차단되었다. 로컬에서 다시 한번 시도해봐야할듯
  • 혹시 이 문제 해결하신 분들 댓글 좀 남겨주세요
profile
마루에 미친자

0개의 댓글

관련 채용 정보