[2025.01.09]TIL

DONGMIN SONG (송동민)·2025년 1월 9일
0

TIL

목록 보기
57/72
post-thumbnail

TIL

🍔 오늘 할 일

  • 자연어 라이브 섹션
  • 리차드 튜터님의 코카콜라 프로젝트 라이브섹션
  • 이터널 리턴 API를 csv화

중간에 추가된 일

중간에 취소된 일

🍟 프로젝트

당분간 수업이 없는 날에는 간략히 프로젝트 관련 회고만 하고 끝내려 한다.

왜지..?

이유는 모르겠으나 API데이터를 CSV화 시키는 중에 어느순간 403오류가 지속적으로 뜨기 시작했고, 이터널리턴 디벨로퍼 사이트에서 Unsubcribe상태로 고정되어 더이상 데이터를 받지 못하는 상태가 되었다. 일단 해당 디스코드에 문의를 넣어 일일 제한 api요청량을 다 쓴건지에 대한 질문을 남겼는데..아직 답이 없다.
왜지 ㅠㅠ 뭔가 룰위반을 했나

📚 자연어 라이브섹션

오늘은 자연어 처리의 주요 분석 기법을 배우게 되었다.

감정분류

  • 일종의 이진분류에 가까운 기법, 지도학습
  • 긍정2 중립1 부정0 식으로 임베드하여 심플하게 스코어링 하는 방법
  • 영화 리뷰를 대상으로 영화 점수를 본다던가, 긍정과 부정 피드백을 분리하여 볼 수있다.

텍스트 자동분류

  • 카테고리가 명확하고 종류가 제법 많을 경우 사용, 지도학습
  • 예를들어 소셜, 업데이트, 포럼, 프로모션등으로 나눠서 분류해서 보는 방법

텍스트 데이터 클러스터링

  • 데이터 내부의 단어들을 쪼개서 일일히 차원으로 삼아 분석하는 방법
  • 많은 차원이 존재하기 떄문에 유클리디언 거리 기반의 클러스터링은 효과가 떨어질 수 있다.
  • 예를 들어 문장을 백터화 했다고 했을때 예1과 예2가 있다면
    예1)(1,1,0,0)(0,0,1,1) 거리 2
    예2)(2,2,0,0)(1,1,0,0) 거리 루트2
    예1은 같은단어가 2개 비슷한점 예2 같은단어가 없는 상태이지만 유클리드 거리상으로만 보면 예2가 더가까워서 문제가 발생
    거리가 가깝다 멀다보다 비슷한 단어가 많이쓰이는 차원이 비슷한게 중요하다.
    ※ 그래서 보완으로 코사인 거리 사용한다.
  • 코사인 거리를 활용한 클러스터링 방법 몇 가지를 소개합니다.
    AgglomerativeClustering의 metric을 cosine 으로 설정
    pherical K-means Clustering 활용

오픈AI를 활용한 LLM방식(Large Language Model)

  • 이 방법은 오픈 AI에서 제공하는 임베딩 방식으로 소정의 결제를 해서 간편하고 빠르게 텍스트를 분류하는 방법이다.

  • https://openai.com/api/ 로 접속하여 api 키를 신청할 수 있습니다.
    가입 후 Organization을 설정하고 신규 프로젝트를 생성합니다.
    이후 절차대로 진행하며 결제 금액을 정하고 텍스트를 넣어보면 의미가 있는 단위로 단어를 분류해서 되돌려준다.

🍷 코카콜라 프로젝트 라이브섹션

리차드 튜터님의 프로젝트 과정과 경험을 알려주신 라이브섹션이었다.
1개의 데이터로 여러가지를 하는 원 소스 멀티 유즈 (One Source Multi Use)에 대한 설명을 주로 해주셨고, 이를 위해 구글 독스를 잘활용하면 GAMMA라는 PPT제작 사이트에도 활용가능하고 다른 공유작업(팀쉐어) 사이트에 제공을 함으로서 여러번 작성하지 않고 한번의 구글 독스로 여러 작업을 진행할 수 있음을 보여주었다.
또한 깃허브를 이용하려고 하면 초보자에겐 어렵기 때문에, 깃허브 데스크탑을 사용하면 사이트에서 명령어로 하는 기능들이 간단한 클릭과 드래그로 활성화되서 편하다는 팁을 주셨다.

🥤 계획 및 회고

일단 이터널 리턴 API가 갑자기 사용이안되어 이걸 해결해야 한다. 그와중에 내일 일정이 라이브섹션부터해서 QCC시험까지 빡빡하기 때문에 API 키가 복구될때까진 여기에 집중해야 할듯 하다. 결국 일이 딜레이 된느낌이라 스트레스가 ㅠㅠ😥

내일 계획

  • 라이브섹션 수업따라가기
  • QCC 6회차 무사완료
  • 이터널 리턴 API 수복후 CSV작업 마무리
  • 여유가 된다면 기획서의 주제에 맞는 데이터를 선별 해보기
profile
데이터 분석가를 꿈꾸고 있습니다.

0개의 댓글

관련 채용 정보