[LG U+ Why Not SW Camp/python] 6월 2주차 회고록

조선영·2025년 6월 19일
1

LG U+ Why Not SW Camp

목록 보기
14/14

github, notion 정리본 링크


(6월 2주차에는)

  • transformer 알고리즘

  • Bag of Words 모델

    • TF/IDF 기반의 벡터화
    • BOW 벡터화를 위한 희소 행렬
    • 피처 벡터화 (CountVectorizer)
  • 텍스트 마이닝

    • 불용어
    • 어간처리 (Stemming)
    • 표제어 처리 (WordNetLemmatizer)
  • 희소 행렬 변환

    • COO 형식 (Coordinate)
    • CSR 형식 (Compressed Sparse Row)
  • 머신러닝 흐름 / 프로세스

    • Bert 방식
      • huggingface bert-base-uncased

전반적인 느낀점 (notion 참조)

Python_MLP_text mining

전반적인 데이터 전처리 과정을 진행했다.
Transformer 알고리즘과 BOW 모델부터 피처 벡터화, 문장과 단어의 토큰화, 불용어 제거, 표제어 및 어간 처리 등을 배웠다.

PythonML_MLFlow기본 구성 프로세스

파이프라인 구성부터 mlflow 실험 (성능 평가 등)을 진행했고 이를 streamlit으로 바로 배포해서 결과를 확인했다.

Python_ML_Bert 방식 (transformers 알고리즘)

Bert 방식부터 디바이스 설정, huggingface, 학습, 모델링, 예측 등을 진행했다.

통계_(추가 정리) 경사하강법

추가로 간단하게 경사하강법에 대해 정리했다.
역전파, 순전파, 손실함수, 배치 경사하강법, 확률적 경사하강법, 미니배치 경사하강법 Adam에 대해 다뤘으며 간단한 코드와 이론만 정리했다. 시간이 된다면 추후에 자세히 업데이트할 예정이다.

좋았던 점

문장에서 단어로 또 단어에서 원하는 정보를 얻어내는 것이 뿌듯했고 재밌었다.

예전에는 불용어 처리를 하나하나 쓰면서 처리를 했었는데, 패키지가 있는 것에 놀랐고 편리했다.

다음주 계획

진행 중인 개인 프로젝트 '나의여행기록'의 서버를 구축할 예정이다.
이를 위해, 백엔드를 맡은 팀원과 지속적으로 소통할 예정이고 이틀에 한 번씩 진행사항을 주고 받을 예정이다.

profile
UX 기획도 하고 서비스 기획도 하고 PM도 하고 프론트도 하고 PL도 하는 중

0개의 댓글