untitled

Joy·2023년 7월 20일
0

일상

목록 보기
14/14

1. Introduction

Transfer Learning된 모델을 .. 데이터로 Fine-tuning

2. Motivation

-_-;;

3. Method


전처리(preprocessing): 머신 러닝 모델에 입력 데이터를 주입하기 전에 데이터를 정제하고 변환. .. 생성 프로젝트에서도 데이터 전처리는 중요한 단계이며, 효과적인 전처리를 통해 모델의 성능을 향상. 다음은 .. 데이터를 전처리하는 주요 단계들에 대한 설명:

1) 텍스트 정제 (Text Cleaning):

  • HTML 태그나 특수 문자 등 불필요한 문자를 제거.
  • 대소문자 통일: 모두 대문자 또는 소문자로 변환하여 텍스트의 일관성을 유지.
  • 특수문자 제거: 문장부호, 괄호, 따옴표 등을 제거.

2) 토큰화 (Tokenization):

  • 텍스트를 단어, 구절 또는 문장 단위로 분리하여 토큰(token)으로 변환.

3) 불용어 제거 (Stopword Removal):

  • 자주 사용되지만 문맥 파악에 크게 기여하지 않는 불용어(stopword)를 제거합니다. 예를 들어, "는", "이", "그", "하다"와 같은 단어들은 불용어로 간주되며, 제거하여 데이터 크기를 줄이고 모델의 성능을 향상.

4) 텍스트 정규화 (Text Normalization):

  • 단어들을 표준화.
  • 예를 들어, 동사의 다양한 형태를 원형으로 변환하거나 동의어를 통일.

5) 데이터 벡터화 (Data Vectorization):

  • 텍스트 데이터를 모델에 입력 가능한 형태로 변환.
  • 텍스트를 숫자로 표현하는 방법으로는 원-핫 인코딩, TF-IDF(Term Frequency-Inverse Document Frequency) 등.

6) 패딩 (Padding):

  • 모델의 입력 길이를 일정하게 맞춰주기 위해 시퀀스의 길이를 동일하게.
  • 길이가 짧은 시퀀스는 0으로 채워주거나, 길이가 긴 시퀀스는 잘라내는 등의 방법을 사용.

7) 데이터 분할 (Data Splitting):

  • 전처리한 데이터를 학습 데이터와 검증 데이터, 테스트 데이터로 분할하여 모델을 학습하고 평가.

8) 기타 특정 작업에 맞는 전처리:

  • 추가적인 전처리 작업. e.g., 특정 ..를 변환하거나, 민감한 정보 마스킹.

  • 개인정보에 대한 해결법 : pdf의 경우 수정가능한 문서로 바꿔 민감한정보는 모두 마스킹하기 번거로우므로 임시파일 공유 서비스 사용. (혹은 개인 드라이브)
    https://tmpfiles.org/

07.21~ 8월 중순정도까지?


  • 문제점
    1) Pdf 파일 인식여부, 학습이 가능한지
    2) Ocr, 텍스트로 인식 (or 텍스트로 변형해서 학습을 시켜야 하는지)
    3) 실제로 적용 가능한지 (실험적 결과말고 실제로 좋은 결과를 이끌어낼 수 있는지 의문)

  • 1) 가능. gpt 플러그인 사용

  • 2)번에 대한 gpt대답


"파일 업로드"와 "코드 실행기"가 추가

Code Interpreter를 선택하고 데이터를 넣고 프롬프트를 입력하면 넣은 데이터를 알아서 분석하고 처리. 코드를 만들고 실행하면서 오류가 나면 바로잡아서 다시 수행.

활성화 방법
https://chat.openai.com/
ChatGPT에서 이름 클릭 > Settings > Beta features > Code Interpreter 활성화

사용한 데이터
https://lnkd.in/g_mseS5n

GPT-4 API



4. Results

5. Conclusion & Summary

profile
🐣비전공자의 AI 입문기🐣

1개의 댓글

comment-user-thumbnail
2023년 7월 20일

정말 좋은 정보 감사합니다!

답글 달기