profile
함께 자라기

[부스트캠프 AI-Tech] 15주차 Day 4~5

CHoRaL: Collecting Humor Reaction Labels from Millions of SocialMedia Users 논문 리뷰최종 프로젝트 관련 조사베이스라인 수정 및 실험 (하이퍼 파라미터 위주로)강의 1~7강 수강삶의 지도, 이력서 작성빠르게 베

2022년 5월 6일
·
0개의 댓글

[부스트캠프 AI-Tech] 15주차 Day 3

Sparse embedding의 한계차원의 수가 매우 크다 → compressed format으로 극복 가능유사성을 고려하지 못함Dense Embedding더 작은 차원의 고밀도 벡터 (length = 50~1000)각 차원이 특정 term에 대응되지 않음대부분의 요소

2022년 5월 6일
·
0개의 댓글

[부스트캠프 AI-Tech] 15주차 Day 2

Generation-based MRC주어진 지문과 질의를 보고, 답변을 생성 (생성 문제)평가 방법EM, f1 Score (Extraction-based MRC와 동일한 방법)모델 구조Seq-to-seq PLM 구조Prediction 형태Free-form text 형태

2022년 5월 6일
·
0개의 댓글

[부스트캠프 AI-Tech] 15주차 Day 1

MRC (Machine Reading Comprehension)기계 독해주어진 지문을 이해하고, 주어진 질의의 답변을 추론하는 문제MRC 종류Extractive Answer Datasets질의에 대한 답이 항상 주어진 지문의 segment(or span)으로 존재Des

2022년 5월 6일
·
0개의 댓글

[논문 리뷰] Longformer: The Long-Document Transformer

기존 transformer는 sequence 길이의 제곱 비례해서 계산, 긴 문장 불가능우리는 이를 해결하기 위해, attention 작업을 sequence 길이에 선형 비례하는 Longformer 소개Longformer의 attention 원리는 기존 self-at

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 14주차 Day 5

직접 RE 태스크에서 사용할 데이터를 제작해보기팀 내부적으로 데이터 가이드를 만들고 이를 바탕으로 한 레이블링을 함께 진행한다.Relation set의 구성 및 정의, 가이드라인 작성, 파일럿 및 메인 어노테이션, 그리고 간단한 모델 Fine-tuning의 과정을 통해

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 14주차 Day 1~4

헷갈리는 관계들 정리<<>>와 같은 것은 제외하고 태깅이름(~) → 하나로 태깅Tagtog json 파일에서 → 구글 스프레드시트 코드 공유관계별 분포 확인fleiss-Kappa 결과 공유파일럿 태깅tagtog → 구글 스프레드시트 변환메인 태깅팀원들에게 이

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 13주차 Day 4~5

Entity 정리PER: 인물SYS: 무언갈 다루는 체계, 관념, 단체 모두를 뜻함(종교, 학문, 기관, 민족, 국가, 문화, 직업)DAT: 날짜LOC: 장소(GPS로 찍을 수 있는 특정 장소)POH: 기타 명사(작품, 저작물, 기물, ORG로 생성된 실체가 있는 것)

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 13주차 Day 3

가이드라인 유형목적수집, 주석, 검수제시문서형, 화면 노출형, 튜토리얼형가이드라인 구성 요소데이터 구축 목적 정의데이터 구축시 고려 사항사용 용어 정리가이드라인 버전 관리구축과 검수 과정을 통해 지속적으로 개정되어야 함버전마다 어떻게 변화했는지 비교하여 볼 수 있도록

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 13주차 Day 2

질의응답 QASQuAD (위키피디아 기반)SQuAD 1.0SQuAD 2.0기계 번역 Machine TranslationWMT 데이터셋요약 Text SummarizationCNN/Daily Mail대화 Dialogue \- DSTC (Dialog System Tec

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 13주차 Day 1

✏️학습 정리 1. 데이터 제작의 A to Z 데이터 제작의 중요성 데이터 구축 과정 원시 데이터 선정 및 확보 구축 및 가공 프로세스 확립 구축 및 가공 지침 작성 데이터 구축 및 가공 데이터 검수 데이터 설계 데이터

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 12주차 Day 5

huggingface 자유롭게 사용하기huggingface를 이용하여 원하는 pre-trained 모델을 불러와 사용할 수 있으며, TrainingArgument와 Trainer를 자유롭게 사용할 수 있다.NLP 대회의 감을 잡기대회의 전반적인 흐름과 실험을 할 때 어

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 12주차 Day 4

ensemble을 위해 지금까지 실험했던 결과 정리ensemble오늘 7시까지 대회가 진행된다. 마지막 날은 따로 실험하기 보다 지금까지 실험했던 결과들을 이용해서 ensemble을 시도했다.먼저, f1 score가 높았던 모델들을 위주로 ensemble을 해보았다.

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 12주차 Day 2~3

질문형 문장obj, sub이 아닌 ‘스페셜 토큰 실험 (질문형 문장, 원본 문장)원본 문장만 > 둘다 안넣음 > 둘다 넣음 >>> 질문형 문장으로 성능이 나옴원본 문장에만 넣는 것이 가장 좋은 성능질문형 문장에만 넣을 경우 성능이 상당히 많이 떨어졌다 → 모델이 질문

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 12주차 Day 1

하이퍼 파라미터 searchhuggingface의 optuna 시도epoch, learning rate, batch size, wramup-ratio 튜닝리더보드에 크게 신경은 쓰지 않았지만, 어떤 문제점이 있는지 알려주시기 위해 멘토링 진행, 다음과 같은 문제점 발견

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 11주차 Day 3~5

데이터 EDA 관련sentence 추출시에 큰 따옴표로 랩핑된 문장도 있고, 없는 문장도 있다.. → 인용문으로 생각할 수 있어서 제거 필요 (eval 함수 사용)sentence 중에 큰 따옴표가 연속으로 나오는 경우가 있음 (””” 이런식으로..) → 수정하고 실험시

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 11주차 Day 2

BERT 이후 다양한 LMXLNetRelative Positional Encoding Positional Encoding → token 간 관계성 표현BERT처럼 절대적 위치를 표현하는 것이 아닌, 현재 token의 상대적 거리 표현법 사용Sequence 길이 제한

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 11주차 Day 1

GPT 모델 구조Transformer의 Decoder 부분만 사용GPT 모델 특징적은 데이터로도 높은 분류 성능다양한 자연어 task에서 SOTA 달성Pre-train 언어 모델의 새 지평을 열음 (BERT의 밑거름)여전히, 지도 학습 필요, labeled data가

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 10주차 Day 4~5

한국어 전처리 연습개인정보 관련 문제적절한 비밀번호인지 검증욕설 삐처리하기개인정보 마스킹크롤링된 문서 전처리데이터 분석코퍼스 EDATokenizer 비교 (음절, 형태소, WordPiece)Huggingface hub에 모델 공유No_relation 라벨을 언더샘플링

2022년 4월 23일
·
0개의 댓글

[부스트캠프 AI-Tech] 10주차 Day 3

KLUE 데이터셋한국어 자연어 이해 벤치마크자연어 task 유형문장 분류관계 추출문장 유사도자연어 추론개체명 인식품사 태깅질의 응답목적형 대화의존 구문 분석 (단어들 사이의 관계를 분석하는 task)단일 문장 분류 task감정 분석주제 라벨링언어감지의도 분류문장 분류를

2022년 4월 23일
·
0개의 댓글