profile
깊게 배우고 신박하게 개발할래
post-thumbnail

What Does BERT Look At? An Analysis of BERT’s Attention

버트는 최근 NLP 분야에서 큰 성공을 거두었고, unlabeled data에서 어떠한 언어적 특징을 학습할 수 있는가 연구하고 있는 분야의 몸집을 키웠다. 최근 분석 결과들은 모델의 확률 분포나 representations vector와 같은 산출물에만 초점이 맞춰져

2022년 7월 27일
·
0개의 댓글
·
post-thumbnail

Chapter 2 이웃 기반 협업 필터링

2.3 이웃 기반 방법론의 평점 예측 이웃 기반 방법론의 기본 아이디어 사용자-사용자 유사도를 이용 상품-상품 유사도를 이용 여기서 이웃이라는 개념은 예측을 위해 유사한 상품이나 유사한 사용자를 이용한다는 의미 협업 필터링 문제는 분류나 회귀 모델링 문제의 일반화

2022년 4월 8일
·
0개의 댓글
·
post-thumbnail

Chapter 1 An Introduction to Recommender Systems

History 220322 1-10p | 1.1 ~ 1.3.1.1 220324 11-20p | 1.3.1.2 ~ 1.4.1 220409 21-30p | 1.4.2 ~ 1.8 1.1 Introduction 여러 종류의 추천시스템에 대해 소개할 것. 또, 서로다른 도메인

2022년 3월 22일
·
1개의 댓글
·
post-thumbnail

BPR : Bayesian Personalized Ranking from Implicit Feedback

아이템 추천은 여러 아이템을 개인에 맞춰 순위를 매겨주는 문제이다. 여기서는 클릭이나 구매기록 같은 간접 피드백을 이용하는 일반적인 시나리오로 설명하겠다. 아이템 추천에는 MF나 kNN같은 많은 방법이 있다. 이런 방법들은 유저별로 순위는 잘 구축하지만 순위 자체를 최

2022년 2월 15일
·
0개의 댓글
·
post-thumbnail

(2강) 대회 및 데이터셋 소개

1. 대회소개 & FLOPs 1.1 대회 목표 1.2 대회 평가 기준 1.3 FLOPs에 대해서 ![](https://images.velog.io/images/sangm

2021년 11월 23일
·
0개의 댓글
·
post-thumbnail

(1강) 최적화 소개 및 강의 개요

머신러닝, 딥러닝이 어디에든지 적용되고 있다.그러면서, 여러 디바이스에 적용되고자 하는 시도가 증가했다. 하지만 여기에는 몇가지 한계가 있다.파워 사용량(배터리)메모리 사용량저장 공간컴퓨팅 파워이 4가지를 해소할 수 있는 것이 경량화이며 강의에서 전반적으로 이를 다룰것

2021년 11월 22일
·
0개의 댓글
·
post-thumbnail

(10강) 관계 추출 데이터 구축 실습

1. 과제 정의 구어에 대해서는 관계 추출이 잘 이루어지지 않기 때문에 잘 행하지는 않는다. ![](https://images.velog.io/images/sangmandu/post

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

(9강) 관계 추출 관련 논문 읽기

1. Position-aware Attention and Supervised Data Improve Slot Filling 목차 Overview 왜 제목이 RE가 아니라 Slot Filling일까? 단순히 Entity Tag를 채우는 것이 Relation에 해당하는 Tag를 채우는 것이라서 Slot Filling이라고 한다. Blue : Subject...

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

(8강) 관계 추출 과제의 이해

1. 관계 추출 관련 과제의 개요 실제 태스크는 좀 더 복잡하고 두껍다. 관계 추출 관련 과제의 이해 외국은 PLO의 간단한 타입으로 분류하지만, 우리나라는 좀 더 체계화 된 지식을 모델이 습득하기 위해 여러가지 타입을 정의했다. 대분류는 20가지, 소분류는 100가지 이상이라고 한다. ![](https://images.velog.io/images

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

(7강) 데이터 구축 가이드라인 작성 기초

1. 가이드라인의 유형 이렇게 공들여서 가이드라인을 구성하면 좋긴한데, 보통 이만큼 하지 않기도 한다. 2. 가이드라인의 구성 요소 작업의 의도를 잘 모르고 결과를 내는 날것이 더 효과적일 때도 있다. 보통은 작업의 의도를 잘 알려주고 데이터를 주석한다. 최대한 다양한 단어를 사용하는 것이 좋다. 라는 목적을 알고있으면 좀 더 좋은 품질의 데이터를 ...

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

(6강) 데이터 구축 작업 설계

1. 데이터 구축 프로세스 매우 클래식한 단계이다. 마마라는 작업. 예시 1차 구축, 2차 구축을 하지 않을 수도 있고 1차와 2차의 성질이 아예 다를 수도 있다. ![]

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

(5강) 원시 데이터의 수집과 가공

1.원시 데이터의 정의 원시 데이터란? 원시 말뭉치와 동일한 개념이다. 아무런 텍스트는 아니고 내가 원하는 텍스트를 원하는 형태로 가공하지 않은 형태. 전처리를 거쳐야 활용할 수 있다. 수집 기간 : 프로젝트 기간. 기사로 예를 들면 21년 1월부터 10월까지 기사를 모으겠다 등 수집 장소 : 어디에 있는 데이터를? 어디에 저장할 것인가? 원시 데이...

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

(4강) 자연어처리 데이터 소개 2

1. 더 알아보기 좋은 데이터를 만들기 위해서는 사람들이 앞서서 어떤 데이터를 만들었는지 찾아보고 좋은점을 본받아야 된다. 이런 과제들이 자연어 처리에서 다루어지는데, 이들에 대해 세부적으로 모든 것을 알고있는 사람은 없다. 대부분은 몇가지 태스크들에 대해서만 세부적으로만 알고 깊게 경험을 가지고 있다. 그러니 모두를 다 깊게 알 필요는 없지만, 전반적...

2021년 11월 9일
·
0개의 댓글
·
post-thumbnail

(3강) 자연어처리 데이터 소개 1

1. 국내 언어 데이터의 구축 프로젝트 대학교 자체에서 만든 말뭉치들도 있었지만, 국가적으로 10년 계획을 가지고 수행한 프로젝트가 21세기 세종 계획이다. 국어학자와 언어학자의 의견이 많이 반영됐다. 엑소브레인 프로젝트는 인공지능을 개발하기 위해 수행하는 프로젝트이다. 현재 진행중인 프로젝트이고 많은 언어 자원이 있다. 2016년 알파고 이후...

2021년 11월 8일
·
0개의 댓글
·
post-thumbnail

(2강) 자연어처리 데이터 기초

두 종류로 거의 나타낼 수 있다. 기술 자체는 변화해왔지만 풀고싶어하는 문제는 그대로이다. 물론, 최초에는 존재하지 않았던 문제도 있긴하다.이전에 쓰던 데이터는 그대로 쓴다. 데이터에 소모되는 비용이 크기 때문에 되도록이면 그대로 사용한다.종합적인 언어모델의 성능을 평

2021년 11월 8일
·
0개의 댓글
·
post-thumbnail

(1강) 데이터 제작의 A to Z

P;ㅠ는 피땀눈물을 의미한다!!각각의 과정은 끊임없이 상호작용한다. 이 때 각각의 작업이 소요되는 시간은 얼마나 될까?데이터 제작에 대해서는 등한시 되기가 쉽다. 왜냐하면 데이터 제작에는 이렇게 해야 한다. 라는 왕도가 없고, 경험적으로 깨닫는것이 일반적이기 때문이다.

2021년 11월 8일
·
0개의 댓글
·
post-thumbnail

Latent Retrieval for Weakly Supervised Open Domain Question Answering

ODQA의 최근 연구들은 유용한 데이터를 가지고 이루어지는 강력한 지도 학습이나 유용한 데이터를 찾아오는 black-box 정보 검색 시스템으로 수행되고 있다. 이들은 최선책이 아닌데, 정답을 항상 찾을 수 있는 방법이 아니기 때문이다. 그리고 QA이라는 것은 원초적

2021년 10월 27일
·
0개의 댓글
·
post-thumbnail

(7강) Linking MRC and Retrieval

input과 output은 비슷하다. 단지 지문을 참고해야 하는 수가 다르다. ODQA는 엄청난 양의 passage를 read해야한다.최근에 구글 등의 검색 엔진 사이트는 검색어에 대한 연관문서 뿐만 아니라 질문의 답을 같이 제공한다.이는 예전에도 한번 다뤄졌던 주제이

2021년 10월 19일
·
0개의 댓글
·
post-thumbnail

Dense Passage Retrieval

Dense Passage Retrieval for Open-Domain Question Answering Abstract Open-domain question answering(자유 주제 질의 응답, 이하 OPQA)은 TF-IDF나 BM25같은 sparse vecto

2021년 10월 19일
·
0개의 댓글
·
post-thumbnail

(6강) Scaling up with FAISS

Passage가 많아질수록 아무리 내적이라 할지라도 연산량이 부담될 수 밖에 없으며 6강에서는 어떻게 가장 가까운 Passage를 효율적으로 찾을까에 대해 이야기한다.Nearest Neighbor와 같은 L2 Distance를 측정하는 것보다 두 개의 벡터의 dot p

2021년 10월 15일
·
0개의 댓글
·