[부스트캠프 NLP] NLP 3주차 정리

AirPlaneMode·2021년 10월 1일
0

부스트캠프 NLP

목록 보기
3/7
post-thumbnail

0. 서론

 NLP 3주차는 새로운 팀원들과 함께 시작하였다. 처음 팀원 모집 공고를 올렸을 때, 바라는 팀원의 특징들을 함께 올렸던 덕에 성격 비슷한 팀원들을 만날 수 있었던 것 같다. 덕분에 남은 기간 동안 좋은 인연을 만들 수 있을 것만 같다.

 이번 주는 추석 연휴가 껴있던 탓에 이틀밖에 정규강의가 진행되지 않았다. 따라서 NLP에 관한 내용보다는 Upstage에서 주관한 특강 위주로 진행이 되었는데, 강의 내용보다는 강의를 들으면서 느낀점을 위주로 학습정리를 전개하고자 한다.

 또한, 추석 연휴로 인해 과제가 없었으므로 이번 주 과제에 대한 내용은 생략하도록 한다.

1. 학습정리

 이번 주 특강은 총 8개의 주제로 진행되었다. 각 강의를 수강하며 느꼈던 점은 다음과 같다.

1. 이활석 (Upstage) - 서비스 향 AI 모델 개발하기

 실제 회사에서 AI 관련 업무를 어떻게 수행하는지에 대해 데이터셋 구성을 중심으로 강의가 진행되었다. 사실 지금까지 모델 실습을 할 때에는 MNIST, ImageNet 등 이미 주어진 데이터를 바탕으로 실습을 진행했기 때문에 데이터셋을 구성할 때의 고충은 특별히 생각해본 적이 없었다. 모델 뿐만 아니라 데이터 셋에 대해 생각해보는 좋은 계기가 되었다.

2. 김상훈 (Upstage) - 캐글 그랜드마스터의 경진대회 노하우 대방출

 Kaggle은 세계에서 가장 활발한 인공지능 경진대회 플랫폼으로, Kaggle을 이용하는 방법부터 대회에서 좋은 성적을 받기 위한 자잘한 팁들을 설명해주셨다. 강사님은 평일 3~4시간, 주말 7~8시간 정도를 꾸준하게 두세달 간 투자하였다고 하였는데, 그 정도까지는 아니더라도 취미 정도로 도전해보는 것은 어떨까 하는 생각을 하였다.

3. 구종만 (Tower Research Capital) - AI + ML과 Quant Trading

 퀀트 트레이딩이 무엇이며 어떻게 진행되는지에 관한 강의였다. 예전에 졸업논문을 작성하면서 퀀트 트레이딩에 관심이 생겨 알고리즘 트레이딩에 관한 많은 논문들을 읽었고, 나 역시 모델링을 해 본 경험이 있다. 당시 모델들의 예측 결과가 예상보다 결과가 좋지 않아서 당황했는데, 현업 종사자 역시 쉽지 않은 일이라고 말하고 내가 겪은 문제와 같은 문제를 겪고 있다는 사실을 들으며 굉장히 흥미롭다고 생각했다.

4. 문지형 (Upstage) - 내가 만든 AI 모델은 합법일까, 불법일까

 데이터 셋의 저작권에 관한 강의였다. 데이터를 사용하려 할 때마다 저작권자에게 사용요청을 할 수는 없기에 만들어진 CCL을 중심으로 강의가 진행되었다. 언제 한 번 수능 문제를 머신러닝을 활용하여 풀어보고자 했었는데, 수능 문제를 데이터셋으로 사용하는 것이 합법인지 불법인지 궁금했던 적이 있어 집중하고 들을 수 있었다.

  • 수능문제는 비영리적 사용은 괜찮다고 한다 :)

5. 이준엽 (Upstage) - Full stack ML Engineer

 컴퓨터 전공자라면 Full Stack이라는 말을 한 번쯤은 들어봤을 것이다. 백엔드와 프론트엔드를 모두 다룰 수 있는 개발자를 뜻하는 단어인데, FSME는 여기에 머신러닝을 추가하여 FE, BE, ML을 모두 다룰 수 있는 개발자라고 한다.

 사실 FE, BE, ML을 모두 공부하는 것은 양이 굉장히 방대하기 때문에 세 분야를 모두 다루는 사람은 이도 저도 전문성이 부족한 제너럴리스트가 되기 쉽다고 생각한다. 셋 다 전문성을 가진 전설의 포켓몬 같은 사람이 있을 수도 있지만, 개인적으로 목표로 삼지는 않을 것 같다고 생각했다. 그래도 BE, FE를 어느 정도 이해하고 배울 필요가 있다는 점에는 동의한다.

6. 오혜연 (KAIST) - AI Ethics

 AI와 관련된 윤리적 issue를 예시 및 관련 논문들과 함께 친절하게 설명해주신다. 본 강의의 초반부에는 이런 예시가 나온다. 중범죄를 저지른 백인 남성의 재범가능성이 상대적으로 경범죄를 저지른 흑인 여성의 재범가능성이 높다고 인공지능 모델이 판단한 것인데, 처음에는 흑인이 범죄를 더 많이 저지르고 경범죄는 더 쉽게 저지를 수 있으니 당연한 결과라고 생각했다.

 그러나 강의를 들으면서 비단 이런 문제 뿐만 아니라 편향된 데이터셋은 의도치 않은 문제를 발생한다는 것을 깨달았고, 데이터셋 구성에 좀 더 신경써야겠다는 생각이 들었다.

7. 박은정 (Upstage) - AI 시대의 커리어 빌딩

 아직 학부생일 때, 그리고 대학원 진학을 희망했을 때 이 강의를 들을 수 있었으면 참 좋았을 것이다. AI 분야에서 일하고 싶지만 어떻게 준비해야할지 모르는 사람들에게 정말 좋은 가이드라인이 되어주었다. 아직 배우는 중이라 전문성을 갖추진 못했지만, 깃헙이나 블로그 관리에 좀 더 힘을 쏟아야겠다 생각했다. 좋은 동기부여가 되었다.

8. 박성준 (Upstage) - 자연어 처리를 위한 언어 모델의 학습과 평가

 CV를 배울 때의 모델은 주로 한 가지 task에 집중적인 모델이 많았다. 가령, Classification 모델과 Segmentation 모델은 그 구조와, 받아들이는 정보가 상이하다. 그러나 BERT와 같은 사전학습 모델은 Fine-tuning을 통해 여러가지 Task를 동시에 수행할 수 있다. 여러 문제에 대한 모델의 성능을 평가하는 방법에 대해 배웠다.

2. 피어세션

 다음 주에는 KLUE 데이터를 활용하여 모델을 만드는 대회가 시작된다. 따라서 KLUE dataset이 어떻게 구성되어 있으며, 각 task별로 어떤 특징을 가지는지 확인하기로 하였다.

3. 회고

 피어세션이 끝난 후에는 자체적으로 쉬는 경우가 많았다. 좀 더 열정적으로 참여해야겠다.


참조

thumbnail : https://velog.io/@oneook/썸네일-메이커Thumbnail-Maker-Toy-Project

0개의 댓글