post-thumbnail

ReZero is All You Need, 뉴럴네트워크를 더 깊고 빠르게 학습하는 방법

딥 뉴럴 네트워크는 여러 분야에 걸쳐서 많은 성능 향상을 가져왔지만 종종 기울기가 사라지거나 과도하게 커지거나 하는 문제가 발생한다. 특히 12 레이어를 초과하고 많은 데이터셋과 컴퓨팅 자원이 필요한 트랜스포머 모델들도 이런한 문제에서 예외는 아니며, 저자들은 비효율적

2021년 8월 15일
·
0개의 댓글

pytorch | torch.bmm

Batch matrix multiplication 으로 두 operand가 모두 batch일때 사용하며, 브로드캐스트 기능을 지원하지 않는다. 두 입력은 3-D 텐서가 되어야한다.B, N, M x B, M, P = B, N, P$$out_i = input_i @ mat

2021년 8월 6일
·
0개의 댓글
post-thumbnail

BigBird, Block Sparse Attention

BigBird, Block Sparse Attention

2021년 8월 2일
·
0개의 댓글

BlenderBot 2.0: 장기 기억 메모리와 인터넷 검색을 활용한 오픈소스 챗봇

BlenderFackbookAI BlenderBot2.0 글에 대한 정리코드: blenderbot2Facebook에서 만든 장기 기억 메모리와 인터넷 검색을 사용하는 오픈소스 챗봇으로 blender의 두번째 버전이다. 소스와 데이터를 공개했다. 소스: facebookr

2021년 7월 21일
·
0개의 댓글

쿠버네티스 살펴보기 | 4. 쿠버네티스 처음 배포하기

subicura님의 쿠버네티스 안내서를 따라해보며 쿠버네티스 기본 사용법에 대해 익히고 정리.쿠버네티스는 설치부터 운영, 여러 고급 기능들을 알아야한다. 하지만 그 전반적인 과정이 어렵고 처음 접하는 사람에게 쉽지 않다. subicura님의 안내서는 가이드를 통해 최소

2021년 7월 20일
·
0개의 댓글

쿠버네티스 살펴보기 | 3. 쿠버네티스 기초 용어

쿠버네티스 살펴보기 | ① 쿠버네티스 개요 > 쿠버네티스 학습을 위한 제타위키 쿠버네티스 용어를 정리 쿠버네티스 기초 용어 쿠버네티스에 사용하는 기본 용어들에 대해 알아본다 필수 용어 Cluster, 클러스터: 노드라고 불리는 머신들의 집합으로 쿠버네티스가 관리하는

2021년 7월 19일
·
0개의 댓글

쿠버네티스 살펴보기 | 2. 쿠버네티스 구성요소

쿠버네티스 학습을 위한 쿠버네티스 공식문서를 정리쿠버네티스를 배포하면 클러스터가 생성된다. 이때 클러스터는 컨테이너를 실행하는 노드라 불리는 워커 머신의 집합이다. 모든 클러스터는 최소한 한개의 워커 노드를 가진다.워커 노드는 애플리케이션의 구성요소인 파드를 호스트 한

2021년 7월 14일
·
0개의 댓글

쿠버네티스 살펴보기 | 1. 쿠버네티스 개요

쿠버네티스 학습을 위한 쿠버네티스 공식문서를 정리쿠버네티스는 컨테이너화된 서비스를 관리하기 위한 이식성있고, 확장가능한 오픈소스 플랫폼이다. 즉 컨테이너들을 관리하기 위한 플랫폼이다. 선언적 구성과 자동화를 용이하게 해준다.쿠버네티스는 흔히 k8s라 불린다. K8s는

2021년 7월 14일
·
0개의 댓글

Poly-encoders: 빠르고 정확하게 여러 문장을 비교하고 스코어링 하기 위한 방법

최근에 프리트레이닝된 트랜스포머들을 수 많은 결과들을 보여주고 있습니다. 문장의 쌍을 비교하는데 일반적으로 2가지 방법을 사용합니다. 하나는 두 문장 전체에 Full Attention을 하는 Cross-encoder. 다른 하나는 문장을 각각 Encoding 후에 비교

2021년 5월 9일
·
0개의 댓글

React Native Expo iOS앱 App Store 등록 가이드

App Store Connect 사이트에 접속 후 로그인 합니다. 좌측 상단에 있는 Apps 버튼 옆에 +를 눌러 New App을 추가한 후 정보들을 기입합니다. 스크린샷과 설명, 키워드들을 가이드에 맞게 기입합니다. 정보를 다 채우면 우측 상단의 save 버튼을 클릭

2021년 5월 2일
·
0개의 댓글
post-thumbnail

10배 더 크고 10배 더 빠른 딥러닝 모델 학습, DeepSpeed

더 크고, 더 빠른 모델을 향해, DeepSpeed.최근에는 모델의 크기들이 점점 더 커지고 단일 GPU에서 학습하기 어려운 환경이 되어갑니다.어디서는 몇백개의 GPU와 TPU를 이용해 자유롭고 빠르게 학습하는 반면 개인 딥러너들은 갈수록 따라잡기 어려워지는 현실.하

2021년 4월 26일
·
0개의 댓글

사람처럼 대화하는 오픈-도메인 챗봇을 향해, Google Meena

Meena는 멀티턴 오픈 도메인 챗봇으로, 공개되어있는 소셜 데이터들을 수집하여 end-to-end로 만든 챗봇입니다. Meena는 다음 토큰을 예측하는 방식으로 학습하여 perplexity를 최소화 하도록 학습하였습니다. 크기는 2.6B개의 파라미터를 가지는 네트워크

2021년 4월 22일
·
0개의 댓글

Deview2020 루다 발표 자료 정리

Deview 2020 이루다 육아일기 발표를 정리한 내용하고자 합니다. 아래의 내용은 https://bit.ly/3mu8YWe 을 정리하며 작성했습니다. 챗봇의 경우 목적지향형챗봇(Goal-orientedchatbot) 과 오픈도메인챗봇(Open-domainc

2021년 4월 9일
·
0개의 댓글

Nvidia Apex를 이용한 모델 학습 최적화

Language Model Pretraining을 Colab에서 하다 보면, 학습시간도 단축하고 싶고, 배치 사이즈도 늘려서 학습하고 싶다는 생각이 들게 됩니다.자료를 찾아보다가 위와 같은 문제를 단 몇줄의 코드로 해결해주는 Nvidia의 APEX에 대해 정리

2021년 4월 5일
·
0개의 댓글

나만의 언어모델 만들기 - GPT-2 (Autoregressive Language Model) 만들기

이전 포스트에서 Reformer의 Encoder를 이용한 이용한 BERT 스타일의 Masked Language Model을 만들었습니다. 동일하게 Reformer의 Decoder를 이용해 대표적인 Decoder 언어모델인 GPT-2를 Pretraing 시켜보고자 합니다

2021년 4월 3일
·
0개의 댓글

React Native Expo Android앱 Google Play Store 등록

세부정보 등록 후 앱 만들기 선택하면 메인 화면으로 이동ㅇ함특수한 엑세스 권한 없이 모든 기능 이용가능등록하고자 하는 앱의 항목에 맞는 내용을 기입하고 콘텐츠 등급을 받습니다.간단하게 뉴스앱 여부만 선택합니ㅣ다 위의 절차를 완료하면 아래와 같이 등록된 내용들에 대해 체

2021년 3월 30일
·
0개의 댓글

React Native Expo Android앱 Google Play Store 등록 가이드

얼마전부터 준비했던 앱을 조금씩 배포하고자 합니다. 퇴근하고 하루에 조금씩만 진행하다보니 연속성이나 집중력도 떨어져서 기록으로 남기고자 합니다. 항상 일련의 절차가 익숙해지고 나면 그것을 다시 수행하는건 어려운일이 아니지만 이렇게 처음 앱스토어에 올릴때는 모든 절차들이

2021년 3월 15일
·
0개의 댓글
post-thumbnail

나만의 언어모델 만들기 - BERT Pretrained Language Model (Masked Language Model) 만들기

최근 자연어처리에서 많이 사용되는 대표적인 언어모델로 BERT, GPT, ELECTRA가 있습니다. 단계별로 언어모델을 학습하는 과정 학습해보고, Colab 환경에서 직접 학습 시켜보고자 합니다. https://github.com/nawnoes/reformer

2021년 3월 15일
·
0개의 댓글

Gradient Accumulation, 큰 모델 학습시 어떻게 배치 사이즈를 늘릴수 있을까?

최근에 파이토치로 모델을 학습하는 경우 단일 GPU로 학습하는 경우 메모리에 제한이 있어 큰 배치사이즈를 가지지 못하는 문제가 있습니다. 모델의 성능향상을 위해 어떻게 하면 더 큰 배치사이즈로 학습할 수 있을지 찾아보다 적용할 만한 부분이 있어 찾아보고 간략하게 정리하

2021년 2월 23일
·
0개의 댓글

Amazon AWS ELB와 EC2 인스턴스 연결

로드밸런서는 여러 가용영역에서 오는 어플리케이션의 트래픽을 EC2 인스턴스로 분산시켜주는 서비스를 말합니다. ELB의 장점으로는 큰 어려움없이 고 가용성을 가진 서비스를 구축할수 있는 장점. 로드밸런싱 알고리즘응로는 라운드로빈 방식을 사용하며, 헬스체크를 통해 인스턴

2021년 2월 15일
·
0개의 댓글