전처리 함수 transformers 정의불러오기 함수 CustomedDataset 정의torch용으로 전처리하는 함수 DataLoader 정의신경망 제작/ 불러오기신경망 수정하기사용할 optimizer 정의파라미터 업데이트될 레이어 정하기criterion (loss f
ref 혁펜하임님의 PCA 강의데이터의 분포를 가장 잘 설명하는 벡터(aka 주차원 벡터)를 찾고, 이를 활용하여 차원 축소를 하고자 한다가장 잘 설명하는 벡터는 무엇인가? 1\. 분포의 분산이 가장 큰 방향의 벡터 2\. 1.에 수직인 방향의 벡터표기 \- $\
$n$ 개의 층으로 이루어진 신경망이 있다고 하자 그리고 다음의 두 공식을 따른다 $\boldsymbol{z}^{(l)}=\boldsymbol{w}^{(l)}\boldsymbol{a} ^{(l-1)}+\boldsymbol{b}^{(l)}$ $\boldsymbo
$n$ 개의 층으로 이루어진 신경망이 있다고 하자 그리고 다음의 두 공식을 따른다 \- $\\boldsymbol{z}^{(l)}=\\boldsymbol{w}^{(l)}\\boldsymbol{a} ^{(l-1)}+\\boldsymbol{b}^{(l)}$ $\\b
코드들로 이루어져 있어 다음의 구글드라이브에 업로드 하였습니다https://drive.google.com/drive/folders/1M-mGLJ07N61iyJeAqkqwREy8RWNZz36k?usp=sharing
참고사항 \- 이때 디코더 멀티헤드 어텐션에 들어가는 인코딩 아웃풋은 각각 키와 밸류의 역할을, 첫번째 멀티헤드 어텐션의 아웃풋은 두번째 멀티헤드 어텐션의 쿼리로 기능을 한다 \- 마스크드 멀티헤드 어텐션은 예측시 정답지를 보는 것을 방지하기 위하여, 아래삼각행렬
correlation analysis의미 \- 두 변수 사이의 선형관계가 유의미 하게 존재하는지, 존재한다면 어느정도의 선형관계인지 '상관계수'라는 정량화된 값을 통하여 분석하는 방법 상관계수 correlation coefficient \- 두 변수 $X$,$Y$
$\\mathbb{E}\\displaystyle\\frac{1}{n-1}\\displaystyle\\sum\\limits{i=1}^{n}{(x {i}-\\overline{x}) ^{2}}$$=\\displaystyle\\frac{1}{n-1}\\mathbb{E}\\di
통계적 추론은 추정(모수에 가까운 통계량 찾기)과 가설검정으로 이루어진다추정 \- 가능한 모수값을 찾는것검정이론 \- 모집단의 성질에 대한 어떤 가설을 받아들일 것인가 기각할 것인가를 결정함예 \- 병을 치료하는데 기존 방법과 새로운 방법 사이 효과의 차이 \-
통계량 \- 미지의 모수를 포함하지 않는, 랜덤표본 $X {1},X {2},\\cdots,X \_{n}$ 의 함수추정량의 정의 \- 모수 $\\theta$ 의 함수 $g(\\theta)$를 추정하기 위해 사용되는 통계량 $T(\\theta)$추정값 \- 주어진 표
조건 \- 확률밀도함수 $f(x;\\theta)$로부터 랜덤표본 $X {1},X {2},\\cdots,X \_{n}$을 얻었다고 하자정의 \- $r$차 표본적률 $r$th sample moment \- $m {r}'=\\displaystyle\\frac{1}{n
일변수 정규분포 Gaussian distribution \- $f(x)=\\displaystyle\\frac{1}{\\sqrt{2\\pi}\\sigma}exp-\\displaystyle\\frac{1}{2}(\\displaystyle\\frac{x-\\mu}{\\si
통계학이란? \- 데이터를 잘 사용하는 방법을 알아내는 학문통계학의 분류 \- 기술통계학 Descriptive Statistics: 데이터셋 전체의 특성을 정리 요약하기 위해 사용되는 통계학 \- 추측통계학 Inferential Statistics \- 가지고
Seq2Seq모델은 인코더로부터 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터로 압축하고, 디코더는 컨텍스트 벡터를 입력받아 출력 시퀀스를 출력한다RNN은 다음과 같은 문제를 갖는다 1\. 하나의 고정된 크기 벡터에 모든 정보를 압축하려 하니 정보 손실이
RNN은 일대다 구조로 텍스트 분류를 해결한다던지, 다대다 구조로 개체명인식이나 품사 태깅등의 문제들을 해결할 수 있다인코더와 디코더라는 새로운 구조를 소개한다. 인코더와 디코더는 주로 입력 문장과 출력 문장의 길이가 다를 때 사용한다. \- 예: 번역, 텍스트 요약
기계에게 아무리 많은 단어를 학습시킨다 할지라도, 세상에 존재하는 모든 단어를 알려주는 것은 불가능하다따라서 기계가 모르는 단어(Out-Of-Vocabulary or Unknown Token)가 존재한다면 이 단어를 유추해내는 능력이 필요하다서브워드 분리Subword
용어정리 \- 채널 \- 이미지를 보통 높이,너비,채널의 3차원 텐서로 표기한다. 채널은 이미지의 색상일수도 있고, 이미지의 특성을 담은것일수도 있다 \- 합성곱 \- $\\boldsymbol{H}{i,j}=u+\\displaystyle\\sum{a=-\\
tensorflow.keras.layers.Embedding \- 케라스는 훈련 데이터셋의 단어들을 임베딩해주는 레이어를 제공한다 \- 임베딩은 기본적으로 '단어>정수 인코딩>원-핫>임베딩 벡터'순으로 이루어지나 케라스의 임베딩층은 정수 인코딩된 단어를 원-핫 벡
$f(t)=\\displaystyle\\sum{i=0}^{\\infty }{\\displaystyle\\frac{f ^{(n)}(x)}{n!}}(t-x) ^{n}$ \- $f(\\epsilon)=\\displaystyle\\sum{i=0}^{\\infty }{\\d