1. 개발 환경 설정 운영체제(Operating System) 장,단점 Window: 초기엔 쉬움 / 모듈설치 어려움 Linux: 모듈설치 쉬움, 참고문서 많음 / OS 자체 사용이 어려움 Mac: 모듈설치 쉬움,
스택 (Stack)LIFO 구조큐 (Queue)FIFO 구조튜플 (Tuple)값이 변경이 불가능한 리스트 (연산, 인덱싱, 슬라이싱은 동일)변경되지 않은 데이터의 저장에 사용집합 (Set)순서없이 저장, 중복 불허 하는 자료형다양한 집합 연산 가능딕셔너리 (dictio
Exception예상 가능한 예외사전에 인지할 수 있는 예외예상이 불가능한 예외인터프리터 과정에서 발생하는 예외예외 처리 (파이썬)기본적으로 제공하는 예외 ref.https://harryp.tistory.com/865 raise필요에 따라 강제로 Exce
1. Vector Vector 숫자를 원소로 가지는 리스트 또는 배열 공간에서 한 점을 나타냄 원점으로부터 상대적 위치를 표현 같은 모양을 가지면 사칙 연산 가능 norm 원점에서부터의 거리 L1 (변
확률분포데이터 공간: 𝒳×𝒴, 확률분포: 𝒟이산확률변수확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링연속확률변수데이터 공간에 정의된 확률변수의 밀도 위에서의 적분을 통해 모델링조건부확률P(y|x) 는 입력변수 x에 대해 정답이 y일 확률을
ML 라이브러리Pytorch (facebook): Dynamic Computation Graph(DCG)실행을 하면서 그래프를 생성하는 방식TensorFlow (Google): Define and run그래프를 먼저 정의 → 실행시점에 데이터 feedWhy Pytorc
torch.nn.Module딥러닝을 구성하는 Layer의 base classinput, output, forward, backward 정의학습의 대상이 되는 parameter(tensor) 정의 nn.ParameterTensor 객체의 상속 객체nn.Module 내에
Model parallel다중 GPU에 학습을 분산하는 두가지 방법 (모델 나누기, 데이터 나누기)모델의 병목, 파이프라인의 어려움 등으로 인해 모델 병렬화는 고난이도 과제Data parallel데이터를 나눠 GPU에 할당후 결과의 평균을 취하는 방법minibatch
model.save()학습의 결과를 저장하기 위한 함수모델 형태(architecture)와 파라메터를 저장모델 학습 중간 과정의 저장을 통해 최선의 결과 모델을 선택만들어진 모델을 외부 연구자와 공유하여 학습 재연성 향상checkpoints학습의 중간 결과를 저장하여
Pytorch 공식문서라이브러리의 모든 세부 정보가 담겨있는 곳으로 Custom 모델을 만들 때 꼭 필요한 정보들이 다 있다!https://pytorch.org/docs/stable/index.html인덱싱torch.index_select (input, dim
데이터 시각화데이터를 그래픽 요소로 매핑하여 시각적으로 표현요소: 목적, 독자, 데이터, 스토리, 방법, 디자인시각화는 100점이 없다!데이터셋 종류정형 데이터: 일반적으로 csv, 가장 쉽게 시각화시계열 데이터: 시간 흐름에 따른 데이터지리/지도 데이터관계 데이터:
Text다른 Visual representation이 줄 수 없는 많은 설명 추가 가능잘못된 전달에서 생기는 오해 방지과하면 오히려 방해종류Title: 가장 큰 주제 설명Label: 축에 해당하는 정보 제공Tick Label: 축에 눈금을 사용 (스케일 정보 추가)Le
Deep Learning 핵심 요소Data (모델 학습에 필요한)해결할 문제에 따라 변한다.Model (데이터를 변환할)Loss (모델의 오차를 수량화하는)loss function → 근사치MSE, MLE, Cross-entropy 등..Algorithm (loss를
Convolution두 개의 함수를 잘 섞어주는 것2D ConvolutionRGB ConvolutionCNNconvolution layer, pooling layer, fully connected layer로 구성strideconvolution 필터를 얼마나 자주 찍을
Generative modelGeneration: 단순 생성하는 모델 (implicit model)Density estimation: 이상 탐지, 입력이 주어졌을 때 확률값을 얻어내는 모델 (explicit model)Unsupervised representation
Polar Plot극 좌표계를 사용하는 시각화회전, 주기성 등을 표현하기에 적합projection = polar 를 추가직교 좌표계 X, Y에서 변환 가능Radar Chart극 좌표계를 사용하는 대표적인 차트중심점을 기준으로 N개의 변수 값을 표현데이터의 Quality
nn.Linear(prev_hdim, hdim, bias=True) : Linear layernn.ReLU(True) : 활성화 함수nn.Dropout2d(p=0.5) : dropout (p = 노드를 얼마나 활용 안할지)model.forward(x_torch) = m
수강생에게 바라는 모습큰 그림을 인지하는 사람직접 문제 정의를 하며, 능동적인 자세를 가지는 사람지속적으로 개선하는 사람강의 목표AI 엔지니어가 되기 위한 기본 소양 갖추기문제 정의에 대한 고민을 하는 사람추천 학습 방식강의는 1회만(대신 학습 자료로 자주 복습), 흐
가상화간단한 정의: 공통적으로 사용하는 일종의 템플릿개발 서버 FlowLocal 환경에서 개발완료되면 Staging 서버Production 서버에 배포개발 서버 문제점개발 환경과 배포 환경이 다른 경우 (여러가지 오류 발생 가능)같은 OS 환경이어도 올바르게 작동 안할
AI 모델 개발 (연구 관점) 정해진 데이터셋, 평가 방식에서 더 좋은 모델을 찾는 일AI 모델 개발 (서비스 관점) 서비스 개발 시에는 학습 데이터셋, 테스트 데이터셋, 테스트 방법이 없다.오로지, 서비스 요구 사항만 존재학습 데이터셋 서비스 요구사항으로 부터
Why Interactive?정적 시각화 단점공간적 낭비 크다. (feature가 10개 → 각각의 관계 45개 plot 필요)각각의 사용자는 원하는 인사이트가 다를 수 있다.—> plot이 많고 보고 싶은 feature가 정해지면 interactive 시각화Inter
리눅스 카카오톡 미션
✏️학습 정리 1. Part 1 - Bag of Words & Word Embedding NLP 목적: 딥러닝을 이용하여 인간의 언어를 이해하거나 생성하는 것 응용예시: 언어 모델, 기계 번역, 질의응답, 문서 분류, 대화 시스템(챗봇) 단계별
RNN구조서로 다른 time step에서 들어온 데이터를 처리할 때 동일한 parameter 사용hidden state 계산RNN Type one-one: 표준 NNone-many: Image Captioningmany-one: Sentiment Classificat
Seq2Seq Modelmany-to-many에 해당기본 구조 (encoder + decoder)Attentioninput sequence의 특정 부분에 집중하는 것이 핵심Seq2Seq Model with Attention Teacher forcingtrain 시
Tokenization (토큰화)주어진 입력 데이터를 자연어처리 모델이 인식할 수 있는 단위로 변환해주는 방법단어 단위 토큰화“I have a meal” → ’I’, ‘have’, ‘a’, ‘meal’Vocabulary컴퓨터가 인식할 수 있게 숫자 형식의 id로 매핑’
TransformerAttention is all you need 논문에서 처음 등장기존 RNN의 long term dependency를 해결Scaled Dot-Product Attentioninput: query, key, valueoutput: weighted su
한명이 push 하고 다른 사람이 바로 push할 때 (다른 파일)pull 후에 다시 push그러면, L3 R3가 merge된 새로운 commit이 생성된다.같은 파일 다른 줄 수정pull 하면 변경사항 적용같은 파일 같은 줄 수정충돌!하나만 선택할 건지 둘다 반영할
GPT-1 (Open AI)자연어 처리의 다양한 task들을 동시에 처리할 수 있는 통합된 Modeltask마다 다른 special token을 사용transfer learning 시, Linear 부분을 사용자에게 맞게 custom 가능 (문서 분류 → softmax
GPT-2동기: 다양한 NLP task들이 질의응답 (자연어 생성 output을 가지는) task로 통합할 수 있다.Reddit에서 최소 3 karma인 데이터만 scrap하여 사용 (good quality)Preprocess (BPE, Minimal fragmenta
서브워드 (Subword)하나의 단어를 여러개의 단위로 분리했을 때 하나의 단위subword → sub + word / su +bword ... (각각이 subword)서브워드 토큰화 (Subword tokenization)서브워드 단위로 토큰화"나는 밥을 먹는다" -